Von den Korpora zum Zusammenbringen
Wirkungsvollen Gebrauch des Internets zu bilden ist
in zunehmendem Maße über die besseren und intelligenteren
Anwendungen Verursachens und die Search Engines. Ist hier eine
kurze Einleitung in, wie Search Engines arbeiten:
01) definieren das Korpus, Suche space/data;
02) trennen das Korpus in Dokumente;
03) erzeugen Eigenschaften für jedes Dokument;
04) erzeugen eine Darstellung jedes Dokumentes;
05) studieren den feature/vector Raum;
06) Blockdokumente;
07) verringern Dimensionalität;
08) nehmen Eingang Fragen an;
09) finden die Kosinuswinkel gegen den Frage Vektor;
10) finden die gesuchte vektorspalte;
11) ausgegebene Resultate zum Benutzer auf gewisse Weise;
Jedes Dokument in einem Korpus (Datenbank) wird durch
einen Satz Schlüsselwörter beschrieben, die Indexbezeichnungen
genannt werden. Wir weisen Gewichte Indexbezeichnungen
entsprechend ihrer Bedeutung (Frequenz des Auftretens zum Beispiel),
diese sind, wie wir über das Verursachen des Index gehen zu, dieses
wir können dann suchen.
Korpusvorbereitung:
Webseiten des Interesses werden durch das Entfernen der
Hypertextumbauten oder jeder anderen hyper Sprache analysiert und
gesäubert; Seiten sind dann unten in Dokumente gebrochen, in
denen jedes Dokument durch das Suchen nach words/terms des Interesses
abgelichtet wird: die, die ein Dokument einzigartige bilden,
nicht Standardwörter.
Extraktbezeichnungen des Interesses:
Bedenken Sie daß Bezeichnungen des Interesses muß
unveränderlich sein, das ist charakteristisch von einem Dokument ist,
nicht generisch und einfach, in jedem möglichem corpus/document zu
finden. Die Idee ist, eine Unterzeichnung pro Dokument zu
finden.
Bau Bezeichnung-durch-Dokument Matrix:
Der Suchraum wird durch N Maße, in denen das gewählte
terms/features eines Dokumentes ein Punkt im N Bezeichnung Raum ist,
dieses erlaubt conceptual/semantic Suchen definiert.
Jedes Dokument wird ein Spalte Vektor, jede Reihe
darstellt eine Bezeichnung. Jede Reihe kennzeichnet die Frequenz
einer Bezeichnung über dem analysierten Korpus, zuerst uns errichten
einfach die Matrix, indem sie die Bezeichnungen für jedes Dokument
zählt.
Drücken Sie die Matrix zusammen:
Es gibt zwei grundlegende techniques/methods,
zusammendrücken Reihe Speicher (Scan-Matrixreihe durch Reihe) und
Kompresse-Spalte Speicher (Scan-Matrixspalte durch Spalte) beide
verwenden drei Reihen.
Normalis die Matrix:
Normalisierung deutet umwandelnde Spalte Vektoren zu den
Maßeinheit Vektoren an: d.h. Vektoren der Maßeinheit Länge
Maßeinheit Dokumentvektoren enthalten Frequenz
von Bezeichnungen; die Normalisierung wird angewendet, weil dem
semantischen Inhalt eines Dokumentes im Allgemeinen die relative
Häufigkeit von Bezeichnungen festgestellt wird.
Einzigartige Wert-Aufspaltung:
Dieses vereinfacht eine symmetrische Matrix in drei
Matrizen zwei sind identisch und darstellen die Eigenvektoren:
die neuen Maße. Der Third ist diagonal und stellt die
Eigenwerte, den ist die Verbreitung des Korpus entlang diesen neuen
Maßen dar.
Eine geometrische Deutung:
Das Korpus ist formated zuerst, aufgehalten und wird
gespeichert dann in einer kompakten Bezeichnung-durch-Dokument Matrix.
Jede Spalte solcher Matrix wird dann normalisiert, um die
Wahrscheinlichkeit einer Bezeichnung über dem Korpus oder
gleichwertig die Frequenz von Bezeichnungen in einem Dokument zu
produzieren.
Die Bezeichnung-durch-Dokument Matrix wird dann zerlegt,
um eigen Werte und Vektoren zu errechnen. Eigen Vektoren stellen
einen neuen kartesischen beigeordneten Rahmen dar, der den gleichen
Suchraum überspannt, ABER, sie zeigen das wichtigste dimenions/axis
an, entlang dem Dokumente hauptsächlich liegen. Eigen Wert
bestimmen die Verbreitung der Dokumente entlang diesen neuen
axes/eigen Vektoren quantitativ.
Fragen:
Fragen müssen auf definiertem features/terms innerhalb
der Bezeichnung-durch-Dokument Matrix basieren und in vektorraum wie
diesem zusammenpassen, wird eingeführt, indem man den Frage Vektor
gegen die Bezeichnungen mit Dokumentmatrix, IE multipliziert, das
einen Frage Vektor q gegen die Dokumente der Matrix zusammenbringt.
Ã"â© bin ich der Web site Verwalter des
Wandle industriellen Museums (
http://www.wandle.org). Hergestellt
1983 durch lokale Leute stellte fest, sicherzugehen, daß die
Geschichte der Senke nicht mehr vernachlässigt wurde, aber erhöhte
Bewußtsein sein Erbe für den Gebrauch und den Nutzen von der
Gemeinschaft.
Artikel Quelle: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Holen Sie sich den HTML-Code fü Webmaster
Fügen Sie diese Artikel Ihrer Website jetzt hinzu!
Webmaster veröffentlichen Sie Ihre Artikel
Keine Anmeldung erforderlich! Füllen Sie das Formular aus und Ihr Artikel wird im Messaggiamo.Com Artikel-Verzeichnis aufgenommen!