English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

Von den Korpora zum Zusammenbringen

Seo RSS Feed





Wirkungsvollen Gebrauch des Internets zu bilden ist in zunehmendem Maße über die besseren und intelligenteren Anwendungen Verursachens und die Search Engines. Ist hier eine kurze Einleitung in, wie Search Engines arbeiten:

01) definieren das Korpus, Suche space/data;
02) trennen das Korpus in Dokumente;
03) erzeugen Eigenschaften für jedes Dokument;
04) erzeugen eine Darstellung jedes Dokumentes;
05) studieren den feature/vector Raum;
06) Blockdokumente;
07) verringern Dimensionalität;
08) nehmen Eingang Fragen an;
09) finden die Kosinuswinkel gegen den Frage Vektor;
10) finden die gesuchte vektorspalte;
11) ausgegebene Resultate zum Benutzer auf gewisse Weise;

Jedes Dokument in einem Korpus (Datenbank) wird durch einen Satz Schlüsselwörter beschrieben, die Indexbezeichnungen genannt werden. Wir weisen Gewichte Indexbezeichnungen entsprechend ihrer Bedeutung (Frequenz des Auftretens zum Beispiel), diese sind, wie wir über das Verursachen des Index gehen zu, dieses wir können dann suchen.

Korpusvorbereitung:
Webseiten des Interesses werden durch das Entfernen der Hypertextumbauten oder jeder anderen hyper Sprache analysiert und gesäubert; Seiten sind dann unten in Dokumente gebrochen, in denen jedes Dokument durch das Suchen nach words/terms des Interesses abgelichtet wird: die, die ein Dokument einzigartige bilden, nicht Standardwörter.

Extraktbezeichnungen des Interesses:
Bedenken Sie daß Bezeichnungen des Interesses muß unveränderlich sein, das ist charakteristisch von einem Dokument ist, nicht generisch und einfach, in jedem möglichem corpus/document zu finden. Die Idee ist, eine Unterzeichnung pro Dokument zu finden.

Bau Bezeichnung-durch-Dokument Matrix:
Der Suchraum wird durch N Maße, in denen das gewählte terms/features eines Dokumentes ein Punkt im N Bezeichnung Raum ist, dieses erlaubt conceptual/semantic Suchen definiert.

Jedes Dokument wird ein Spalte Vektor, jede Reihe darstellt eine Bezeichnung. Jede Reihe kennzeichnet die Frequenz einer Bezeichnung über dem analysierten Korpus, zuerst uns errichten einfach die Matrix, indem sie die Bezeichnungen für jedes Dokument zählt.

Drücken Sie die Matrix zusammen:
Es gibt zwei grundlegende techniques/methods, zusammendrücken Reihe Speicher (Scan-Matrixreihe durch Reihe) und Kompresse-Spalte Speicher (Scan-Matrixspalte durch Spalte) beide verwenden drei Reihen.

Normalis die Matrix:
Normalisierung deutet umwandelnde Spalte Vektoren zu den Maßeinheit Vektoren an: d.h. Vektoren der Maßeinheit Länge

Maßeinheit Dokumentvektoren enthalten Frequenz von Bezeichnungen; die Normalisierung wird angewendet, weil dem semantischen Inhalt eines Dokumentes im Allgemeinen die relative Häufigkeit von Bezeichnungen festgestellt wird.

Einzigartige Wert-Aufspaltung:
Dieses vereinfacht eine symmetrische Matrix in drei Matrizen zwei sind identisch und darstellen die Eigenvektoren: die neuen Maße. Der Third ist diagonal und stellt die Eigenwerte, den ist die Verbreitung des Korpus entlang diesen neuen Maßen dar.

Eine geometrische Deutung:
Das Korpus ist formated zuerst, aufgehalten und wird gespeichert dann in einer kompakten Bezeichnung-durch-Dokument Matrix. Jede Spalte solcher Matrix wird dann normalisiert, um die Wahrscheinlichkeit einer Bezeichnung über dem Korpus oder gleichwertig die Frequenz von Bezeichnungen in einem Dokument zu produzieren.

Die Bezeichnung-durch-Dokument Matrix wird dann zerlegt, um eigen Werte und Vektoren zu errechnen. Eigen Vektoren stellen einen neuen kartesischen beigeordneten Rahmen dar, der den gleichen Suchraum überspannt, ABER, sie zeigen das wichtigste dimenions/axis an, entlang dem Dokumente hauptsächlich liegen. Eigen Wert bestimmen die Verbreitung der Dokumente entlang diesen neuen axes/eigen Vektoren quantitativ.

Fragen:
Fragen müssen auf definiertem features/terms innerhalb der Bezeichnung-durch-Dokument Matrix basieren und in vektorraum wie diesem zusammenpassen, wird eingeführt, indem man den Frage Vektor gegen die Bezeichnungen mit Dokumentmatrix, IE multipliziert, das einen Frage Vektor q gegen die Dokumente der Matrix zusammenbringt.

Ã"â© bin ich der Web site Verwalter des Wandle industriellen Museums (http://www.wandle.org). Hergestellt 1983 durch lokale Leute stellte fest, sicherzugehen, daß die Geschichte der Senke nicht mehr vernachlässigt wurde, aber erhöhte Bewußtsein sein Erbe für den Gebrauch und den Nutzen von der Gemeinschaft.

Artikel Quelle: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Holen Sie sich den HTML-Code fü Webmaster
Fügen Sie diese Artikel Ihrer Website jetzt hinzu!

Webmaster veröffentlichen Sie Ihre Artikel
Keine Anmeldung erforderlich! Füllen Sie das Formular aus und Ihr Artikel wird im Messaggiamo.Com Artikel-Verzeichnis aufgenommen!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Veröffentlichen Sie Ihre Texte im Messaggiamo.Com Artikel-Verzeichnis

Kategorien


Copyright 2006-2011 Messaggiamo.Com - Site Map - Privacy - Webmaster, veröffentlichen Sie Ihre Artikel kostenfrei auf Messaggiamo.Com! [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu