Van Corpora aan Aanpassing
Het maken van efficiënt gebruik van Internet is meer en
meer over het creëren van betere en intelligentere toepassingen en
onderzoeksmotoren. Hier is een korte inleiding in hoe de
onderzoeksmotoren werken:
01) Bepaal het corpus, onderzoeksruimte/gegevens;
02) Scheid het corpus in documenten;
03) Produceer eigenschappen voor elk document;
04) Produceer een vertegenwoordiging van elk document;
05) Bestudeer de eigenschap/de vectorruimte;
06) Groepeer me documenten;
07) Verminder dimensionaliteit;
08) Keur inputvragen goed;
09) Vind de cosinushoeken tegen de vraagvector;
10) Vind de gezochte vectorkolom;
11) De resultaten van de output aan gebruiker op één of andere
manier;
Elk document in een corpus (gegevensbestand) wordt
beschreven door een reeks sleutelwoorden genoemd indextermijnen.
Wij wijzen gewichten aan indextermijnen volgens toe hun
relevantie (frequentie van voorkomen bijvoorbeeld), zo gaan wij over
het creëren van de index, die wij kunnen dan zoeken.
De voorbereiding van het corpus:
De Web-pagina's van belang worden geanalyseerd en door
hypertextmarkeringen of een andere hypertaal te verwijderen
schoongemaakt; De pagina's worden dan opgesplitst in documenten
waar elk document door het zoeken naar woorden/termijnen van belang
wordt afgetast: die die tot een document unieke, niet
standaardwoorden maken.
De termijnen van het uittreksel van belang:
Houd in gedachten dat de termijnen van belang
onveranderlijk moeten zijn, dat kenmerkend is van een document is,
niet generisch en gemakkelijk om in om het even welk corpus/document
te vinden Het idee is een handtekening per document te vinden.
Bouw termijn-door-document matrijs:
De onderzoeksruimte wordt bepaald door de dimensies van N
waar de gekozen termijnen/de eigenschappen van een document een punt
in de N- term ruimte zijn, staat dit conceptuele/semantische
onderzoeken toe.
Elk document wordt een kolomvector, vertegenwoordigt elke
rij een termijn. Elke rij identificeert de frequentie van een
termijn over het geanalyseerde corpus, aanvankelijk bouwen wij
eenvoudig de matrijs door de termijnen voor elk document te tellen.
Pers de matrijs samen:
Er zijn twee basistechnieken/methodes, samenperst de
Opslag van de Rij (de matrijsrij van het Aftasten door rij) en de
Opslag van de Kolom van het Kompres (de de matrijskolom van het
Aftasten door kolom) Beide gebruik drie series.
Normalis de matrijs:
De normalisatie impliceert omzettend kolomvectoren aan
eenheidsvectoren: d.w.z. vectoren van eenheidslengte
De het documentvectoren van de eenheid bevatten frequentie
van termijnen; de normalisatie wordt toegepast omdat de
semantische inhoud van een document over het algemeen de relatieve
frequentie van termijnen wordt bepaald.
De bijzondere Decompositie van de Waarde:
Dit vereenvoudigt een symmetrische matrijs in drie
matrijzen Twee is identiek en vertegenwoordigt de eigen vectoren:
de nieuwe afmetingen. Het derde is diagonaal en
vertegenwoordigt de eigenwaarden, dat de verspreiding van het corpus
langs deze nieuwe afmetingen is.
Een geometrische interpretatie:
Het corpus is eerste formated, zijn oorsprong vond en dan
wordt opgeslagen in compacte een termijn-door-document matrijs.
Elke kolom van dergelijke matrijs is dan genormaliseerd om de
waarschijnlijkheid van een termijn over het corpus, of, equivalently,
de frequentie van termijnen in een document te veroorzaken.
Wordt de termijn-door-document matrijs dan ontbonden om
eigenwaarden en vectoren te berekenen. De vectoren van Eigen
vertegenwoordigen een nieuw Cartesiaans gecoördineerd kader dat de
zelfde onderzoeksruimte overspant, MAAR zij wijzen op belangrijkste
dimenions/as waarlangs de documenten hoofdzakelijk liggen. De
waarde van Eigen kwantificeert de verspreiding van documenten langs
deze nieuwe assen/eigenvectoren.
Vragen:
De vragen moeten onder bepaalde eigenschappen/voorwaarden
binnen de termijn-door-document matrijs worden gebaseerd, wordt de
aanpassing in een vectorruimte zoals dit uitgevoerd door de
vraagvector tegen de termijnen met documentmatrijs te
vermenigvuldigen, d.w.z. aanpassend een vraag vectorq tegen de
documenten van de matrijs.
Ã"â© ik ben de websitebeheerder van het
industriële museum Wandle (
http://www.wandle.org). Gevestigd
in 1983 door lokale mensen bepaalde om ervoor te zorgen dat de
geschiedenis van de vallei niet meer werd veronachtzaamd maar
voorlichting zijn erfenis voor het gebruik en de voordelen van de
gemeenschap verbeterde.
Artikel Bron: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster krijgen html code
Voeg dit artikel aan uw website!
Webmaster verzenden van artikelen
Geen registratie vereist! Vul het formulier in en uw artikel is in de Messaggiamo.Com Directory!