Od korpusy na vyrovnanie
Efektívne využitie internetu je stále viac o vytváranie viac a lepších výsledkov inteligentných aplikácií a vyhľadávačov. Tu je stručný úvod do problematiky, ako fungujú vyhľadávače: 01) Definujte korpusu, hľadanie priestor / data; 02) Samostatný súbor do dokumentov, 03) Vytvárať funkcie pre každý dokument, 04) Vytvoriť zastúpenie každého dokumentu, 05), obor funkcie / vektorový priestor, 06) Cluster dokladov, 07) Znížiť rozmerov, 08) Accept vstupné Otázky, 09) Nájdite kosínus voči dotazu vektora; 10) Nájdite vektor žiada stĺpci 11) Výstup výsledkov používateľ nejakým spôsobom; Každý dokument v korpusu (databázy), je opísaný sadou kľúčových slov, tzv index podmienok. Priradíme váhy indexu termínoch podľa ich dôležitosti (frekvencie výskytu, napríklad), to je to, ako máme vytvoriť index, ktorý sa potom môžeme search.Corpus príprava: Webové stránky záujmu sú analyzované a vyčistiť odstránenie hypertextových značiek alebo akékoľvek iné hyper jazyka; Stránky sú potom členené do dokumentov, kde je každý dokument skenovať prostredníctvom vyhľadávanie slov / hľadiska záujmu: tých, ktoré tvoria unikátny dokument, nie je štandardná words.Extract hľadiska záujmu: Majte na pamäti, že ide o záujmu musí byť nemenná, to jest byť charakteristický dokumentu, generických a nie je ľahké nájsť v každom súbore / dokumente. Cieľom je nájsť podpis na document.Build termín-by-dokument matica: Hľadanie priestoru je definovaný podľa rozmerov N, kde vybrané podmienky / vlastnosti dokumentu je bod v priestore termíne N, to umožňuje koncepčné / sémantickej searches.Each dokumente sa stane stĺpcový vektor, každý riadok predstavuje termín. Každý riadok určuje frekvencia pojmu v celej analýze korpusu, na Najprv sme jednoducho postaviť matice počítanie podmienky pre všetky document.Compress matice: Existujú dve základné techniky / metódy, Compress Row Storage (Overuje matice riadkoch) a Kompresia Stĺpec Storage (Skenovanie stĺpce matice podľa stĺpca) Obidva používajú tri arrays.Normalis matice: Normalizácia znamená transformovať do stĺpca vektory jednotkovej vektormi: tj vektory jednotkovej vektormi lengthUnit dokument obsahovať frekvenciu podmienok; normalizácie sa používa preto, že sémantický obsah dokumentu je všeobecne stanovená relatívna početnosť terms.Singular Value Decomposition: To zjednodušuje symetrickej matice na tri matice Dvaja z nich sú zhodné a predstavujú vektory: nové rozmery. Tretí je diagonálne a predstavuje eigenvalues, že je rozšírenie korpusu pozdĺž týchto nových dimensions.A geometrickej interpretácie: korpus je prvý formátované, zastavil a potom uložený v kompaktnom termín-by-dokument matica. Každý stĺpec tejto matice je potom normalizované produkovať pravdepodobnosť pojmu v celej korpusu, alebo, ekvivalentne, frekvencia termíny v dokumentu.Úlohu termín-by-dokument matica je potom rozložený vypočítať eigen hodnôt a vektorov. Eigen vektory predstavujú nové súradnicové ráme zahŕňajúci rovnaké vyhľadávacie priestor VUT, uvádzajú Najdôležitejšie dimenions / osi, pozdĺž ktorej dokumenty hlavne lož. Eigen hodnota sa vyčíslila šírenie dokumentov pozdĺž týchto nových os / eigen vectors.Queries: Otázky musia byť založená na definované funkcie a podmienok v rámci termín-by-dokument matica, zodpovedajúce vo vektorovom priestore, ako je uskutočňuje vynásobením vektora dotazu proti podmienkam na základe dokumentu matice, tj zodpovedajúce dotazu vektor q proti dokumenty matrix.ÃƒÆ 'à ¢ â, ¬ Å ¡Ã € SA, © Som na internetovej stránke správcu Wandle priemyselné múzeum (http://www.wandle.org). Založená v roku 1983 miestnymi ľuďmi odhodlaná zabezpečiť, že história doline už zabudnutých, ale zvýšenie povedomia jeho dedičstva pre používanie a výhody komunity.
Článok Zdroj: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster si html kód
Pridajte tento článok do svojich webových stránok sa!
Webmaster Pošlite svoj článok
Nie nutná registrácia! Vyplňte formulár a Váš článok je v Messaggiamo.Com Adresár!