English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

Od korpusy na vyrovnání

Seo RSS Feed





Efektivní využití internetu je stále více o vytváření více a lepších výsledků inteligentních aplikací a vyhledávačů. Zde je stručný úvod do problematiky, jak fungují vyhledávače: 01) Definujte korpusu, hledání prostor / data; 02) Samostatný soubor do dokumentů, 03) Vytvářet funkce pro každý dokument, 04) Vytvořit zastoupení každého dokumentu, 05), obor funkce / vektorový prostor, 06) Cluster dokladů, 07) Snížit rozměrů, 08) Accept vstupní Dotazy, 09) Najděte cosinus úhlu vůči dotazu vektoru; 10) Najděte vektor žádá sloupci 11) Výstup výsledků uživatel nějakým způsobem; Každý dokument v korpusu (databáze), je popsán sadou klíčových slov, tzv. index podmínek. Přiřadíme váhy indexu termínech podle jejich významu (četnosti výskytu, například), to je to, jak máme vytvořit index, který se pak můžeme search.Corpus příprava: Webové stránky zájmu jsou analyzovány a vyčistit odstranění hypertextových značek nebo jakékoliv jiné hyper jazyka; Stránky jsou pak členěny do dokumentů, kde je každý dokument skenovat prostřednictvím vyhledávání slov / hlediska zájmu: těch, které tvoří unikátní dokument, není standardní words.Extract hlediska zájmu: Mějte na paměti, že jde o zájmu musí být neměnná, to jest být charakteristický dokumentu, generických a není snadné najít v každém souboru / dokumentu. Cílem je najít podpis na document.Build termín-by-dokument matice: Hledání prostoru je definován podle rozměrů N, kde vybrané podmínky / vlastnosti dokumentu je bod v prostoru termínu N, to umožňuje koncepční / sémantické searches.Each dokumentu se stane sloupcový vektor, každý řádek představuje termín. Každý řádek určuje frekvence pojmu v celé analýze korpusu, na Nejprve jsme prostě postavit matice počítání podmínky pro všechny document.Compress matice: Existují dvě základní techniky / metody, Compress Row Storage (Kontroluje matice řádcích) a Komprese Sloupec Storage (Skenování sloupce matice podle sloupce) Oba používají tři arrays.Normalis matice: Normalizace znamená transformovat do sloupce vektory jednotkové vektory: tj. vektory jednotkové vektory lengthUnit dokument obsahovat frekvenci podmínek; normalizace se používá proto, že významový obsah dokumentu je obecně stanovena relativní četnost terms.Singular Value Decomposition: To zjednodušuje symetrické matice na tři matice Dva z nich jsou shodné a představují vektory: nové rozměry. Třetí je diagonální a představuje eigenvalues, že je rozšíření korpusu podél těchto nových dimensions.A geometrické interpretace: korpus je první formátované, zastavil a poté uložen v kompaktním termín-by-dokument matice. Každý sloupec této matice je pak normalizovány produkovat pravděpodobnost pojmu v celé korpusu, nebo, ekvivalentně, četnost termíny v dokumentu.Úlohu termín-by-dokument matice je pak rozložen vypočítat eigen hodnot a vektorů. Eigen vektory představují nové souřadnicové rámu zahrnující stejné vyhledávací prostor VUT, uvádějí Nejdůležitější dimenions / osy, podél níž dokumenty hlavně lež. Eigen hodnota se vyčíslila šíření dokumentů podél těchto nových os / eigen vectors.Queries: Dotazy musí být založena na definované funkce a podmínek v rámci termín-by-dokument matice, odpovídající ve vektorovém prostoru, jako je provádí vynásobením vektoru dotazu proti podmínkám na základě dokumentu matice, tj. odpovídající dotazu vektor q proti dokumenty matrix.ÃƒÆ 'à ¢ â, ¬ Å ¡ÃƒÂ € SA, © Jsem na internetových stránkách správce Wandle průmyslové muzeum (http://www.wandle.org). Založena v roce 1983 místními lidmi odhodlána zajistit, že historie údolí už opomíjených, ale zvýšení informovanosti jeho dědictví pro používání a výhody komunity.

Článek Zdroj: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Webmaster si html kód
Přidejte tento článek do svých webových stránek se!

Webmaster Zašlete svůj článek
Ne nutná registrace! Vyplňte formulář a váš článek je v Messaggiamo.Com Adresář!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Odešlete vaše články na Messaggiamo.Com Adresář

Kategorie


Copyright 2006-2011 Messaggiamo.Com - Mapa stránek - Privacy - Webmaster předložit vaše články na Messaggiamo.Com Adresář [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu