English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

От корпуси за съвпадение

Seo RSS Feed





Ефективното използване на интернет е все по-добре и за създаването на по-интелигентни приложения и търсачките. Тук е кратко представяне за това как работят търсачките: 01) определя корпус, търсене пространство / данни; 02) Разделете корпус в документи; 03) Създаване на възможности за всеки документ; 04) Генериране на представяне на всеки документ; 05) изследване на функция / векторно пространство; 06) клъстер документи; 07) Намаляване размерност; 08) приемат въвеждане на заявки; 09) Намерете косинус ъгли срещу заявка вектор; 10) Намерете иска вектор колона; 11) постигнатите резултати на потребителите по някакъв начин, всеки документ, в корпус (база данни) е описан от един набор от ключови думи наречен индекс условия. Ние възлага тежестта за индексиране условия в съответствие с тяхното значение (честотата на възникване например), това е начина, по който може да създаде на индекса, че ние можем да search.Corpus подготовка: Уеб страницата на интереси се анализират и да се почистват чрез премахване на хипертекст маркировки или други хипер език; Страницата се разпределят в документа, където се сканират всеки документ, чрез търсене на думи / отношение на интерес: тези, които правят един уникален документ, а не стандартните words.Extract отношение на интерес: Имайте предвид, че от гледна точка на интерес трябва да бъде непроменяеми, т.е. да са характерни за даден документ, родов характер и лесно да се намерят във всеки корпус / документ. Идеята е да се намери един подпис на document.Build план-по-документ матрица: Търсенето пространство се определя от размера N Когато избраният условия / характеристики на документ е точка в срока пространство N, това позволява на концептуалната / семантични документ searches.Each става една колона вектор, всеки ред представлява един мандат. Всеки ред определя честотата на един мандат през анализирания корпус, в Първо ние просто изгради матрица от преброяването на условия за всеки document.Compress матрицата: Има две основни техники / методи, компресиране на Ред съхранение (Сканиране матрица ред по ред) и сгъстяване на колона на съхранение (Сканиране матрица колона по колона) двете използват три arrays.Normalis матрицата: Нормализиране предполага превръщането на колона вектори за единица вектори: т.е. носители на единица вектори lengthUnit документ съдържа честотата на условията, а нормализиране се прилага, тъй като семантично съдържание на документ обикновено се определя относителната честота на terms.Singular стойност на разлагане: Това опростява една симетрична матрица в три матрици Двама са идентични и представляват eigenvectors: нови измерения. Третият е диагонал и представлява собствени стойности, т.е. разпространението на корпуса по тези нови dimensions.A геометрична интерпретация: Корпусът е първо форматиран, произтича и след това се съхраняват в компактен план-по-документ матрица. Всяка колона на тази матрица, след това се нормализира за производство на вероятността за целия Европейски корпус, или, което е същото, честотата на Условия в document.The план-по-документ матрица, след това се разлагат за изчисляване Eigen стойности и вектори. Eigen вектори представляват нов декартови координати рамка обхваща едно и също място за търсене, но те посочват Най-важните dimenions / ос по която документите, които основно лъжа. Eigen стойност направи количествена разпространение на документи по тези нови оси / Eigen vectors.Queries: Заявки трябва да се основава на определени функции / условия в рамките на план-по-документ матрица, съчетаване в векторно пространство, като това се осъществява чрез умножаване на вектор заявка срещу условията на документ матрица, т.е. съчетаване на заявка р вектор с документите на matrix.ÃƒÆ "А ¢ В, ¬ Е ¡Ãƒâ € SA, В © Аз съм администратора на сайта на промишления музей Wandle (http://www.wandle.org). Основана през 1983 г. от местните хора решени да гарантират, че историята на долината вече не пренебрегнати, но голяма публичност наследство му за употребата и ползите от общността.

Член Източник: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


уебмастъра Вземи Html кодекс
Добави тази статия на вашия сайт сега!

уебмастъра Подайте членове
Не е необходима регистрация! Попълнете формата и статията ви е в Messaggiamo.Com директория!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Подайте членове на Messaggiamo.Com директория

Категории


Авторско право 2006-2011 Messaggiamo.Com - Карта на сайта - Privacy - уебмастъра представят вашите статии за Messaggiamo.Com директория [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu