От корпуси за съвпадение
Ефективното използване на интернет е все по-добре и за създаването на по-интелигентни приложения и търсачките. Тук е кратко представяне за това как работят търсачките: 01) определя корпус, търсене пространство / данни; 02) Разделете корпус в документи; 03) Създаване на възможности за всеки документ; 04) Генериране на представяне на всеки документ; 05) изследване на функция / векторно пространство; 06) клъстер документи; 07) Намаляване размерност; 08) приемат въвеждане на заявки; 09) Намерете косинус ъгли срещу заявка вектор; 10) Намерете иска вектор колона; 11) постигнатите резултати на потребителите по някакъв начин, всеки документ, в корпус (база данни) е описан от един набор от ключови думи наречен индекс условия. Ние възлага тежестта за индексиране условия в съответствие с тяхното значение (честотата на възникване например), това е начина, по който може да създаде на индекса, че ние можем да search.Corpus подготовка: Уеб страницата на интереси се анализират и да се почистват чрез премахване на хипертекст маркировки или други хипер език; Страницата се разпределят в документа, където се сканират всеки документ, чрез търсене на думи / отношение на интерес: тези, които правят един уникален документ, а не стандартните words.Extract отношение на интерес: Имайте предвид, че от гледна точка на интерес трябва да бъде непроменяеми, т.е. да са характерни за даден документ, родов характер и лесно да се намерят във всеки корпус / документ. Идеята е да се намери един подпис на document.Build план-по-документ матрица: Търсенето пространство се определя от размера N Когато избраният условия / характеристики на документ е точка в срока пространство N, това позволява на концептуалната / семантични документ searches.Each става една колона вектор, всеки ред представлява един мандат. Всеки ред определя честотата на един мандат през анализирания корпус, в Първо ние просто изгради матрица от преброяването на условия за всеки document.Compress матрицата: Има две основни техники / методи, компресиране на Ред съхранение (Сканиране матрица ред по ред) и сгъстяване на колона на съхранение (Сканиране матрица колона по колона) двете използват три arrays.Normalis матрицата: Нормализиране предполага превръщането на колона вектори за единица вектори: т.е. носители на единица вектори lengthUnit документ съдържа честотата на условията, а нормализиране се прилага, тъй като семантично съдържание на документ обикновено се определя относителната честота на terms.Singular стойност на разлагане: Това опростява една симетрична матрица в три матрици Двама са идентични и представляват eigenvectors: нови измерения. Третият е диагонал и представлява собствени стойности, т.е. разпространението на корпуса по тези нови dimensions.A геометрична интерпретация: Корпусът е първо форматиран, произтича и след това се съхраняват в компактен план-по-документ матрица. Всяка колона на тази матрица, след това се нормализира за производство на вероятността за целия Европейски корпус, или, което е същото, честотата на Условия в document.The план-по-документ матрица, след това се разлагат за изчисляване Eigen стойности и вектори. Eigen вектори представляват нов декартови координати рамка обхваща едно и също място за търсене, но те посочват Най-важните dimenions / ос по която документите, които основно лъжа. Eigen стойност направи количествена разпространение на документи по тези нови оси / Eigen vectors.Queries: Заявки трябва да се основава на определени функции / условия в рамките на план-по-документ матрица, съчетаване в векторно пространство, като това се осъществява чрез умножаване на вектор заявка срещу условията на документ матрица, т.е. съчетаване на заявка р вектор с документите на matrix.ÃƒÆ "А ¢ В, ¬ Е ¡Ãƒâ € SA, В © Аз съм администратора на сайта на промишления музей Wandle (http://www.wandle.org). Основана през 1983 г. от местните хора решени да гарантират, че историята на долината вече не пренебрегнати, но голяма публичност наследство му за употребата и ползите от общността.
Член Източник: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
уебмастъра Вземи Html кодекс
Добави тази статия на вашия сайт сега!
уебмастъра Подайте членове
Не е необходима регистрация! Попълнете формата и статията ви е в Messaggiamo.Com директория!