從語科庫到匹配
做有效的用途互聯網越來越是關於創造更好和更加聰明的應用和查尋引擎。 这簡要的介紹入查尋引擎怎样运转:
01) 定義語科庫、查寻空间或者數據;
02)分離語科庫入文件;
03)引起每個文件的特點;
04)引起每個文件的表示法;
05)學習特點或向量空间;
06)使文件成群;
07)減少幅員;
08)接受輸入詢問;
09)發現餘弦角度反對詢問傳染媒介;
10)發現被尋找的傳染媒介專欄;
11)對用戶的產品結果在某個方面;
在語科庫(數據庫)的每個文件由称索引词的一套主題詞描述。 我們分配重量到索引词根據他們的相關性(發生例如頻率),這是我們怎麼去創造索引,那我們可以然後搜尋。
語科庫準備:
網頁利益分析并且去除超文件標記或其他亢奮語言清洗; 頁然後是每個文件通过搜尋被掃描詞或期限利益的被分解為的文件: 使一個文件獨特的那些,不標準詞。
萃取物期限利益:
記住期限利益一定不變式,那是典型文件,不普通和容易發現在所有語科庫或文件。 想法是發現一個署名每個文件。
修造期限由文件矩陣:
查寻空间是由文件選上的期限或特點是在N期限空間的點的N維度定義的,這允许概念性或語義查尋。
每個文件成為專欄傳染媒介,每行代表期限。 每行辨認一個期限的頻率橫跨被分析的語科庫的,起初我們通过計數每個文件的期限建立矩陣。
壓縮矩陣:
有二個基本的技術或方法,由行壓縮行存貯(掃瞄矩陣行),并且壓縮專欄存貯(掃瞄由專欄的矩陣專欄)兩個使用三個列陣。
Normalis矩陣:
正常化暗示變換的專欄傳染媒介對单位向量: 即单位长度傳染媒介
單位文件傳染媒介包含期限頻率; 因為通常確定文件的語義內容期限,相对频率正常化是應用的。
奇异值分解:
這簡化一個对称矩阵入三個矩陣二是相同的并且代表特徵向量: 新的維度。 三是對角的并且代表本徵值,那是語科庫的傳播沿這些新的維度的。
一個幾何解釋:
語科庫在一個緊湊期限由文件矩陣首先formated,抽去和然後被存放。 然後正常化這樣矩陣的每個專欄导致一個期限的可能橫跨語科庫的或者,相等地,期限頻率在文件的。
期限由文件矩陣然後被分解計算eigen價值和傳染媒介。 Eigen傳染媒介代表跨過同一個查寻空间的一個新的解析的同等的框架,但是,他們表明文件主要說謊的最重要的維度或軸。 Eigen價值定量文件傳播沿這些新的軸或eigen傳染媒介的。
詢問:
詢問必须根据被定義的特點或在期限由文件矩陣之內的期限,配比在一個向量空间例如此通过乘反對期限的詢問傳染媒介實施以文件矩陣, ie詢問傳染媒介q与矩陣的本文相符。
ÃÆ'â⠂¬Å ¡ Âà ‚©我是Wandle工業博物館(
http://www.wandle.org)的網站管理員。 在1983年建立由地方人民被確定保证榖的歷史不再被忽略了,但是提高了了悟它的使用和好處的遺產社區。
文章來源: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
網管得到HTML代碼
加上這條到你的網站!
網站管理員提交你的文章
無須登記!填寫好的表格和你的文章是在 Messaggiamo.Com 目錄!
版權 2006-2011 Messaggiamo.Com -
網站地圖 -
Privacy -
網站管理員提交你的文章,以 Messaggiamo.Com 目錄 [0.01]