从语科库到匹配
做有效的用途互联网越来越是关于创造更好和更加聪明的应用和查寻引擎。 这简要的介绍入查寻引擎怎样运转:
01) 定义语科库、查寻空间或者数据;
02)分离语科库入文件;
03)引起每个文件的特点;
04)引起每个文件的表示法;
05)学习特点或向量空间;
06)使文件成群;
07)减少幅员;
08)接受输入询问;
09)发现余弦角度反对询问传染媒介;
10)发现被寻找的传染媒介专栏;
11)对用户的产品结果在某个方面;
在语科库(数据库)的每个文件由称索引词的一套主题词描述。 我们分配重量到索引词根据他们的相关性(发生例如频率),这是我们怎么去创造索引,那我们可以然后搜寻。
语科库准备:
网页利益分析并且去除超文件标记或其他亢奋语言清洗; 页然后是每个文件通过搜寻被扫描词或期限利益的被分解为的文件: 使一个文件独特的那些,不标准词。
萃取物期限利益:
记住期限利益一定不变式,那是典型文件,不普通和容易发现在所有语科库或文件。 想法是发现一个署名每个文件。
修造期限由文件矩阵:
查寻空间是由文件选上的期限或特点是在N期限空间的点的N维度定义的,这允许概念性或语义查寻。
每个文件成为专栏传染媒介,每行代表期限。 每行辨认一个期限的频率横跨被分析的语科库的,起初我们通过计数每个文件的期限建立矩阵。
压缩矩阵:
有二个基本的技术或方法,由行压缩行存贮(扫瞄矩阵行),并且压缩专栏存贮(扫瞄由专栏的矩阵专栏)两个使用三个列阵。
Normalis矩阵:
正常化暗示变换的专栏传染媒介对单位向量: 即单位长度传染媒介
单位文件传染媒介包含期限频率; 因为通常确定文件的语义内容期限,相对频率正常化是应用的。
奇异值分解:
这简化一个对称矩阵入三个矩阵二是相同的并且代表特征向量: 新的维度。 三是对角的并且代表本征值,那是语科库的传播沿这些新的维度的。
一个几何解释:
语科库在一个紧凑期限由文件矩阵首先formated,抽去和然后被存放。 然后正常化这样矩阵的每个专栏导致一个期限的可能横跨语科库的或者,相等地,期限频率在文件的。
期限由文件矩阵然后被分解计算eigen价值和传染媒介。 Eigen传染媒介代表跨过同一个查寻空间的一个新的解析的同等的框架,但是,他们表明文件主要说谎的最重要的维度或轴。 Eigen价值定量文件传播沿这些新的轴或eigen传染媒介的。
询问:
询问必须根据被定义的特点或在期限由文件矩阵之内的期限,配比在一个向量空间例如此通过乘反对期限的询问传染媒介实施以文件矩阵, ie询问传染媒介q与矩阵的本文相符。
ÃÆ'â⠂¬Å ¡ Âà ‚©我是Wandle工业博物馆(
http://www.wandle.org)的网站管理员。 在1983年建立由地方人民被确定保证谷的历史不再被忽略了,但是提高了了悟它的使用和好处的遗产社区。
文章来源: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
网管得到HTML代码
加上这条到你的网站!
网站管理员提交你的文章
无须登记!填写好的表格和你的文章是在 Messaggiamo.Com 目录!
版权 2006-2011 Messaggiamo.Com -
网站地图 -
Privacy -
网站管理员提交你的文章,以 Messaggiamo.Com 目录 [0.01]