English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

Dos corpus à harmonização

Seo RSS Feed





A factura do uso eficaz do Internet é cada vez mais sobre melhores e aplicações mais inteligentes da criação e motores da busca. Está aqui uma breve introdução em como os motores da busca funcionam:

01) Defina o corpus, espaço de busca/dados;
02) Separe o corpus em originais;
03) Gere características para cada original;
04) Gere uma respresentação de cada original;
05) Estude o espaço da característica/vetor;
06) Aglomere originais;
07) Reduza a extensibilidade;
08) Aceite perguntas da entrada;
09) Encontre os ângulos do co-seno de encontro ao vetor da pergunta;
10) Encontre a coluna procurada do vetor;
11) Output resultados ao usuário de uma certa maneira;

Cada original em um corpus (base de dados) é descrito por um jogo das palavras-chaves chamadas termos de índice. Nós atribuímos pesos aos termos de índice de acordo com sua relevância (freqüência da ocorrência por exemplo), esta somos como nós vamos aproximadamente criar o índice, esse nós podemos então procurarar.

Preparação do corpus:
Os Web pages do interesse são analisados e limpados removendo os Tag do hypertext ou toda a outra língua hyper; As páginas são divididas então nos originais onde cada original é feito a varredura com da pesquisa por palavras/termos do interesse: aqueles que fazem um original palavras originais, nao padrão.

Termos do extrato do interesse:
Tenha que termos do interesse deve ser invariant, isso é seja característico de um original, nao genérico e fácil de encontrar em todo o corpus/original. A idéia é encontrar uma assinatura por o original.

Matriz do termo-por-original da configuração:
O espaço de busca é definido pelas dimensões onde os termos/características escolhidos de um original são um ponto no espaço do termo de N, esta de N permite buscas conceptuais/semânticas.

Cada original transforma-se um vetor da coluna, cada fileira representa um termo. Cada fileira identifica a freqüência de um termo através do corpus analisado, início em nós constrói simplesmente a matriz contando os termos para cada original.

Comprima a matriz:
Há dois técnicas/métodos básicos, comprime o armazenamento da fileira (fileira da matriz das varreduras pela fileira) e o armazenamento da coluna da compressa (coluna pela coluna) ambos da matriz das varreduras usa três disposições.

Normalis a matriz:
A normalização implica vetores de transformação da coluna aos vetores de unidade: isto é vetores do comprimento de unidade

Os vetores do original da unidade contêm a freqüência dos termos; a normalização é aplicada porque o índice semântico de um original é determinado geralmente a freqüência relativa dos termos.

Decomposição do valor singular:
Isto simplifica uma matriz simétrica em três matrizes dois é idêntico e representa os eigenvectors: as dimensões novas. O terço é diagonal e representa os valor próprios, de que é a propagação do corpus ao longo destas dimensões novas.

Uma interpretação geométrica:
O corpus formated primeiramente, provindo e é armazenado então em uma matriz compacta do termo-por-original. Cada coluna de tal matriz é normalizada então para produzir a probabilidade de um termo através do corpus, ou, equivalente, a freqüência dos termos em um original.

A matriz do termo-por-original é decompor então para calcular valores e vetores do eigen. Os vetores de Eigen representam um frame coordenado cartesiano novo que mede o mesmo espaço de busca, MAS, indicam as dimensões as mais importantes/linha central ao longo de que os originais se encontram principalmente. O valor de Eigen determina a propagação dos originais ao longo destes machados/vetores novos do eigen.

Perguntas:
As perguntas devem ser baseadas em características/termos definidos dentro da matriz do termo-por-original, combinando em um espaço de vetor tal como este são executadas multiplicando o vetor da pergunta de encontro aos termos pela matriz do original, IE que combina um vetor q da pergunta de encontro aos originais da matriz.

‚© de Âà do ¡ do ¬Å do ‚de ÃÆ'ââ eu sou o administrador do Web site do museu industrial de Wandle (http://www.wandle.org). Estabelecido em 1983 pelos povos locais determinados assegurar-se de que a história do vale já não estivesse negligenciada mas realçou a consciência sua herança para o uso e os benefícios da comunidade.

Artigo Fonte: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Webmaster começa O Código do HTML
Adicionar este artigo para o seu site agora!

Webmaster enviar seus artigos
Nenhum registro necessário! Preencha o formulário e seu artigo está no Messaggiamo.Com Diretório!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Envie os seus artigos para Messaggiamo.Com Directory

Categorias


Copyright 2006-2011 Messaggiamo.Com - Mapa do Site - Privacy - Webmaster enviar seus artigos para Messaggiamo.Com Directory [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu