Des corpus à l'assortiment
La fabrication de l'utilisation efficace de
l'Internet est de plus en plus au sujet de meilleures et plus
intelligentes applications de créer et des moteurs de recherche.
Voici une brève introduction dans la façon dont les moteurs de
recherche fonctionnent :
01) définissent le corpus, la recherche space/data ;
02) séparent le corpus dans des documents ;
03) produisent des dispositifs pour chaque document ;
04) produisent d'une représentation de chaque document ;
05) étudient l'espace de feature/vector ;
06) documents de faisceau ;
07) réduisent la dimensionnalité ;
08) acceptent des questions d'entrée ;
09) trouvent les angles de cosinus contre le vecteur de question
;
10) trouvent la colonne cherchée de vecteur ;
11) résultats produits à l'utilisateur d'une manière
quelconque ;
Chaque document dans un corpus (base de données) est
décrit par un ensemble de mots-clés appelés les limites d'index.
Nous assignons des poids aux limites d'index selon leur
pertinence (fréquence d'occurrence par exemple), ceci est comment
nous abordons créer l'index, ce nous pouvons alors rechercher.
Préparation de corpus :
Des pages Web d'intérêt sont analysées et nettoyées
en enlevant des étiquettes d'hypertexte ou n'importe quelle autre
langue hyper ; Des pages sont alors décomposées en documents
où chaque document est balayé en recherchant words/terms d'intérêt
: ceux qui rendent un document mots uniques et non standard.
Limites d'extrait d'intérêt :
Considérez que des limites d'intérêt doit être
invariable, c'est soit caractéristique d'un document, non générique
et facile à trouver dans n'importe quel corpus/document.
L'idée est de trouver une signature par document.
Matrice de limite-par-document de construction :
L'espace de recherche est défini par des dimensions de N
où le terms/features choisi d'un document est un point dans l'espace
de limite de N, ceci permet des recherches de conceptual/semantic.
Chaque document devient un vecteur de colonne, chaque
rangée représente une limite. Chaque rangée identifie la
fréquence d'une limite à travers le corpus analysé, d'abord nous
établissent simplement la matrice en comptant les limites pour chaque
document.
Comprimez la matrice :
Il y a deux techniques/methods de base, compriment le
stockage de rangée (rangée de matrice de balayages par rangée) et
le stockage de colonne de compresse (colonne de matrice de balayages
par la colonne) toutes les deux emploient trois rangées.
Normalis la matrice :
La normalisation implique des vecteurs de transformation
de colonne aux vecteurs d'unité : c.-à-d. vecteurs d'unité de
longueur
Les vecteurs de document d'unité contiennent la
fréquence des limites ; la normalisation est appliquée parce
que le contenu sémantique d'un document est généralement
déterminé la fréquence relative des limites.
Décomposition Singulière De Valeur :
Ceci simplifie une matrice symétrique dans trois matrices
deux sont identique et représentent les vecteurs propres : les
nouvelles dimensions. Le tiers est diagonal et représente les
valeurs propres, celle est la diffusion du corpus le long de ces
nouvelles dimensions.
Une interprétation géométrique :
Le corpus est formated la première fois, refoulé et est
ensuite stocké dans une matrice compacte de limite-par-document.
Chaque colonne d'une telle matrice est alors normalisée pour
produire la probabilité d'une limite à travers le corpus, ou, d'une
manière equivalente, la fréquence des limites dans un document.
La matrice de limite-par-document est alors décomposée
pour calculer des valeurs et des vecteurs d'eigen. Les vecteurs
d'Eigen représentent une nouvelle armature du même rang cartésienne
enjambant le même espace de recherche, MAIS, ils indiquent le
dimenions/axis le plus important le long dont les documents se
trouvent principalement. La valeur d'Eigen mesurent la diffusion
des documents le long de ces nouveaux vecteurs d'axes/eigen.
Questions :
Des questions doivent être basées sur features/terms
défini dans la matrice de limite-par-document, s'assortissant dans un
espace de vecteur de ce type est mises en application en multipliant
le vecteur de question contre les limites par la matrice de document,
IE assortissant un vecteur q de question contre les documents de la
matrice.
Ã?Æ'ââ"¬Å¡Ã?â??Ã"© je suis
l'administrateur de site Web du musée industriel de Wandle (
http://www.wandle.org). Établi en
1983 par les personnes locales a déterminé à s'assurer que
l'histoire de la vallée n'a été plus négligée mais a augmenté la
conscience son héritage à l'utilisation et aux avantages de la
communauté.
Source D'Article: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster obtenir le code html
Ajouter cet article sur votre site Web dès maintenant!
Webmaster envoyer vos articles
Aucune inscription requise! Remplissez le formulaire et votre article est dans le Messaggiamo.Com répertoire!