English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

Des corpus à l'assortiment

Seo RSS Feed





La fabrication de l'utilisation efficace de l'Internet est de plus en plus au sujet de meilleures et plus intelligentes applications de créer et des moteurs de recherche. Voici une brève introduction dans la façon dont les moteurs de recherche fonctionnent :

01) définissent le corpus, la recherche space/data ;
02) séparent le corpus dans des documents ;
03) produisent des dispositifs pour chaque document ;
04) produisent d'une représentation de chaque document ;
05) étudient l'espace de feature/vector ;
06) documents de faisceau ;
07) réduisent la dimensionnalité ;
08) acceptent des questions d'entrée ;
09) trouvent les angles de cosinus contre le vecteur de question ;
10) trouvent la colonne cherchée de vecteur ;
11) résultats produits à l'utilisateur d'une manière quelconque ;

Chaque document dans un corpus (base de données) est décrit par un ensemble de mots-clés appelés les limites d'index. Nous assignons des poids aux limites d'index selon leur pertinence (fréquence d'occurrence par exemple), ceci est comment nous abordons créer l'index, ce nous pouvons alors rechercher.

Préparation de corpus :
Des pages Web d'intérêt sont analysées et nettoyées en enlevant des étiquettes d'hypertexte ou n'importe quelle autre langue hyper ; Des pages sont alors décomposées en documents où chaque document est balayé en recherchant words/terms d'intérêt : ceux qui rendent un document mots uniques et non standard.

Limites d'extrait d'intérêt :
Considérez que des limites d'intérêt doit être invariable, c'est soit caractéristique d'un document, non générique et facile à trouver dans n'importe quel corpus/document. L'idée est de trouver une signature par document.

Matrice de limite-par-document de construction :
L'espace de recherche est défini par des dimensions de N où le terms/features choisi d'un document est un point dans l'espace de limite de N, ceci permet des recherches de conceptual/semantic.

Chaque document devient un vecteur de colonne, chaque rangée représente une limite. Chaque rangée identifie la fréquence d'une limite à travers le corpus analysé, d'abord nous établissent simplement la matrice en comptant les limites pour chaque document.

Comprimez la matrice :
Il y a deux techniques/methods de base, compriment le stockage de rangée (rangée de matrice de balayages par rangée) et le stockage de colonne de compresse (colonne de matrice de balayages par la colonne) toutes les deux emploient trois rangées.

Normalis la matrice :
La normalisation implique des vecteurs de transformation de colonne aux vecteurs d'unité : c.-à-d. vecteurs d'unité de longueur

Les vecteurs de document d'unité contiennent la fréquence des limites ; la normalisation est appliquée parce que le contenu sémantique d'un document est généralement déterminé la fréquence relative des limites.

Décomposition Singulière De Valeur :
Ceci simplifie une matrice symétrique dans trois matrices deux sont identique et représentent les vecteurs propres : les nouvelles dimensions. Le tiers est diagonal et représente les valeurs propres, celle est la diffusion du corpus le long de ces nouvelles dimensions.

Une interprétation géométrique :
Le corpus est formated la première fois, refoulé et est ensuite stocké dans une matrice compacte de limite-par-document. Chaque colonne d'une telle matrice est alors normalisée pour produire la probabilité d'une limite à travers le corpus, ou, d'une manière equivalente, la fréquence des limites dans un document.

La matrice de limite-par-document est alors décomposée pour calculer des valeurs et des vecteurs d'eigen. Les vecteurs d'Eigen représentent une nouvelle armature du même rang cartésienne enjambant le même espace de recherche, MAIS, ils indiquent le dimenions/axis le plus important le long dont les documents se trouvent principalement. La valeur d'Eigen mesurent la diffusion des documents le long de ces nouveaux vecteurs d'axes/eigen.

Questions :
Des questions doivent être basées sur features/terms défini dans la matrice de limite-par-document, s'assortissant dans un espace de vecteur de ce type est mises en application en multipliant le vecteur de question contre les limites par la matrice de document, IE assortissant un vecteur q de question contre les documents de la matrice.

Ã?Æ'ââ"¬Å¡Ã?â??Ã"© je suis l'administrateur de site Web du musée industriel de Wandle (http://www.wandle.org). Établi en 1983 par les personnes locales a déterminé à s'assurer que l'histoire de la vallée n'a été plus négligée mais a augmenté la conscience son héritage à l'utilisation et aux avantages de la communauté.

Source D'Article: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Webmaster obtenir le code html
Ajouter cet article sur votre site Web dès maintenant!

Webmaster envoyer vos articles
Aucune inscription requise! Remplissez le formulaire et votre article est dans le Messaggiamo.Com répertoire!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Soumettez vos articles à Messaggiamo.Com Directory

Catégories


Copyright 2006-2011 Messaggiamo.Com - Plan du site - Privacy - Webmaster soumettre vos articles à Messaggiamo.Com Directory [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu