English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

De recopilaciones a emparejar

Seo RSS Feed





La fabricación del uso eficaz del Internet está cada vez más sobre usos mejores y más inteligentes el crear y motores de búsqueda. Aquí está una breve introducción en cómo los motores de búsqueda funcionan:

01) define la recopilación, búsqueda space/data;
02) separa la recopilación en documentos;
03) genera las características para cada documento;
04) genera una representación de cada documento;
05) estudia el espacio de feature/vector;
06) documentos del racimo;
07) reduce dimensionalidad;
08) acepta preguntas de la entrada;
09) encuentra los ángulos del coseno contra el vector de la pregunta;
10) encuentra la columna buscada del vector;
11) resultados hechos salir al usuario de una cierta manera;

Cada documento en una recopilación (base de datos) es descrito por un sistema de palabras claves llamadas los términos del índice. Asignamos pesos a los términos del índice según su importancia (frecuencia de la ocurrencia por ejemplo), ésta somos cómo vamos sobre crear el índice, ese nosotros podemos entonces buscar.

Preparación de la recopilación:
Las páginas del Web del interés son analizadas y limpiadas quitando etiquetas del hypertext o cualquier otra lengua hiperactiva; Las páginas entonces se analizan en los documentos donde cada documento se explora con buscar para words/terms del interés: los que hacen un documento palabras únicas, no estándares.

Términos del extracto del interés:
Considere que los términos del interés debe ser invariante, es eso sea característico de un documento, no genérico y fácil de encontrar en cualquier corpus/document. La idea es encontrar una firma por el documento.

Matriz del te'rmino-por-documento de la estructura:
El espacio de la búsqueda es definido por las dimensiones donde está un punto el terms/features elegido de un documento en el espacio del término de N, ésta de N permite búsquedas de conceptual/semantic.

Cada documento se convierte en un vector de la columna, cada fila representa un término. Cada fila identifica la frecuencia de un término a través de la recopilación analizada, al principio nosotros construye simplemente la matriz contando los términos para cada documento.

Comprima la matriz:
Hay dos techniques/methods básicos, comprime el almacenaje de la fila (fila de la matriz de las exploraciones por fila) y el almacenaje de la columna de la compresa (columna por la columna) ambas de la matriz de las exploraciones utiliza tres órdenes.

Normalis la matriz:
La normalización implica vectores de la columna que transforman a los vectores de la unidad: es decir vectores de la longitud de unidad

Los vectores del documento de la unidad contienen la frecuencia de términos; se aplica la normalización porque el contenido semántico de un documento generalmente se determina la frecuencia relativa de términos.

Descomposición Singular Del Valor:
Esto simplifica una matriz simétrica en tres matrices dos es idéntico y representa los vectores propios: las nuevas dimensiones. El tercero es diagonal y representa los valores propios, de que es la extensión de la recopilación a lo largo de estas nuevas dimensiones.

Una interpretación geométrica:
La recopilación es primero formated, provenido y en seguida se almacena en una matriz compacta del te'rmino-por-documento. Cada columna de tal matriz entonces se normaliza para producir la probabilidad de un término a través de la recopilación, o, equivalente, la frecuencia de términos en un documento.

La matriz del te'rmino-por-documento entonces se descompone para calcular valores y vectores del eigen. Los vectores de Eigen representan un nuevo marco coordinado cartesiano que atraviesa el mismo espacio de la búsqueda, PERO, indican el dimenions/axis más importante a lo largo de el cual los documentos mienten principalmente. El valor de Eigen cuantifica la extensión de documentos a lo largo de estos nuevos vectores de axes/eigen.

Preguntas:
Las preguntas se deben basar en features/terms definido dentro de la matriz del te'rmino-por-documento, emparejando en un espacio del vector tal como esto son puestas en ejecucio'n multiplicando el vector de la pregunta contra los términos por la matriz del documento, IE que empareja un vector q de la pregunta contra los documentos de la matriz.

Ã?Æ'ââ"¬Å¡Ã?â??Ã"© soy el administrador del Web site del museo industrial de Wandle (http://www.wandle.org). Establecido en 1983 por la gente local se determinó de asegurarse de que la historia del valle era un conocimiento descuidado pero realzado no más largo su herencia para el uso y las ventajas de la comunidad.

Artículo Fuente: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Webmaster obtener el código html
Añadir este artículo a su sitio web ahora!

Webmaster Envíe sus artículos
No es necesario que se registre! Completa el formulario y su artículo está en el Messaggiamo.Com Directorio!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Envíe sus artículos a Messaggiamo.Com Directorio

Categorías


Derechos de autor 2006-2011 Messaggiamo.Com - Mapa del sitio - Privacy - Webmaster enviar sus artículos a Messaggiamo.Com Directorio [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu