advertisement

Resumen de Técnicas Básicas de Recuperación de Buscador

50 %
50 %
advertisement
Information about Resumen de Técnicas Básicas de Recuperación de Buscador
Education

Published on December 3, 2008

Author: jccortizo

Source: slideshare.net

advertisement

Técnicas Básicas (resumen) José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo josecarlos.cortizo@uem.es Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid

Índice Esquema de funcionamiento Normalización y Tokenización Indexación Modelo del Espacio Vectorial José Carlos Cortizo Pérez

Sistemas Inteligentes de Acceso a la Información Esquema de Funcionamiento

Esquema de Funcionamiento Doc Doc Normalización Indexación Doc Tokenización MEV Res. Normalización Q Tokenización José Carlos Cortizo Pérez

Ejemplo Documento 1: Pepe coge su coche por las mañanas Documento 2: Mañana veré a Pepe Documento 3: Me traen el coche mañana Consulta: Coche José Carlos Cortizo Pérez

Ejemplo Normalizamos y Tokenizamos los Documentos Documento 1: Pepe; coger; coche; mañana Documento 2: Mañana; ver; Pepe Documento 3: Traen; coche; mañana Consulta: Coche José Carlos Cortizo Pérez

Ejemplo Indizamos los Documentos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez

Ejemplo Tokenizamos y Normalizamos la consulta Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez

Ejemplo Seleccionamos candidatos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez

Ejemplo Representamos en forma de Vectores Representación: (Pepe, coger, coche, mañana, traer) Documento 1: (1, 1, 1, 1, 0) Documento 2: (0, 0, 1, 1, 1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez

Ejemplo Aplicamos MEV Representación: (Pepe, coger, coche, mañana, traer) Documento 1: 1·0 + 1·0 + 1·1 + 1·0 + 0·0 (1, 1, 1, 1, 0) cos(D1, C) = = 0.5 RC(4) · RC(1) Documento 2: 0·0 + 0·0 + 1·1 + 0·0 + 0·0 (0, 0, 1, 1, 1) cos(D1, C) = = 0.57 RC(3) · RC(1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez

Ejemplo Y obtenemos un ranking de resultados Resultados ordenados: Documento 2 Documento 1 José Carlos Cortizo Pérez

¿Alguna pregunta? José Carlos Cortizo Pérez

Sistemas Inteligentes de Acceso a la Información Normalización y Tokenización

Normalización y Tokenización ¿Qué? Tokenizar: Separar las palabras o elementos a indizar Normalizar: Estandarizar la forma de escribir algunas cosas. P.e. eliminar las tildes, cambiar de mayúsculas a minúsculas, etc. José Carlos Cortizo Pérez

Normalización y Tokenización ¿Por qué? Tokenizar: Necesitamos tener unidades indizables para utilizarlas como base de nuestra representación. Pueden ser palabras, frases, n-gramas, etc. Normalizar: El lenguaje es muy flexible, y además es muy corriente cometer errores de algún tipo. La normalización nos provee una forma de “eliminar” estos problemas. José Carlos Cortizo Pérez

Normalización y Tokenización ¿Cómo tokenizar? Forma simple: utilizar un Tokenizador que separe por caracteres clave (p.e. espacios, signos de puntuación, etc.) En java se haría con un String Tokenizer Si en lugar de palabras, queremos separar frases, la cosa es algo más compleja (dependiendo del tipo de frase) Análisis del lenguaje José Carlos Cortizo Pérez

Normalización y Tokenización ¿Cómo normalizar? Por lo general aplicando reglas heurísticas P.e. Cambiar todas las vocales acentuadas por vocales sin acentuar Pasar las mayúsculas a minúsculas Eliminar “palabras vacías” José Carlos Cortizo Pérez

Normalización y Tokenización Palabras vacías Las palabras muy frecuentes no aportan semántica Artículos, pronombres, conjunciones, etc. Las apariciones de las 10 palabras más frecuentes del inglés constituyen un 20/30% de un documento Se suelen incluir en una lista de parada Estas listas se obtienen a partir de un córpora representativo del idioma José Carlos Cortizo Pérez

Normalización y Tokenización Normalización morfológica Múltiples palabras son variaciones morfológicas, con idéntico significado Los stemmers (extractores de raíces), normalizan a una forma canónica, p.e. analizar, análisis, analizador... => ‘anali’ Algoritmo de Porter, SnowBall José Carlos Cortizo Pérez

Normalización y Tokenización Normalización “avanzada” En función del idioma, podemos aplicar reglas de normalización que permitan una mejor recuperación (p.e. tolerante a errores) P.e., para el Castellano Eliminar las ‘h’ Cambiar ‘v’ por ‘b’ Cambiar ‘ll’ por ‘y’ Esto aumenta el recall pero puede bajar la precisión José Carlos Cortizo Pérez

¿Alguna pregunta? José Carlos Cortizo Pérez

Sistemas Inteligentes de Acceso a la Información Indexación

Indexación Indexación Los índices son necesarios para poder realizar las consultas en tiempos aceptables Generan un “overhead” en cuánto a almacenamiento 2 tipos de índices importantes Directos Inversos José Carlos Cortizo Pérez

Indexación Indice directo Pal1 Pal2 Pal3 Pal4 Doc1 1 1 0 0 Doc2 0 1 0 0 Doc3 1 0 1 0 Doc4 0 0 0 1 José Carlos Cortizo Pérez

Indexación Indice inverso Doc1 Doc2 Doc3 Doc4 Pal1 1 1 0 0 Pal2 0 1 0 0 Pal3 1 0 1 0 Pal4 0 0 0 1 José Carlos Cortizo Pérez

Indexación ¿Cuál es mejor? Cada uno tiene sus pros y sus contras Sin embargo, el inverso es muy eficiente en consulta (nos interesa más) El inverso es el que se suele implementar en la práctica (p.e. Google) José Carlos Cortizo Pérez

¿Alguna pregunta? José Carlos Cortizo Pérez

Sistemas Inteligentes de Acceso a la Información Modelo del Espacio Vectorial

Modelo del Espacio Vectorial Introducción Es un modelo más sofisticado que el Booleano Se basa en el álgebra vectorial La representación se realiza en base a vectores de pesos de términos José Carlos Cortizo Pérez

Modelo del Espacio Vectorial Introducción Cálculo de similitud: el coseno de los vectores que forman el documento y la consulta José Carlos Cortizo Pérez

Modelo del Espacio Vectorial Introducción José Carlos Cortizo Pérez

¿Alguna pregunta? José Carlos Cortizo Pérez

Bibliografía Adicional Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C). Raymond Mooney. Basic Tokenizing, Indexing and Implementation of Vector-Space Retrieval. Tema 3 de su curso en IR. http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt José Carlos Cortizo Pérez

¿Alguna pregunta? José Carlos Cortizo Pérez

Add a comment

Related presentations

Related pages

Resumen de Técnicas básicas para la recuperación y ...

/ Resumen; Técnicas básicas para la recuperación y gestión bibliográfica. Profesor: Antonio Sánchez López; Saltar Navegación. Navegación.
Read more

Sistemas de resumen automático de documentos

Nuestro buscador favorito será ... Las dos líneas básicas de investigación en la ... para la evaluación de técnicas y sistemas de resumen y ...
Read more

TECNICAS INTELIGENTES PARA LA RECUPERACION DE CONOCIMIENTO ...

TECNICAS INTELIGENTES PARA LA RECUPERACION DE CONOCIMIENTO EN LA ENSEÑANZA UNIVERSITARIA ... buscador inteligente basado en la información
Read more

BUSQUEDA Y RECUPERACIÓN DE INFORMACIÓN - María Pinto

Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos ... Las operaciones básicas son la ... este tipo de técnicas de recuperación ...
Read more

voleiboll: tecnicas del voleibol

reglas basicas del voleibol; ... tecnicas del voleibol ... la carrera de entrada, el salto, el golpe y la recuperación.
Read more

La Recuperación de Información en ayuda a la obtención ...

RESUMEN Una necesidad ... un buscador de información, el ... Por esta vía se ha podido comprobar la utilidad de las técnicas de Recuperación de ...
Read more

La Recuperación de Información en ayuda a la obtención ...

Matanzas, 2007 RESUMEN ... Las disciplinas básicas ... CONCLUSIONES Por esta vía se ha podido comprobar la utilidad de las técnicas de Recuperación ...
Read more

Introducción a la Recuperación de Información

recuperación sea eficiente y efectiva; ... las técnicas de resumen, ... A continuación se muestran las las técnicas básicas de stemming según Frakes
Read more

Paidotribo: TÉCNICAS DE REHABILITACIÓN EN MEDICINA ...

Resumen 7 Recuperación de la fuerza, la tolerancia ... Resumen 14 Rehabilitación y técnicas de tracción y movilización articulares William E. Prentice
Read more