Construcción de un sistema de
recuperación de información multilingüe en la web
Este proyecto,
con Código: FIT-150500-2002-416, está subvencionado por el Ministerio de Ciencia y Tecnología
(Proyecto PROFIT), y tiene una duración de Julio 2002 a Diciembre 2003. Las entidades participantes son:
Descripción
El objetivo principal del proyecto es el de construir un buscador de información en el que se integren una serie de herramientas de procesamiento del lenguaje natural. Este buscador pretende mejorar los buscadores tradicionales que trabajan sobre la web desde tres puntos de vista:
- En primer lugar, se les añadirá la capacidad de trabajar sobre diferentes idiomas, es decir, independientemente del idioma en el que se presente la pregunta del usuario, se devolverá una relación de documentos relevantes que también podrán estar en diferentes lenguas, realizando este proceso de forma totalmente transparente para el usuario.
-
En segundo lugar, se incluirán nuevas fuentes de información que los buscadores tradicionales actualmente no contemplan, como la basada en el procesamiento del lenguaje natural (PLN): análisis léxico, sintáctico, etc.
-
Finalmente, se mejorará la calidad de la información a devolver, puesto que en lugar de producir como salida el documento completo, se refinará esta salida para ofrecer sólo el trozo de texto donde se encuentre la información requerida por el usuario.
El objetivo principal científico y tecnológico del proyecto se centra en el campo de investigación denominado Cross-Language Information Retrieval, es decir, Recuperación de Información Multilingüe. Este campo aparece como una extensión de la aplicación de la Recuperación de Información (Information Retrieval) tradicional que trabaja sobre un único idioma, es decir, tanto la pregunta como los documentos sobre los que se busca la información se encuentran en el mismo lenguaje, y presenta el objetivo principal de obtener una relación de documentos que contienen la información relevante solicitada por una petición o pregunta de un usuario. La extensión a “multilingüe” supone que tanto la pregunta como los documentos no necesitan estar en el mismo idioma. Por ello, el objetivo de este proyecto es realizar búsquedas de información sobre una colección de documentos que pueden estar en diferentes idiomas, independientemente del idioma en el que se realice la pregunta. Aunque se prevé desarrollar una tecnología que facilite la incorporación de nuevos lenguajes en el futuro, inicialmente nos centraremos en los idiomas de la comunidad económica europea, delimitando la aplicación de técnicas de PLN al español e inglés.
Dentro de este campo de investigación, también aparece una extensión denominada Question Answering o Búsqueda de Respuestas, en el que la salida del sistema no es el documento completo, sino el trozo de texto que se supone contiene la respuesta del usuario. Uno de los objetivos del proyecto se encuadra precisamente en este campo, aunque sólo se aplicará sobre el español e inglés, dado que para este tipo de aplicaciones se hace indispensable aplicar técnicas de PLN, que aumenten el grado de comprensión de los textos sobre los que se realiza la búsqueda.
Además, otro de los objetivos científicos de este proyecto se centra dentro del campo de investigación de la Lingüística Computacional, concretamente en el del Procesamiento del Lenguaje Natural (PLN). Con ello se pretende añadir nuevas fuentes de información al proceso de la búsqueda, las cuales permitirán mejorar la precisión y calidad de los resultados a devolver. La información que se tiene prevista incorporar sería la correspondiente al análisis léxico, sintáctico, resolución de problemas lingüísticos y desambiguación del sentido de las palabras. Este tipo de información no se contempla en los buscadores tradicionales actualmente disponibles que suelen estar basados únicamente en información referente a las ocurrencias de palabras en los documentos. De este modo, estos buscadores descartaban los pronombres, y la información a la que referenciaban. Nosotros, al proponer una resolución previa de este tipo de anáforas, podremos mejorar la precisión de las búsquedas.
El campo de aplicación sobre el que se trabajará será no restringido, aunque se prevé la posterior especialización a dominios restringidos, en los que es fácil pensar que se mejoraría la precisión del sistema. En definitiva, se tomará como el conjunto de datos de entrada sobre los que se buscará información, como documentos heterogéneos y no estructurados, es decir, en lenguaje natural, añadiendo la capacidad multinlingüe descrita anteriormente.
Herramientas
- LOCALIZADOR GEOGRÁFICO.
Sistema de consultas a una base de datos
geográfica en Lenguaje Natural.
La base de datos almacena información de la Universidad de Alicante,
concretamente sobre edificios, carreras y departamentos. Esta información
se plasma en las coordenadas en las que se encuentra cada lugar,
coordenadas referentes a una foto aérea de la Universidad, sobre la que
se recuadrará la zona solicitada.
- RECUPERACIÓN DE INFORMACIÓN.
Se trata de un sistema de recuperación de información que
a partir de una determinada entrada, ya sean frases completas en
lenguaje natural o bien un conjunto de palabras clave, obtiene como
salida una relación de documentos ordenada según la relevancia de cada uno respecto
a la consulta. Utiliza como fuente 423 documentos
en inglés que contienen diversas noticias del periódico Times.
- DESAMBIGUACION DE SENTIDOS UTILIZANDO
EL METODO DE MARCAS DE ESPECIFICIDAD.
Esta aplicación utiliza el método de marcas de especificidad para el tratamiento de la
desambiguación de textos. Ha sido creada en la Universidad de Alicante por Andrés Montoyo
con la colaboración de May Calle y Sonia Vázquez.
- ANALIZADOR DE UNIFICACIÓN DE HUECOS PARA
LA RESOLUCIÓN DE LA ANÁFORA (SUPAR).
Sistema de Procesamiento del Lenguaje Natural orientado a la resolución de la anáfora que incluye:
etiquetador léxico, análisis sintáctico parcial y sistema de resolución automática de la anáfora.
- TREE-TAGGER: EL POS TAGGER INGLÉS UTILIZADO.
El TreeTagger es una herramienta para anotar texto con información sobre el lema y el part-of-speech.
Se ha utilizado tanto para el inglés como para anotar en alemán, francés, italiano, griego y francés antiguo;
y es facilmente adaptable a otros idiomas.
Publicaciones derivadas del proyecto
- Llopis, F.; Vicedo, J.L.; Ferrández, A.
"IR-n system at CLEF-2002"
Working Notes for the Clef 2002. Lecture Notes in Computer Science. 2002
- Fernando Llopis; José L. Vicedo; Antonio Ferrández; Manuel C. Díaz; Fernando Martínez.
"Universities of Alicante and Jaen at iCLEF"
Working Notes for the Clef 2002. Lecture Notes in Computer Science. 2002
- Vicedo, J.L.; Llopis, F.; Ferrández, A.
"University of Alicante Experiments at TREC-2002"
Actas del Eleventh Text REtrieval Conference (TREC-11). Gaithersburg, Maryland (EEUU). Noviembre 2002
- Montoyo, A., Suarez A. Palomar, M.
"Combining supervised-unsupervised methods for Word Sense Disambiguation"
Lecture Notes in Computer Science. Springer-Verlag CICLING´02. Volumen: 2276. pp. 156-164. Mexico. 2002
- Muñoz R., Montoyo A.
"Definite description resolution enrichment with Wordnet domain labels"
Lecture Notes in Artificial Intelligent. Springer-Verlag. IBERAMIA´02. Volumen: 2527. pp. 645-654. Sevilla. 2002
- Montoyo A., Romero R., Vazquez S., Calle C., Soler S.
"The Role of WSD for Multilingual Natural Language Applications"
Lecture Notes in Artificial Intelligent. Springer-Verlag. TSD´02. Volumen: 2448. pp. 41-48. República Checa. 2002
- Soler S., Montoyo A.
"A Proposal for WSD Using Semantic Similarity"
Lecture Notes in Computer Science. Springer-Verlag. CICLING´02. Volumen: 2276. pp. 165-167. Mexico. 2002
- Muñoz R., Saíz-Noeda M., Montoyo A.
"Semantic Information in Anaphora Resolution"
Lecture Notes in Artificial Intelligent. Springer-Verlag. PORTAL´02. Volumen: 2389. pp. 63-70. Portugal. 2002
- Peral, J.; Ferrández, A.
"IL MT System. Evaluation for Spanish-English Pronominal Anaphora Generation"
Mexican International Conference on Artificial Intelligence MICAI-2002. Lecture Notes in Artificial Intelligence 2313:146-155. Mérida, Yucatán (México). 2002
- Martínez Santiago, F.; Martín Valdivia, M.T.; Ureña López, L.A.
"SINAI on CLEF 2002: Experiments with Merging Strategies"
En Working Notes of Cross Language Evaluation Forum (CLEF 2002). Roma, Italia. 2002
- Martínez Santiago, F.; Ureña López, L.A.
"Propuesta de un Sistema de Recuperación de Información Multilingüe"
En proceedings I Jornadas de Tratamiento y Recuperación de Información. pp 141-148. Valencia. 2002
- Martínez F., Martín M. T., Rivas V. M., Díaz M. C., Ureña L. A.
"Using Neural Networks for Multiword Recognition in IR"
En proceedings of Seventh International ISKO Conference. Pp 559-564. Granada. 2002
- Martín Valdivia, M.T.; García Vega, M.; Ureña López, L.A.
"Resolución de la Ambigüedad Mediante Redes Neuronales"
Revista de procesamiento de lenguaje natural No. 28, pp: 215- 222. 2002
- Martínez F., Díaz M. C., Martín M. T., Rivas V. M., Ureña L. A.
"Aplicación de redes neuronales y redes bayesianas en la detección de multipalabras para tareas IR"
En proceedings I Jornadas de Tratamiento y Recuperación de Información. pp 89-96 Valencia. 2002
Para cualquier duda o sugerencia consultar con Antonio Ferrández Rodríguez
Última actualización: 17 de Enero de 2003