Construcción de un sistema de
recuperación de información multilingüe en la web

Este proyecto, con Código: FIT-150500-2002-416, está subvencionado por el Ministerio de Ciencia y Tecnología (Proyecto PROFIT), y tiene una duración de Julio 2002 a Diciembre 2003. Las entidades participantes son:

Universidad de Alicante:
Universidad de Jaén:
Universidad de Sevilla:

Descripción

El objetivo principal del proyecto es el de construir un buscador de información en el que se integren una serie de herramientas de procesamiento del lenguaje natural. Este buscador pretende mejorar los buscadores tradicionales que trabajan sobre la web desde tres puntos de vista:

El objetivo principal científico y tecnológico del proyecto se centra en el campo de investigación denominado Cross-Language Information Retrieval, es decir, Recuperación de Información Multilingüe. Este campo aparece como una extensión de la aplicación de la Recuperación de Información (Information Retrieval) tradicional que trabaja sobre un único idioma, es decir, tanto la pregunta como los documentos sobre los que se busca la información se encuentran en el mismo lenguaje, y presenta el objetivo principal de obtener una relación de documentos que contienen la información relevante solicitada por una petición o pregunta de un usuario. La extensión a “multilingüe” supone que tanto la pregunta como los documentos no necesitan estar en el mismo idioma. Por ello, el objetivo de este proyecto es realizar búsquedas de información sobre una colección de documentos que pueden estar en diferentes idiomas, independientemente del idioma en el que se realice la pregunta. Aunque se prevé desarrollar una tecnología que facilite la incorporación de nuevos lenguajes en el futuro, inicialmente nos centraremos en los idiomas de la comunidad económica europea, delimitando la aplicación de técnicas de PLN al español e inglés. Dentro de este campo de investigación, también aparece una extensión denominada Question Answering o Búsqueda de Respuestas, en el que la salida del sistema no es el documento completo, sino el trozo de texto que se supone contiene la respuesta del usuario. Uno de los objetivos del proyecto se encuadra precisamente en este campo, aunque sólo se aplicará sobre el español e inglés, dado que para este tipo de aplicaciones se hace indispensable aplicar técnicas de PLN, que aumenten el grado de comprensión de los textos sobre los que se realiza la búsqueda. Además, otro de los objetivos científicos de este proyecto se centra dentro del campo de investigación de la Lingüística Computacional, concretamente en el del Procesamiento del Lenguaje Natural (PLN). Con ello se pretende añadir nuevas fuentes de información al proceso de la búsqueda, las cuales permitirán mejorar la precisión y calidad de los resultados a devolver. La información que se tiene prevista incorporar sería la correspondiente al análisis léxico, sintáctico, resolución de problemas lingüísticos y desambiguación del sentido de las palabras. Este tipo de información no se contempla en los buscadores tradicionales actualmente disponibles que suelen estar basados únicamente en información referente a las ocurrencias de palabras en los documentos. De este modo, estos buscadores descartaban los pronombres, y la información a la que referenciaban. Nosotros, al proponer una resolución previa de este tipo de anáforas, podremos mejorar la precisión de las búsquedas. El campo de aplicación sobre el que se trabajará será no restringido, aunque se prevé la posterior especialización a dominios restringidos, en los que es fácil pensar que se mejoraría la precisión del sistema. En definitiva, se tomará como el conjunto de datos de entrada sobre los que se buscará información, como documentos heterogéneos y no estructurados, es decir, en lenguaje natural, añadiendo la capacidad multinlingüe descrita anteriormente.


Herramientas

Publicaciones derivadas del proyecto


Para cualquier duda o sugerencia consultar con Antonio Ferrández Rodríguez

Última actualización: 17 de Enero de 2003