3LB: Construcción de una base de datos de árboles sintáctico semánticos

FIT-15050-2002-244
Financiado por el Ministerio de Ciencia y Tecnología (Programa PROFIT)

OBJETIVO
DESCRIPCIÓN Y PLAN DE TRABAJO
GRUPOS DE INVESTIGACIÓN PARTICIPANTES
ENTIDADES PARTICIPANTES

Acceso al Servidor de Información del proyecto

OBJETIVO

El objetivo principal de este proyecto es construir tres corpus anotados sintácticamente (treebanks) para el español, catalán y euskera. Además de la anotación sintáctica, se realizará una anotación semántica mediante los synsets de los diferentes wordnets (http://www.cogsci.princeton.edu/~wn/w3wn.html) elaborados en cada lengua, así como una anotación de los elementos anafóricos y elípticos y la correferencia. Para el español y el catalán el volumen del corpus será de 100.000 palabras cada uno, en el caso del euskera 50.000 por razones de mayor complejidad notacional y menor cobertura del wordnet de que se dispone (35.000 entradas frente a las 100.000 existentes para el castellano o las 65.000 para el catalán).
El corpus CLiC-TALP [25] para el español consta actualmente de 100.000 palabras anotadas manualmente a nivel morfosintáctico. El resto del corpus, hasta 5,5 millones de palabras está anotado a nivel morfosintáctico de forma automática, con una tasa de error del orden de un 3%.
El corpus del que disponemos para el euskera en este proyecto consta de 40.000 palabras anotadas manualmente a nivel morfosintáctico. En este proyecto se trataría de etiquetar este corpus sintáctica y semánticamente según la propuesta y ampliarlo hasta 50.000 palabras con anotación morfológica, sintáctica y semántica.
A pesar de que la construcción de un treebank es una tarea costosa, creemos que es una labor imprescindible para el desarrollo de aplicaciones reales en el área del Procesamiento del Lenguaje Natural (PLN) y como tal para el desarrollo de la sociedad de la información. En estas aplicaciones resulta imprescindible la obtención de gramáticas computacionales (véanse a este respecto [14], [15]) a partir de corpus que son un primer paso hacia procesos posteriores que requieren más elaboración. Entre estos procesos se halla la delimitación de las entidades discursivas, lo que, junto con la identificación de los elementos anafóricos y correferentes mejora sustancialmente la calidad de todos los sistemas de Traducción Automática (TA), Extracción de Información (EI), Recuperación de Información (RI), Resumen Automático (RA) y sistemas de Pregunta-Respuesta (PR). Otras tareas lingüísticas que pueden abordarse si se dispone de un treebank son el aprendizaje de restricciones de selección o el de los patrones de subcategorización de los verbos. La primera de estas dos tareas se aborda en la sección 2.6 de esta propuesta como forma de validación de la utilidad del treebank construido.
A nivel puramente lingüístico, el treebank es una base de datos imprescindible para el estudio de la lengua ya que proporciona ejemplos analizados/anotados de lenguaje real. El estudio lingüístico revierte directamente en la mejora de la calidad de los recursos anteriormente mencionados, dotándolos de una mayor robustez.

DESCRIPCIÓN DEL PROYECTO
A continuación se describe el plan de trabajo propuesto para llevar a cabo el proyecto. Este está detallado en módulos que a la vez se descomponen en actividades. Posteriormente, se detalla el estado de la técnica en España y las líneas de trabajo que se están llevando a cabo por los grupos de investigación.

MÓDULO 1: COORDINACIÓN DEL PROYECTO
Este módulo consiste en la propia coordinación del proyecto. Una toma de contacto inicial entre los participantes del proyecto permitirá establecer las bases y protocolos de actuación para los módulos definidos a continuación.
MÓDULO 2: INTEGRACIÓN DE HERRAMIENTAS Y RECURSOS PARA LA ELABORACIÓN DE LOS ETIQUETADOS

Actividad 2.1: Construcción de un editor de árboles.
Se trata, por un lado, de que los anotadores dispongan de una herramienta amigable que les facilite la tarea de etiquetado y, por otro lado, de que el editor incorpore un sistema de aprendizaje para incorporar nuevo conocimiento a medida que se va realizando la anotación [10]. Esta herramienta se utilizará para el marcaje de los constituyentes, de las funciones para el caso del catalán y del castellano, y de las dependencias para el caso del euskera; para ambos casos, la herramienta ayudará en la captación de la referencia anafórica y los sentidos de EuroWordNet (http://www.hum.uva.nl/~ewn/). La incorporación de conocimiento implica la mejora progresiva la eficiencia de la anotación así como la consistencia y la rapidez del proceso. La herramienta será lo suficientemente flexible como para permitir diversos niveles de anotación en forma independiente, progresiva o simultánea.
Actividad 2.2: Conversor a XML
El marcado XML facilita enormemente la transportabilidad de datos en soporte electrónico. En la actualidad este proceso es imprescindible, teniendo en cuenta que supone una estructuración de datos y que es un formato muy estable y estándar. Asimismo se preparará el software necesario para la consulta de los corpus por medio de la Web. El nivel de etiquetado de los corpus que se ofrecen será morfológico, sintáctico y semántico al nivel que se propone en este proyecto.
En esta actividad se desarrollarán las herramientas para la lectura de documentos en formato XML y la posterior conversión del resultado de la anotación manual al formato XML

Actividad 2.3: Desarrollo de herramientas de selección
Se desarrollarán herramientas que permitan explotar los corpus construidos. Con estas herramientas se podrá seleccionar información relativa a los distintos niveles de anotación. Además, deberán ser flexibles a la hora de seleccionar distintos formatos según las necesidades de la aplicación. El sistema permitirá la inspección manual interactiva de los corpus asi como la explotación masiva de su contenido.
Actividad 2.4: Construcción de un sistema de evaluación
Desarrollo del software que lleve a cabo la comparación de cualquier anotación del corpus en términos de los diferentes niveles de anotación con el corpus de referencia. Para ello se utilizarán las métricas usualmente establecidas en la bibliografía sobre el tema.
Actividad 2.5: Integración de un sistema de etiquetado anafórico para el español y su adaptación al euskera y catalán.
A partir de las experiencias en la resolución de la anáfora de los grupos de investigación participantes en el proyecto, se pretende integrar un sistema que facilite automáticamente la identificación de las expresiones anafóricas, sus posibles candidatos a antecedente de la expresión anafórica identificada; así como la propuesta de antecedente del sistema, con ello se pretende facilitar la tarea del anotador validando o no la propuesta del sistema.
Actividad 2.6: Construcción de un sistema de obtención de restricciones de selección de los verbos.
Se trata de construir un sistema que obtenga las restricciones de selección de los verbos, es decir el conjunto de restricciones semánticas que cada verbo impone a cada uno de sus argumentos, mediante el uso de los sistemas de desambiguación del sentido de las palabras para el euskera, catalán y castellano desarrollados por los diferentes grupos de investigación participantes en el proyecto. El proceso de obtención de las restricciones de selección se llevará acabo de forma semi-automática, partiendo de la localización en el treebank de todas las tuplas <verbo, tipo de argumento, argumento>, de la desambiguación semántica de los argumentos, de la obtención de los synsets de WN asociados a los mismos y de la generalización hasta obtener uno o varios subsumidores comunes.
MÓDULO 3: ANOTACIÓN Y SUPERVISIÓN DE LOS CORPUS
Actividad 3.1: Propuesta de anotación
Se trata de definir y diseñar un esquema de anotación sintáctica, semántica y anafórica con una sólida base lingüística y metodológica. Se definirá el grado de profundidad de la anotación y se decidirá como tratar los casos problemáticos como los constituyentes discontinuos, la coordinación, las comparativas, las elisiones, etc.

Actividad 3.2: Anotación de constituyentes sintácticos.
Se trata de anotar manualmente y con la ayuda de las herramientas del módulo 2 los constituyentes sintácticos de cada una de las frases del corpus.
Actividad 3.3: Anotación de funciones sintácticas /dependencias sintácticas
Del mismo modo que en la actividad anterior y con la ayuda de las herramientas del módulo 2 se anotarán las funciones sintácticas de las oraciones.
Actividad 3.4: Elaboración de las reglas sintácticas para mejorar los analizadores existentes
Elaboración de las reglas sintácticas que nos permitan establecer de forma más precisa los constituyentes y funciones sintácticas y las dependencias sintácticas.
En el caso del euskera se utilizará el formalismo de las gramáticas de restricciones [26] y en el caso del catalán castellano reglas que mejoren los análisis existentes.
Actividad 3.5: Anotación de sentidos
Se trata de llevar a cabo la anotación de las palabras correspondientes a las categorías con mayor carga semántica, como son los nombres y los verbos, con su correspondiente sentido (synset) de EuroWordNet.
Actividad 3.6: Explicitación de los elementos elípticos
Del mismo modo que en la actividad anterior y con la ayuda de las herramientas del módulo 2 se supervisarán de forma manual los elementos elípticos.
Actividad 3.7: Explicitación de los elementos anáforicos
Del mismo modo que en la actividad anterior y con la ayuda de las herramientas del módulo 2 se supervisarán de forma manual los elementos anafóricos con sus correspondientes antecedentes.
Actividad 3.8: Explicitación de los elementos correferentes
Del mismo modo que en la actividad anterior y con la ayuda de las herramientas del módulo 2 se supervisarán de forma manual las cadenas de correferencia.
MÓDULO 4: EVALUACIÓN Y DISEMINACIÓN DE LOS RESULTADOS
Este módulo consistirá en la evaluación cuantitativa y cualitativa de los resultados que se vayan obteniendo, así como la diseminación periódica de los resultados.

GRUPOS DE INVESTIGACIÓN PARTICIPANTES

Grupo de Procesamiento del Lenguaje y Sistemas de Información de la Universidad de Alicante

Grupo de Procesamiento del Lenguaje Natural de la Universidad Politécnica de Cataluña

Grupo de Procesamiento del Lenguaje Natural de la Universidad Politécnica de Valencia

Centre de Llenguatge i Computació (CLiC) de la Universidad de Barcelona

Grupo de Procesamiento del Lenguaje Natural de la Universidad del País Vasco

ENTIDADES PARTICIPANTES

Actualizada el martes, 19 de noviembre de 2002