Department of Software and Computing Systems

Lecture

Title:Abordando el tratamiento automático de la desinformación: modelado de la confiabilidad en noticias mediante Procesamiento del Lenguaje Natural Import to your calendar:
[CSV]
Lectura de tesi doctoral
Presenter:Alba Bonet Jover
Venue:Sala Ada Lovelace
Date&time:11:00 20/03/2023
Contact person:

Saquete Boró, Estela (stela[Perdone'm]dlsi.ua.es)
Abstract:
La llegada de Internet y de las nuevas tecnologías dio lugar al nacimiento
de la era de la información, una era que ha conectado a la sociedad de forma
global y le ha permitido acceder libremente a la información digital. Con esta
facilidad de acceso, cualquier persona, aún sin ser experta en la materia,
puede publicar y acceder a la información sin ningún coste, lo que ha
ocasionado un exceso de información no contrastada que muchas veces oculta
intenciones como el engaño, la manipulación o los fines económicos. De
esa forma, la era de la información se ha transformado en la era de la
desinformación. La incesante necesidad de estar informados ha motivado que
el consumo de la información se convierta en una rutina, ya sea siguiendo
las últimas noticias en portales digitales o leyendo a diario publicaciones
de personas afines. 

Antes, la información viajaba en forma de sonido a través de la radio o
en forma de tinta a través de los periódicos, pero ahora una desmedida
cantidad de información se propaga a través de algoritmos. Las tecnologías
han propiciado la sobreabundancia de información, así como la propagación
de noticias falsas y bulos, hasta tal punto que resulta imposible contrastar
y procesar manualmente tales volúmenes de desinformación en tiempo real. No
obstante, lo que se considera un problema puede convertirse en una solución,
pues igual que los algoritmos y el entorno digital son los causantes de la
viralización de la información falsa, estos pueden ser a su vez los detectores
de la desinformación.

Es aquí donde el Procesamiento del Lenguaje Natural desempeña un papel clave
en la relación humano-máquina, modelando el lenguaje humano a través de la
comprensión y generación automática del lenguaje, y entrenando modelos a
través de la retroalimentación del experto. El trabajo coordinado entre la
ingeniería computacional y la lingüística es decisivo a la hora de frenar
el fenómeno de la desinformación. Son necesarias las dos perspectivas para
abordar la detección automática de la forma más completa y precisa posible,
pues el análisis lingüístico permite detectar y estudiar patrones textuales que
hacen que la información de una noticia sea o no sea confiable, mientras que
el entorno tecnológico se encarga de automatizar la detección de los patrones
anotados mediante el entrenamiento de algoritmos de aprendizaje automático. 

Específicamente para esta tarea, donde la noticia es el objeto de estudio,
el análisis a nivel periodístico también es fundamental. La noticia suele
presentar una estructura determinada, técnica conocida como la Pirámide
Invertida, donde la información sigue un orden de relevancia concreto con el
fin de captar la atención del lector. Además, suele organizar el contenido de
forma precisa y completa respondiendo a seis preguntas clave, conocidas como
las 5W1H. Estas dos técnicas periodísticas permiten construir una noticia
siguiendo unos estándares de calidad y son la base de la anotación de la
presente investigación.

Para contribuir a la tarea de la detección de desinformación, la presente
investigación presenta dos guías de anotación de grano fino diseñadas para
anotar tanto la veracidad (guía FNDeepML) como la confiabilidad (guía RUN-AS)
de las noticias. Además, se presentan los dos corpus obtenidos y anotados con
las guías de anotación, uno de ellos compuesto por 200 noticias verdaderas
y falsas (corpus FNDeep) y otro que incluye 170 noticias confiables y no
confiables (corpus RUN), ambos en español. Un extenso marco de evaluación
se lleva a cabo para validar tanto la calidad de la anotación como la de los
recursos, obteniendo resultados prometedores que muestran que el entrenamiento
con las características de la anotación mejoran notablemente los modelos de
predicción. Asimismo, otras dos aportaciones de la tesis relacionadas más bien
con el proceso de anotación y de detección son, por un lado, la propuesta de
una metodología semiautomática de anotación que agiliza la tarea del experto
anotador y, por otro lado, una arquitectura para la detección de desinformación
basada en una capa de estructura y otra de predicción. Las aportaciones de
este trabajo permiten abordar una parte del problema de la detección de la
desinformación aplicando técnicas de Procesamiento del Lenguaje Natural, pero
desde un enfoque lingüístico, lo que permite profundizar en el estudio del
problema desde su raíz. El conocimiento profundo del lenguaje de las noticias,
y específicamente el modelado de un lenguaje propio de la desinformación,
permite no solo dar un paso más en su detección, sino además justificar la
confiabilidad de la noticia.

[ Close ]