Un proyecto abre nuevos caminos en el campo de la IA para crear el «ADN del lenguaje»

Gracias a nuevos enfoques de aprendizaje automático, una investigación proporciona representaciones del texto independientes del idioma que permiten hacer frente a las alucinaciones de la inteligencia artificial.

Investigación fundamental

Las alucinaciones de la inteligencia artificial (IA) (es decir, la generación de contenidos falsos y de contenidos no basados en datos del mundo real) se han convertido en un tema de moda debido al desarrollo de grandes modelos lingüísticos como ChatGPT y Bard. Sin embargo, gracias a un proyecto de investigación financiado con fondos europeos, los informáticos están hoy más cerca de obtener un procesamiento del lenguaje natural (PLN) perfecto independiente del idioma natural empleado, evitando al mismo tiempo la introducción de información falsa por parte de la IA. El equipo del proyecto MOUSSE, acrónimo de Multilingual, Open-text Unified Syntax-independent SEmantics, estudió nuevas formas de mejorar las capacidades del análisis semántico multilingüe sin necesidad de asumir el lastre que supone ir anotando datos para cada lengua diferente. «Por potentes e impresionantes que sean, los grandes modelos lingüísticos, como ChatGPT o Bard, siguen teniendo dificultades a la hora de replicar la confianza y el sentido común propios de los seres humanos. MOUSSE sienta las bases de este ambicioso objetivo. Proporciona un enorme repositorio de conocimientos multilingües que puede utilizarse para fundamentar los razonamientos y resultados de estos modelos, al tiempo que permite abordar el problemático fenómeno de las alucinaciones», señala Roberto Navigli, responsable del Sapienza Natural Language Processing Group y coordinador del proyecto MOUSSE.

Utilizar el multilingüismo como recurso

Navigli describe el extenso repositorio desarrollado por MOUSSE como una suerte de «ADN lingüístico», ya que proporciona la base para construir frases con sentido en muchos idiomas. Este escenario responde, ante todo, al principal resultado del proyecto: la capacidad para crear equivalentes computacionales de las representaciones mentales que manejan los seres humanos al crear textos, pero independientemente del idioma. A este respecto, Navigli explica: «El ordenador se forma una idea del significado de una frase mediante un proceso de abstracción lingüística y el análisis de su forma superficial, es decir, de las palabras a través de las cuales se expresa dicho significado». Cuantas más lenguas utilice el equipo para expresar la semántica, mejor podrá corroborar la calidad de la representación aprendida. Por otra parte, una vez obtenida la representación de una frase en una lengua, se pueden producir frases en otras lenguas que expresen el mismo significado. «Este proceso se parece mucho al de la traducción automática, pero va un paso más allá: proporciona una prueba formal y estructurada de lo que ha entendido la máquina», comenta Navigli. Al sacar partido del multilingüismo, MOUSSE contribuye a nivelar el campo de la investigación en PNL para todas las lenguas de la Unión Europea y cientos de idiomas más. El repositorio multilingüe también puede ser útil para que los estudiantes de idiomas mejoren su vocabulario y amplíen su aprendizaje apoyándose más en el significado de frases completas que en meras palabras sueltas.

Aprovechar las herramientas de la IA para obtener los mejores resultados

Las capacidades desarrolladas por el equipo de MOUSSE se obtienen tras completar cuatro pasos principales, a saber: la desambiguación del sentido de las palabras, el enlace de entidades, el etiquetado de roles semánticos y el análisis sintáctico-semántico. Los resultados conseguidos fueron posibles no solo debido al aprendizaje profundo, sino también gracias al mantenimiento del modelo y a la obtención, a partir de este último, de resultados interpretables y manipulables. En resumen, el equipo del proyecto fue capaz de conectar el conocimiento simbólico y las redes neuronales, dando lugar a un enfoque neurosimbólico innovador. Según Navigli, esto significa que el proyecto ofrece lo mejor de ambos mundos: el alto grado de rendimiento y eficacia propio de los modelos neuronales, junto con la interpretabilidad, manipulabilidad e independencia del lenguaje vinculado con su componente simbólica. En esencia, el conocimiento simbólico lo proporcionan grafos de conocimiento multilingües como BabelNet, un enorme diccionario computacional, enciclopédico y multilingüe que es fruto del proyecto MultiJEDI, también coordinado por Navigli. El diseño y la sostenibilidad de los resultados de ambos proyectos ha corrido a cargo de la exitosa empresa derivada de la universidad Babelscape, puesta en marcha por Navigli.

Palabras clave

MOUSSE, IA, inteligencia artificial, alucinaciones de la IA, gran modelo de lenguaje, procesamiento del lenguaje natural, PLN, aprendizaje automático, aprendizaje profundo, desambiguación del sentido de las palabras, etiquetado de roles semánticos, análisis sintáctico-semántico, IA simbólica.