Equidad en el procesamiento del lenguaje natural
Si utiliza servicios en línea o posee una empresa que precise inteligencia del cliente, es probable que ya se haya beneficiado de las maravillas de la tecnología de procesamiento del lenguaje natural (PLN). Los chatbots, el análisis de opiniones, la publicidad o incluso las evaluaciones de solvencia son algunas de las muchas formas que existen de poner esta tecnología a funcionar. Sin embargo, hay un problema: aunque todo funciona bien cuando se usa una lengua como el inglés, el PLN comienza a tener dificultades cuando necesita tratar con lenguas con riqueza morfológica.
Lo siento, pero «tusaatsiarunnanngittualuujunga»
«Tomemos una oración como: “No te oigo bien”. En su mayoría, los morfemas (las unidades más pequeñas con significado) son solo palabras que pueden identificarse mirando los espacios en blanco. Sin embargo, todo se vuelve mucho más complicado si uno mira una lengua con riqueza morfológica como el inuktitut (una lengua inuit). En ella, la misma oración se expresaría en una única palabra: “tusaatsiarunnanngittualuujunga”», afirma Bollmann, investigador posdoctoral y beneficiario de una beca Marie Skłodowska-Curie en la Universidad de Copenhague. Para adaptarse a esta situación, la mayoría de modelos de PLN integran técnicas como la codificación de pares de bytes (BPE, por sus siglas en inglés). La información entrante se divide más todavía para identificar secuencias frecuentes de caracteres. «Tusaa», por ejemplo, es muy común y se representa como una unidad única. No obstante, eso sigue siendo insuficiente para hacer un modelo de PLN adecuado para el inuktitut. Según Bollmann, la técnica está condenada al fracaso, ya que no identifica las unidades de una forma lingüísticamente significativa. «En la comunidad de PLN, muchos creen que todo lo que necesitamos es la BPE, que mejorará, obtendrá datos suficientes y, finalmente, será capaz de descubrir la estructura relevante. Yo no estoy de acuerdo: en mi opinión, necesitamos modelar cada estructura lingüística de una forma más explícita», explica Bollmann. Con MorphIRe (Morphologically-informed representations for natural language processing), Bollmann utiliza el aprendizaje profundo con arquitecturas de redes neuronales para aprender las representaciones basadas en morfemas antes de aplicarlos en modelos de vanguardia para numerosas tareas de PLN. Su labor no terminará hasta marzo de 2021, pero la investigación ya ha proporcionado pruebas de que los errores en los algoritmos de PLN actuales a menudo se deben a la morfología.
Retos futuros
«Ahora, mi objetivo es identificar la estructura morfológica de una forma que sea en su mayoría independiente de la lengua», añade Bollmann. «Esto supone un reto por muchas razones, una de las cuales es la falta de recursos buenos anotados para la tarea. En pocas palabras, si construyo un sistema que identifique la estructura morfológica, me será difícil evaluar cuán bueno es porque hay pocos datos con los que comparar los análisis». Otro desafío fundamental para el proyecto es convencer a más investigadores de que este enfoque es útil. Para ser viable, un enfoque morfológicamente informado de PLN tendría que competir con las técnicas actuales de vanguardia utilizando representaciones de entradas entrenados en equipos caros durante días o incluso semanas. Según señala Bollmann: «Se necesita mucho tiempo y recursos para competir con esos modelos. Ahora ejecuto experimentos piloto para seleccionar algunas lenguas que espero que muestren cuánto se puede mejorar el nivel técnico actual con el enfoque que propongo». De lograrlo, Bollmann prevé muchas aplicaciones posibles que van desde la traducción automática hasta los motores de búsqueda. Sin embargo, aún le queda mucho camino por delante antes de poder considerar esas opciones.
Palabras clave
MorphIRe, idioma, procesamiento del lenguaje natural, PLN, idiomas con riqueza morfológica, morfema, codificación de pares de bytes, BPE