Équité dans le traitement du langage naturel
Si vous utilisez des services en ligne ou possédez une entreprise nécessitant des renseignements sur la clientèle, vous avez probablement déjà bénéficié des merveilles de la technologie de traitement du langage naturel (NLP, pour natural language processing). Les robots de conversation, l’analyse des sentiments, la publicité ou même les évaluations de solvabilité sont quelques-unes des nombreuses façons de bien utiliser cette technologie. Mais il y a un hic: alors que tout fonctionne bien lorsque vous utilisez une langue comme l’anglais, le NLP commence à peiner dès qu’il doit gérer des langues riches sur le plan morphologique.
Je suis désolé, mais tusaatsiarunnanngittualuujunga
«Prenez une phrase comme “Je ne vous entends pas très bien”. Pour la plupart, les morphèmes, les plus petites unités significatives, ne sont que des mots qui peuvent être identifiés en regardant les espaces blancs. Mais tout devient beaucoup plus compliqué si vous considérez une langue morphologiquement riche comme l’inuktitut (une langue inuite). Dans cette langue, la même phrase serait exprimée avec un seul mot, “tusaatsiarunnanngittualuujunga”», explique Marcel Bollmann, chercheur postdoctorant et boursier Marie Skłodowska-Curie à l’université de Copenhague. Pour s’adapter, la plupart des modèles de NLP intègrent désormais des techniques comme l’encodage par paires d’octets (BPE, pour byte-pair encoding). L’entrée est encore décomposée pour identifier les séquences de caractères fréquentes. «Tusaa», par exemple, est très courant et sera représenté dans une seule unité. Mais ce n’est toujours pas suffisant pour créer un modèle de NLP adapté à l’inuktitut. Selon Marcel Bollmann, la technique est vouée à l’échec, car elle n’identifie pas les unités d’une manière linguistiquement significative. «De nombreux membres de la communauté du NLP croient que le BPE est tout ce dont nous avons besoin, qu’il s’améliorera avec suffisamment de données et sera finalement en mesure de déterminer la structure appropriée. J’ai tendance à ne pas être d’accord: à mon avis, nous devons modéliser chaque structure linguistique plus explicitement», explique Marcel Bollmann. Avec MorphIRe (Morphologically-informed representations for natural language processing), Marcel Bollmann utilise l’apprentissage profond avec des architectures de réseaux neuronaux pour apprendre les représentations fondées sur des morphèmes avant de les appliquer à des modèles de pointe pour un éventail de tâches de NLP. Son travail ne sera achevé qu’en mars 2021, mais la recherche a déjà prouvé que les erreurs dans les algorithmes de NLP actuels peuvent souvent être attribuées à la morphologie.
Des défis à venir
«Mon objectif consiste maintenant à identifier la structure morphologique d’une manière qui soit principalement indépendante du langage», ajoute Marcel Bollmann. «Cela représente un défi pour de nombreuses raisons, notamment le manque de ressources de qualité annotées pour cette tâche. Pour faire simple, si je construisais un système qui identifie la structure morphologique, j’aurais du mal à évaluer sa justesse réelle, car il y existe peu de données auxquelles comparer les analyses.» Un autre défi majeur pour le projet: convaincre davantage de chercheurs que son approche est réellement utile. Pour être viable, une approche morphologiquement informée du NLP devrait concurrencer les techniques de pointe actuelles utilisant des représentations d’entrée formées sur du matériel coûteux pendant des jours, voire des semaines. Comme le remarque Marcel Bollmann: «Il faut beaucoup de temps et de ressources pour concurrencer ces modèles. Je mène actuellement des expériences pilotes pour sélectionner quelques langues qui, espérons-le, montreront comment l’approche que je propose peut améliorer l’état actuel de la technique.» En cas de succès, Marcel Bollmann prévoit de nombreuses applications potentielles, de la traduction automatique aux moteurs de recherche. Mais il lui reste encore un long chemin à parcourir avant de pouvoir envisager de telles options.
Mots‑clés
MorphIRe, langage, traitement du langage naturel, NLP, langages morphologiquement riches, morphème, codage par paires d’octets, BPE