Comment les machines interprètent le langage humain
Avez-vous déjà essayé d’apprendre à parler couramment une langue étrangère en étudiant des listes de mots et des règles grammaticales? Si oui, vous n’êtes probablement pas allé bien loin. L’expérience acquise en écoutant, en lisant et en parlant joue un rôle essentiel dans le processus d’apprentissage humain. Il n’en va pas autrement lorsqu’il s’agit de développer des technologies du langage humain (TLH), comme la reconnaissance vocale, la traduction automatique et la reconnaissance des images textuelles. Les progrès réalisés dans ces domaines sont le fruit d’énormes avancées de l’IA, étant donné que les réseaux neuronaux sont entraînés avec des données du monde réel pour reconnaître et traduire la langue avec plus de précision. Pour les aider à atteindre leur plein potentiel, le projet SEQCLAS a examiné ce que ces trois technologies ont en commun. Financé par le Conseil européen de la recherche (CER), le projet les a examinées sous l’angle d’un cadre global basé sur la théorie de la décision statistique. Sa contribution pourrait permettre aux équipes travaillant sur les TLH d’évaluer les algorithmes de manière critique et de les améliorer.
Une «verre» pour un «ver»
«Dans les trois domaines d’application, c’est le contexte qui permet au système de mieux interpréter les données d’entrée et de générer des résultats plus précis», explique Hermann Ney, directeur du Human Language Technology and Pattern Recognition Group à l’université RWTH d’Aix-la-Chapelle, en Allemagne, et chercheur principal de SEQCLAS. Toutefois, lorsqu’il s’agit du langage, ce contexte est complexe et comporte plusieurs niveaux. Comment la machine peut-elle apprendre à distinguer «pain» de «pin» pour le transcrire correctement, ou à distinguer le verbe «plancher» du nom, pour choisir la bonne traduction? «Si l’on prend l’exemple de la reconnaissance vocale, chaque son doit être considéré comme faisant partie d’une séquence – un mot, une phrase, voire un dialogue – pour en interpréter correctement le sens», explique Hermann Ney. Traiter et classer de telles séquences signifie permettre aux réseaux neuronaux de reconnaître les schémas qui les structurent. L’équipe de SEQCLAS a examiné ce défi du point de vue de la théorie de la décision. Ce cadre souligne l’importance du critère de performance (par exemple, le nombre d’erreurs) pour ces tâches de traitement de séquence à séquence. «En conséquence, le critère de performance peut être utilisé pour améliorer la structure et la formation des systèmes basés sur les réseaux neuronaux», fait remarquer Hermann Ney. En ce qui concerne la traduction automatique, cette performance peut être plus difficile à quantifier, concède-t-il, en raison de l’existence de différentes interprétations et traductions possibles.
Des pistes pour progresser
Pour compléter leurs travaux conceptuels, les chercheurs ont travaillé sur un certain nombre de modèles et de tests permettant de les transposer sous forme d’améliorations pratiques. Ils ont utilisé des techniques d’apprentissage non supervisé et semi-supervisé pour permettre la traduction automatique à partir de données monolingues dans les langues source et cible. Ce travail pourrait notamment contribuer à améliorer les traductions automatiques pour des paires de langues moins courantes. Hermann Ney et ses collègues ont également réalisé plusieurs prototypes de systèmes qui serviront de base à de nouvelles recherches dans ce domaine prometteur. Il est convaincu que l’approche globale du projet offre également une perspective historique unique sur les concepts qui sont à la base de la TLH. «Nous avons tendance à oublier que les réseaux neuronaux sont utilisés pour la reconnaissance vocale depuis plus de 30 ans. Leur développement a longtemps été freiné par le manque de puissance de calcul», ajoute Hermann Ney. «Réévaluer et mettre à jour les recherches existantes à la lumière des capacités et des connaissances actuelles pourrait nous aider à réaliser de nouvelles avancées dans ce domaine.»
Mots‑clés
SEQCLAS, technologie du langage humain, reconnaissance de la parole, reconnaissance des images textuelles, traduction automatique, réseau neuronal, algorithme, apprentissage non supervisé, apprentissage semi-supervisé