Des processus oniriques susceptibles d’aider à construire des robots davantage axés sur la personne
Élaborer un programme d’IA applicable à n’importe quel cas de figure s’avère très délicat, car il faut d’abord identifier toutes les situations possibles, ainsi que les comportements qui leur sont adaptés. L’idée qui a inspiré le projet DREAM (Deferred Restructuring of Experience in Autonomous Machines), soutenu par l’UE, repose sur l’hypothèse que des processus similaires à ceux identifiés pendant le sommeil puissent aider les robots à acquérir, organiser et utiliser plus facilement leurs connaissances et leurs compétences. Exposer les robots à des scénarios plus ouverts sur l’espace et le temps a amené l’équipe à proposer une nouvelle génération de robots.
Des algorithmes adaptatifs
Dans le domaine de l’apprentissage automatique, l’«apprentissage par renforcement», qui relie comportements souhaités et retour positif a semblé une base propice pour apprendre aux robots à effectuer certaines tâches. Toutefois, en raison d’un certain nombre de limitations, cette approche n’a pas encore été appliquée. La principale limitation est liée au fait que les algorithmes sous-jacents ne puissent pas établir des liens de cause à effet. Le professeur Stéphane Doncieux, responsable du projet, explique: «Supposons que le robot reçoive un signal contenant une valeur numérique en guise de rétroaction positive. Pour vraiment parvenir à apprendre, l’algorithme doit savoir à quel état cette valeur est associée: est-ce dû au mouvement du bras du robot, à un bouton qui a été pressé ou à autre chose?» DREAM a réduit la quantité d’informations spécifiques nécessaires à un robot pour accomplir une tâche, en développant des algorithmes adaptatifs pouvant être appliqués à différents scénarios, tout en restant en mesure de trouver des solutions appropriées sans procéder constamment à des modifications. «Les algorithmes d’apprentissage actuels requièrent souvent des connaissances spécialisées. En fait, l’apprentissage naïf offre des opportunités si vous êtes capable de l’exploiter correctement. Cela évoque ce qui se passe durant les phases de sommeil des animaux et des humains», explique le professeur Doncieux. En pratique, l’apprentissage du robot prend la forme d’une séquence de processus alternant interactions avec le monde réel et exploitation des données générées, plutôt qu’un processus unique. Au cours des séances en mode «éveillé», le robot a observé les conséquences de ses actions afin de comprendre comment son environnement est structuré. En mode «onirique», le robot a exploré, dans des simulations, de nombreuses interactions possibles, en gardant trace de celles qui généraient des effets identifiables sur un objet donné (par exemple, en le déplaçant). Il était alors capable d’effectuer des tâches simples mais uniquement dans un cadre restreint de paramètres, offrant ainsi une sorte de bibliothèque d’actions permettant de former des algorithmes d’apprentissage en profondeur. Un autre processus «onirique» basé sur des algorithmes de ce type a aidé le robot à généraliser leur utilisation à d’autres situations. Les autres phases «oniriques» ont été axées sur l’apprentissage par transfert, pour tirer parti des connaissances acquises. Diverses approches ont été étudiées, notamment le transfert de la mémoire à court terme vers la mémoire à long terme ainsi que le transfert entre différents individus (l’apprentissage social), car il a été démontré que l’acquisition de connaissances au sein d’un groupe accélérait l’apprentissage et le rendait plus robuste.
Un nouveau paradigme à portée de main
DREAM a expérimenté différents robots humanoïdes, dont PR2 et Baxter, en se concentrant sur leur façon d’interagir avec des objets à l’aide de leurs bras. «Les robots ont identifié les parties des environnements sur lesquelles ils peuvent agir pour obtenir un effet particulier (déplacer ou soulever un objet, par exemple). Les méthodes d’adaptation proposées ont pu traiter différentes tâches sans modification, ce qui était essentiel. Par exemple, en fonction de l’effet que nous leur avons demandé d’explorer, ils ont été capables générer des actions pour manipuler une balle ou un joystick», explique le professeur Doncieux. Encouragés par ses expériences, l’équipe s’intéresse maintenant à l’aspect théorique afin d’apporter davantage d’éclaircissements sur certains éléments constitutifs de leur approche, comme la façon dont les robots peuvent découvrir des comportements adéquats, quand peu de choses sont connues sur les actions ou les états concernés.
Mots‑clés
DREAM, robot, IA, apprentissage automatique, sommeil, rêve, algorithme, apprentissage par renforcement