Traumartige Prozesse könnten beim Bau anwenderorientierter Roboter helfen

Falls Europa anwenderorientierte KI-Systeme entwickeln will, müssen diese an die menschliche Variabilität angepasst werden. Das DREAM-Projekt baute auf Erkenntnissen über den Nutzen von Schlaf auf, um einen Paradigmenwechsel in der Gestaltung von Robotern und KI vorzuschlagen.

Digitale Wirtschaft

Die Erstellung eines KI-Programms, das auf jede Situation anwendbar ist, stellt sich als überaus schwierig dar, da zunächst alle Situationen und die entsprechenden angepassten Verhaltensweisen ermittelt werden müssen. Die Erkenntnis, die das EU-geförderte Projekt DREAM (Deferred Restructuring of Experience in Autonomous Machines) inspirierte, war, dass Prozesse, die denen während des Schlafes ähneln, Robotern dabei helfen könnten, Wissen und Fähigkeiten einfacher zu erwerben, zu organisieren und zu nutzen. Durch die Exposition von Robotern gegenüber offenen räumlichen und zeitlichen Szenarien entwickelte das Team Vorschläge für eine neue Generation Roboter.

Adaptive Algorithmen

Im Bereich des maschinellen Lernens wurde das Verstärkungslernen – eine Lernmethode, die gewünschte Verhaltensweisen mit positivem Feedback verknüpft – vorgeschlagen, um Robotern die Durchführung von Aufgaben beizubringen. Doch aufgrund mehrerer Einschränkungen wurde dieser Ansatz noch nicht angewandt. Die größte dieser Einschränkungen ist, dass die zugrunde liegenden Algorithmen nicht Ursache und Wirkung zurechnen können. Projektmanager Prof. Stéphane Doncieux erklärt hierzu: „Angenommen, der Roboter bekäme ein Zahlenwertsignal als positives Feedback, dann müsste der Algorithmus, um wirklich dazuzulernen, wissen, mit welchem Wert dieser Zustand assoziiert ist: ist die Ursache die Armbewegung, eine gedrückte Taste oder etwas anderes?“ DREAM reduzierte die Menge spezifischer Informationen, die ein Roboter zum Ausführen einer Aufgabe benötigt, da adaptive Algorithmen entwickelt wurden, die auf unterschiedliche Szenarien angewandt werden können, aber dennoch angemessene Lösungen finden, ohne kontinuierlich modifiziert zu werden. „Aktuelle Lernalgorithmen setzen oftmals Expertenwissen voraus. Tatsächlich bietet das naive Lernen Möglichkeiten, wenn dieses angemessen genutzt werden kann. Dies ähnelt dem, was passiert, wenn Tiere und Menschen schlafen“, sagt Prof. Doncieux. In praktischer Hinsicht wird das Lernen von Robotern zu einer Abfolge von Prozessen mit alternierenden Interaktionen mit der realen Welt unter Nutzung der erzeugten Daten, anstelle eines einzigen Prozesses. Während der „wachen“ Sitzungen beobachtete der Roboter die Auswirkungen seiner Handlungen, um zu verstehen, wie die Umgebung strukturiert ist. Während des „Träumens“ untersuchte der Roboter zahlreiche mögliche Interaktionen, wobei er jene Interaktionen erfasste, die erkennbare Auswirkungen auf ein bestimmtes Objekt hatten (z. B. das Bewegen des Objekts). Jetzt konnte der Roboter einfache Aufgaben, wenn auch nur in engen Parametern, ausführen, die eine Art Aktionsverzeichnis für das Training von Algorithmen des tiefen Lernens bereitstellten. Ein anderer „Traum“-Prozess, der auf solchen Algorithmen basierte, half dem Roboter bei der Verallgemeinerung der Algorithmen in Bezug auf andere Situationen. Andere „Traum“-Phasen waren auf den Transfer von erlernten Erkenntnissen ausgerichtet, um auf dem erworbenen Wissen aufzubauen. Es wurden verschiedene Ansätze untersucht, darunter der Wissenstransfer vom Kurzeit- in das Langzeitgedächtnis und der Wissenstransfer zwischen unterschiedlichen Individuen (gesellschaftliches Lernen), da in der Gruppe erlerntes Wissen nachweislich das Lernen beschleunigt und besser festigt.

Ein neues Paradigma in greifbarer Nähe

DREAM experimentierte mit unterschiedlichen humanoiden Robotern wie z. B. PR2 und Baxter, wobei die Interaktion mit Objekten unter Verwendung der Roboterarme im Fokus stand. „Die Roboter unterschieden zwischen Teilen der Umgebung, mit denen sie zu einem bestimmten Zweck interagieren können (z. B. etwas bewegen oder anheben). Wichtig ist vor allem, dass die vorgeschlagenen Anpassungsmethoden ohne Modifikation unterschiedliche Aufgaben bewältigen konnten. Je nach Auswirkung, die sie untersuchen sollten, konnten sie z. B. einen Ball handhaben oder einen Joystick bedienen“, sagt Prof. Doncieux. Ermutigt durch seine Experimente arbeitet das Team jetzt auf theoretischer Ebene daran, bestimmte Bausteine des Ansatzes näher zu beleuchten, darunter z. B. die Fähigkeit von Robotern, relevante Verhaltensweisen zu entdecken, wenn nur wenig darüber bekannt ist, wie Aktionen oder Zustände aussehen sollten.