Procesy podobne do snów pomogą nam tworzyć bardziej antropocentryczne roboty

Jeśli Europa chce opracować antropocentryczne systemy sztucznej inteligencji, muszą być one w stanie dostosować się do ludzkiej zmienności. Projekt DREAM czerpał z wyników badań na temat korzyści płynących ze snu, aby zaproponować zmianę podejścia do procesu projektowania robotów i sztucznej inteligencji.

Gospodarka cyfrowa

Tworzenie programu sztucznej inteligencji mającego zastosowanie do każdej sytuacji to trudne zadanie, ponieważ w pierwszej kolejności należy zidentyfikować wszystkie te sytuacje oraz odpowiednie do nich zachowania. Pomysł, który był inspiracją dla wspieranego przez UE projektu DREAM (Deferred Restructuring of Experience in Autonomous Machines), zakładał, że procesy podobne do tych, które zidentyfikowano w trakcie snu, mogą pomóc robotom łatwiej nabywać, organizować i wykorzystywać wiedzę i umiejętności. Angażowanie robotów w bardziej niejednoznaczne sytuacje zachodzące w różnych okolicznościach i o różnych porach pozwoliło zespołowi badawczemu przedstawić nową generację robotów.

Algorytmy adaptacyjne

Uczenie przez wzmocnienie to znana dziedzinie uczenia maszynowego technika łączenia pożądanych zachowań ze wzmocnieniem pozytywnym, którą zaproponowano do nauczania robotów wykonywania zadań. Jednak ze względu na szereg ograniczeń, nie udało się dotąd zastosować takiego podejścia w praktyce. Zasadniczym jego ograniczeniem jest fakt, że pierwotne algorytmy nie potrafią powiązać skutku z przyczyną. Jak wyjaśnia kierownik projektu, prof. Stéphane Doncieux: „Załóżmy, że robot otrzyma wzmocnienie pozytywne w postaci sygnału o wartości numerycznej. Aby naprawdę czegoś się z niego nauczyć, algorytm musi wiedzieć, z jakim stanem związana jest ta wartość: czy powstała ona na skutek ruchu ramienia, po przyciśnięciu jakiegoś przycisku czy może z jakiegoś innego powodu?”. Zespół projektu DREAM ograniczył ilość specyficznych informacji potrzebnych robotowi do ukończenia zadania, opracowując algorytmy adaptacyjne, które można wykorzystać w różnych sytuacjach i które mimo wszystko będą w stanie znaleźć odpowiednie rozwiązanie bez konieczności ich ciągłego modyfikowania. „Obecne algorytmy uczenia często wykorzystują wiedzę ekspercką. W rzeczywistości, przy odpowiednim wykorzystaniu, uczenie naiwne stwarza nowe możliwości. Przypomina to procesy zachodzące podczas snu u ludzi i zwierząt”, mówi prof. Doncieux. W praktyce oznacza to, że uczenie się robota nie jest pojedynczym procesem, a staje się sekwencją procesów przeplecionych z interakcjami ze światem rzeczywistym oraz wykorzystywaniem wygenerowanych danych. Podczas sesji w trybie „czuwającym” robot obserwował konsekwencje swoich działań, aby zrozumieć strukturę swojego otoczenia. Podczas „śnienia” robot (w trakcie symulacji) odkrywał wiele możliwych interakcji, rejestrując te, które miały identyfikowalny wpływ na wybrany przedmiot (np. poruszenie go). Obecnie może wykonywać proste zadania, ale tylko w granicach ściśle wytyczonych parametrów, dostarczając swego rodzaju biblioteki działań, którymi można trenować algorytmy głębokiego uczenia maszynowego. Kolejny proces „śnienia” oparty na takich algorytmach pomógł robotowi w uogólnieniu tej wiedzy w celu stosowania jej w innych sytuacjach. Inne fazy „śnienia” koncentrowały się na uczeniu transferowym, aby rozbudowywać pozyskane zasoby wiedzy. Wypróbowano różne podejścia, w tym transfer z pamięci krótkotrwałej do długotrwałej oraz transfer między dwoma osobnikami (społecznie uczenie się), gdyż wykazano, że wiedza pozyskana w grupie przyspiesza proces uczenia się i poprawia jego wydajność.

O krok od nowego wzorca

W ramach projektu DREAM eksperymentowano z różnymi modelami robotów humanoidalnych np. PR2 i Baxter, koncentrując się na wykorzystaniu ich ramion do wchodzenia w interakcje z przedmiotami. „Roboty rozróżniały części otoczenia, na które mogą zadziałać w celu osiągnięcia określonego skutku (jak np. przesunięcie przedmiotu lub jego podniesienie). Kluczowy jest fakt, że zaproponowane przez nas metody adaptacji radzą sobie z różnymi zadaniami bez konieczności wprowadzania modyfikacji. Np. w zależności od skutku, który roboty miały sprawdzać, mogły wygenerować manipulację przy pomocy kuli lub joysticka”, mówi prof. Doncieux. Osiągnięte wyniki zachęciły zespół do podjęcia prac od strony teoretycznej, aby lepiej wyjaśnić niektóre elementy składające się na przyjęte przez projekt podejście, takie jak sposób, w jaki roboty mogą odkrywać odpowiednie zachowania, gdy niewiele wiedzą o tym, jak powinny wyglądać stany lub działania.