Zautomatyzowana adnotacja wideo zapewnia bezpieczeństwo autonomicznych samochodów
Trwa wyścig o wprowadzenie na rynek pierwszego w historii samochodu bez kierowcy. Dość dokładnie wiemy już, jak będzie on wyglądać: samochód wyposażony we wszelkiego rodzaju kamery i czujniki, które będą rejestrować i analizować wszystko to, co dzieje się w otoczeniu w czasie rzeczywistym. Według ekspertów to aż 10 terabajtów danych generowanych każdego dnia tylko na potrzeby wideo. Przewiduje się, że w przyszłości samochody bez kierowców będą posiadać około 10 kamer CMOS w ramach swoich systemów wspomagania kierowcy (ADAS), a opisywanie generowanych przez nie danych dotyczących obiektów, zdarzeń i scen występujących w ruchu drogowym będzie miało kluczowe znaczenie dla testowania i szkolenia komputerowych systemów wizyjnych, bez których samochód nie byłby w stanie podjąć właściwej decyzji we właściwym czasie. Istnieje jednak luka: obecnie brakuje oznakowanych, realistycznych zestawów danych wideo o wystarczających rozmiarach i złożoności, które umożliwiałyby trenowanie w zakresie komputerowej wizji przyszłych samochodów bez kierowców. „Generowanie metadanych lub oznaczanie to żmudna praca. Zazwyczaj wykonywane jest ono ręcznie poprzez rysowanie ramek lub pikseli i oznaczanie ich pojedynczo, klatka po klatce. Taka ręczna adnotacja jest powolna, niespójna i nadmiernie kosztowna. Ponadto możliwości użycia tej wiedzy do komentowania i szkolenia nie są w pełni wykorzystywane”, wyjaśnia dr Oihana Otaegui, dyrektor ds. ITS i inżynierii w Vicomtech, hiszpańskim ośrodku badawczym specjalizującym się w wizji komputerowej. Dzięki technologii analizy wideo w chmurze oraz narzędziom do łączenia wideo z innymi źródłami danych problemy te można łatwo przezwyciężyć. Właśnie to było celem projektu Cloud-LSVA (Cloud Large Scale Video Analysis): tworzenie dużych zestawów danych szkoleniowych do wykorzystania w systemach detekcji wizyjnej, wraz z opisami scen na podstawie obiektów i zdarzeń w celu oceny wydajności algorytmów i systemów skonfigurowanych w samochodzie. „Nasza platforma big data może automatycznie wstępnie oznaczać duże zbiory danych wideo i przesyłać je do infrastruktury chmury. Tam każda zarejestrowana scena zostanie przeanalizowana i rozłożona w celu wykrycia i sklasyfikowania odpowiednich obiektów i zdarzeń dla konkretnych scenariuszy”, wyjaśnia dr Otaegui: „W drugim etapie narzędzie do oznaczania pomaga użytkownikom w udoskonalaniu i rozszerzaniu adnotacji. Wreszcie, techniki uczenia online są stosowane w celu aktualizacji modeli wykrywania i klasyfikacji oraz włączenia wiedzy człowieka do procesów automatycznych. W niektórych scenariuszach uwzględnione zostaną również mechanizmy wnioskowania, aby umożliwić automatyczną adnotację złożonych koncepcji, które nie zostały wcześniej przećwiczone ani oznaczone przez operatorów ludzkich, co pozwoli na automatyczne opisywanie scen”. Użytkownicy i aplikacje mogą następnie wykonywać semantyczne zapytania dotyczące archiwów wideo za pośrednictwem metajęzyków, jak również zapytania fasetowe, aby umożliwić szybkie udostępnianie wyników – analiza big data materiałów online na wyciągnięcie ręki. Chociaż rozwiązanie Cloud-LSVA dotyczy głównie funkcji ADAS dla pojazdów automatycznych i generowania map HD, rozważane jest również wykorzystanie katalogów scenariuszy z inicjatyw w zakresie analizy wypadków (GIDAS – German In Depth Accident Study) lub oceny jakości systemów w pojazdach (Euro NCAP – European New Car Assessment Programme). Poza przemysłem samochodowym pojawiają się również inne zastosowania w robotyce i opiece zdrowotnej (które mają podobne zapotrzebowanie na adnotacje do obrazów medycznych). Plany na przyszłość Zakończenie projektu planowane jest na koniec 2018 roku. Do tego czasu zespół będzie musiał jeszcze domknąć pętlę między możliwościami przetwarzania danych w pojazdach a obliczeniami w chmurze, aby zapewnić w pełni rekursywną pętlę przetwarzania: chmura uczy się na podstawie adnotacji, aktualizuje modele i dostarcza je do pojazdów, aby z czasem zwiększyć ich wydajność. Dr Otaegui przewiduje również, że „w niezbyt odległej perspektywie floty samochodów testowych, a może nawet samochody prywatne, będą prowadzić i gromadzić jeszcze większe ilości danych, co będzie następnie wymagać równoważnego zwiększenia możliwości platformy w zakresie przetwarzania w chmurze i łączności w celu wchłonięcia i przetworzenia tych danych”. Projekt Cloud-LSVA już teraz rozwiązuje ten przyszły problem, stosując architekturę obliczeniową, w której możliwości przetwarzania są bliższe źródła danych, tj. samochodu. „Udział firm Valeo i IBM w projekcie umożliwił zapoznanie się z najnowszymi osiągnięciami w zakresie wbudowanych systemów wizyjnych dla pojazdów w celu bieżącego wstępnego oznaczania wszystkich danych podczas ich rejestracji”, mówi dr Otaegui.
Słowa kluczowe
Cloud-LSVA, big data, adnotacja wideo, kamera CMOS, ADAS