Automatisierte Videoannotation für risikosichere selbstfahrende Autos
Das Rennen um die Markteinführung des ersten selbstfahrenden Autos hat begonnen. Und wir haben bereits eine ziemlich gute Vorstellung davon, wie diese Fahrzeuge aussehen werden: ein Auto, das mit allerlei Kameras und Sensoren ausgestattet ist, die alles, was in der Umgebung geschieht, in Echtzeit aufzeichnen und analysieren. Laut Experten sind das jeden Tag bis zu 10 Terabyte an Daten, die allein für Videos erstellt werden. Selbstfahrende Autos der Zukunft sollen mit etwa 10 CMOS-Kameras als Bestandteil ihrer Fahrerassistenzsysteme (active driving assisted systems, ADAS) bestückt sein, und die Annotation der Daten, die diese Kameras zu Straßenverkehrsobjekten, Ereignissen und Szenen erstellen, wird von entscheidender Bedeutung für die Tests und Trainings der Systeme für maschinelles Sehen (Computer Vision) sein, ohne die das Auto nicht rechtzeitig die richtige Entscheidung treffen könnte. Doch hier klafft eine Lücke: derzeit gibt es einen Mangel an gekennzeichneten, realistischen Videodatensätzen von hinreichender Größe, Komplexität und Vollständigkeit, um das maschinelle Sehen bei zukünftigen selbstfahrenden Autos zu trainieren. „Die Erstellung oder Kennzeichnung von Metadaten ist zähe Arbeit. Diese wird üblicherweise manuell erledigt, indem Felder oder Pixel einzeln, Frame für Frame gezeichnet und gekennzeichnet werden. Solche menschlichen Annotationen gestalten sich langsam, inkonsistent und übermäßig teuer. Außerdem wird die Möglichkeit zur Erfassung dieses menschlichen Wissens bei der Annotation und Wiedereinbindung in den Trainingsprozess nicht vollständig ausgeschöpft“, erklärt Dr. Oihana Otaegui, Head of ITS and Engineering bei Vicomtech – ein spanisches Forschungszentrum, das auf Computer Vision spezialisiert ist. Mit einer Cloud-fähigen Videoanalysetechnologie und Tools zur Verbindung von Videodaten mit weiteren Datenquellen könnten diese Probleme einfach überwunden werden. Diesem Ziel war das Projekt Cloud-LSVA (Cloud Large Scale Video Analysis) gewidmet: der Erstellung von großen Trainings-Datensätzen zur Verwendung in sichtbasierten Erkennungssystemen und Beschreibungen von objekt- und ereignisbasierten Szenen am Boden, um die Leistung von Algorithmen und Systemen, die in dem Auto eingerichtet sind, zu prüfen. „Unsere Big-Data-Plattform kann automatisch große Videodatensätze vorannotieren und diese in eine Cloud-Infrastruktur hochladen. Dort wird jede aufgezeichnete Szene analysiert und untergliedert, um relevante Objekte und Ereignisse für spezifische Szenarien zu erkennen und zu klassifizieren“, erklärt Dr. Otaegui und meint weiter: „In der zweiten Phase unterstützt das Annotations-Tool Benutzer bei der Verfeinerung und Erweiterung von Annotationen. Schließlich werden Online-Lerntechniken angewandt, um die Erkennungs- und Klassifizierungsmodelle zu aktualisieren, und um das menschliche Wissen in die automatischen Prozesse einzubinden. Außerdem werden in manche Szenarien Schlussfolgerungsmechanismen integriert, um die automatische Annotation komplexer Konzepte zu ermöglichen, die noch nicht durch menschliche Operateure trainiert oder gekennzeichnet worden sind und zu automatischen Szenenbeschreibungen führen.” Ausgehend hiervon können Benutzer und Anwendungen per Metasprachen semantische Anfragen über Videoarchive sowie Facettenanfragen ausführen, um eine schnelle Freigabe von Ergebnissen – die einsatzbereite Online-Videoanalyse von Big Data – zu ermöglichen. Auch wenn Cloud-LSVA vor allem auf ADAS-Funktionen für selbstfahrende Autos und auf die Erstellung einer HD-Kartographie abzielt, berücksichtigt das Projekt auch die Verwendung von Szenenkatalogen von Unfallanalyseinitiativen (GIDAS – German In-Depth Accident Study) oder Qualitätsbewertungen fahrzeuginterner Systeme (Euro NCAP – Europäisches Programm zur Bewertung von Neufahrzeugen). Über die Fahrzeugindustrie hinausgehend zeichnen sich auch Anwendungsmöglichkeiten in der Robotik und im Gesundheitswesen (hier gibt es einen ähnlichen Bedarf für die Annotation medizinischer Bilder) ab. Zukunftspläne Das Projekt wird Ende 2018 abgeschlossen. Bis dahin muss das Team noch die Lücke zwischen fahrzeuginternen Verarbeitungskapazitäten und Cloud-Computing vollständig schließen, um eine komplett rekursive Verarbeitungsschleife zu schaffen: die Cloud lernt aus den Annotationen, aktualisiert Modelle und stellt diese Fahrzeugen bereit, um mit der Zeit die Leistung zu verbessern. Dr. Otaegui sieht bereits jetzt, nach dieser Frist, in „einem nicht allzu fernen Szenario, Flotten von fahrenden Versuchsfahrzeugen, und eines Tages möglicherweise Personenkraftwagen, die noch größere Datenmengen sammeln werden, welche wiederum einen entsprechenden Ausbau der Cloud-Computing- und Kommunikationskapazitäten der Plattform erforderlich machen, um die Daten einzuspeisen und zu verarbeiten.” Cloud-LSVA geht dieses Zukunftsproblem bereits durch die Implementierung einer Computerarchitektur an, in der die Verarbeitungskapazitäten enger an der Datenquelle, also dem Auto, ausgerichtet sind. „Die Beteiligung von Valeo und IBM an dem Projekt hat uns die Möglichkeit eröffnet, die neuesten Entwicklungen in der fahrzeuginternen Embedded Computer Vision zu erforschen, um all die Daten direkt während der Aufzeichnung vorzuannotieren“, sagt Dr. Otaegui.
Schlüsselbegriffe
Cloud-LSVA, Big Data, Videoannotation, CMOS-Kamera, ADAS