Annotation vidéo automatisée pour les voitures sans conducteur à l’épreuve du risque
La course à la mise sur le marché de la toute première voiture sans conducteur est lancée. Et nous avons déjà une assez bonne idée de ce à quoi ressemblera ce véhicule: une voiture parée de toutes sortes de caméras et de capteurs qui enregistreront et analyseront en temps réel tout ce qui se passe dans son environnement. Selon les experts, cela représente jusqu’à 10 téraoctets de données générées chaque jour rien que pour la vidéo. Il est prévu que les futures voitures sans conducteur seront dotées d’environ 10 caméras CMOS dans leurs systèmes actifs d’aide à la conduite (ADAS). L’annotation des données que les caméras génèrent pour les objets de la circulation routière, les événements et les scènes seront essentiels pour tester et former les systèmes de vision par ordinateur sans lesquels la voiture ne serait pas en mesure de prendre la bonne décision au bon moment. Toutefois, une lacune subsiste: il existe actuellement un manque de jeux de données vidéo étiquetées et réalistes de taille, de complexité et d’exhaustivité suffisantes pour former la vision par ordinateur des futures voitures sans conducteur. «La génération ou l’étiquetage des métadonnées est un travail fastidieux, réalisé en général manuellement en dessinant des boîtes ou des pixels et en les étiquetant une par une, image par image. Une telle annotation humaine est lente, incohérente et excessivement coûteuse. De plus, la possibilité de capturer ces connaissances humaines lors de l’annotation et de les réintégrer dans le processus de formation n’est pas pleinement exploitée», explique la Dre Oihana Otaegui, responsable des STI et de l’ingénierie chez Vicomtech, un centre de recherche espagnol spécialisé dans la vision par ordinateur. Ces problèmes pourraient être facilement surmontés grâce à la technologie d’analyse vidéo sur cloud et aux outils permettant de fusionner la vidéo avec d’autres sources de données. Et c’est précisément ce que visait le projet Cloud-LSVA (Cloud Large Scale Video Analysis): créer de grands jeux de données de formation à utiliser dans les systèmes de détection basés sur la vision, ainsi que la description de scènes au sol basées sur des objets et des événements pour évaluer la performance des algorithmes et des systèmes configurés dans la voiture. «Notre plateforme de mégadonnées peut préannoter automatiquement de grands jeux de données vidéo et les télécharger vers une infrastructure cloud. Chaque scène enregistrée y sera analysée et décomposée afin de détecter et classer les objets et événements pertinents pour des scénarios spécifiques», explique la Dre Otaegui, qui renchérit: «Dans un deuxième temps, l’outil d’annotation aide les utilisateurs à affiner et à augmenter les annotations. Enfin, des techniques d’apprentissage en ligne sont appliquées pour mettre à jour les modèles de détection et de classification, et pour intégrer les connaissances humaines dans les processus automatiques. Des mécanismes de raisonnement seront également inclus dans certains scénarios pour permettre l’annotation automatique de concepts complexes qui n’ont pas été préalablement formés ou étiquetés par des opérateurs humains, ce qui donne lieu à des descriptions de scènes automatiques.» À partir de là, les utilisateurs et les applications peuvent effectuer des requêtes sémantiques sur des archives vidéo via des métalangues ainsi que des requêtes à facettes pour permettre un partage rapide des résultats – Online Big Data Video Analytics (l’analyse vidéo de mégadonnées en ligne) dans le creux de la main! Bien qu’il vise principalement les fonctions ADAS pour les véhicules automatisés et la génération de cartographie HD, le projet Cloud-LSVA envisage également d’utiliser des catalogues de scènes provenant d’initiatives d’analyse d’accidents (GIDAS – German In Depth Accident Study) ou d’évaluations de la qualité des systèmes embarqués (Euro NCAP – European New Car Assessment Programme). Outre l’industrie automobile, d’autres applications dans la robotique et la santé (des domaines caractérisés par une demande similaire en matière d’annotation d’images médicales) sont également envisagées. Projets d’avenir Le projet s’achèvera fin 2018. D’ici là, l’équipe devra encore boucler complètement la boucle entre les capacités de traitement dans le véhicule et le calcul au niveau du cloud, afin de fournir une boucle de traitement entièrement récursive: le cloud apprend des annotations, met à jour les modèles et les transmet aux véhicules pour augmenter les performances progressivement. Se tournant vers l’avenir, la Dre Otaegui prévoit également comment, dans «un futur pas si lointain, des flottes de voitures d’essai, voire un jour des voitures particulières, rouleront sur nos routes et recueilleront des volumes de données encore plus importants, ce qui nécessitera un accroissement équivalent des capacités de cloud computing et de communication de la plateforme pour acquérir et traiter les données.» Le projet Cloud-LSVA s’attaque déjà à ce problème futur en adoptant une architecture informatique dans laquelle les capacités de traitement sont rapprochées de la source des données, c’est-à-dire de la voiture. «La participation de Valeo et d’IBM au projet a offert la possibilité d’explorer les dernières avancées en matière de vision par ordinateur embarqué pour les véhicules, dans le but de préannoter toutes les données à la volée tout en les enregistrant», explique la Dre Otaegui.
Mots‑clés
Cloud-LSVA, mégadonnées, annotation vidéo, caméra CMOS, ADAS