Skip to main content
European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Neural Video Processing and Streaming for Real-time Traffic Monitoring

Article Category

Article available in the following languages:

Une surveillance vidéo du trafic en temps réel et de qualité grâce à l’IA

Le projet VISIONS rapproche les villes intelligentes d’un système de surveillance du trafic en temps réel qui bénéficie d’un traitement et d’une diffusion vidéo en continu de haute qualité basés sur l’intelligence artificielle.

La croissance de la population urbaine, associée à l’augmentation du nombre de véhicules, a entraîné le développement et l’installation de systèmes de surveillance du trafic afin de lutter contre les embouteillages et d’assurer la sécurité routière. Alors que les routes sont de plus en plus équipées de caméras, la bande passante de la plupart des réseaux de communication dans le monde est actuellement trop limitée pour transmettre des vidéos de surveillance du trafic de haute qualité, une qualité moindre compromettant la prise de décision des opérateurs de la circulation. Le projet VISIONS, financé par le programme Actions Marie Skłodowska-Curie (MSCA), a appliqué des méthodes d’apprentissage automatique au traitement et à la diffusion vidéo en continu, afin de proposer une surveillance vidéo de qualité en temps réel du trafic. À l’avenir, l’algorithme VISIONS sera disponible sous la forme d’un progiciel qui pourra être téléchargé sur des caméras opérationnelles ou intégré à de nouvelles caméras, contribuant ainsi à soutenir l’ambition de l’UE de réduire à zéro le nombre de morts sur les routes d’ici 2050.

Optimisation vidéo de bout en bout

Afin de maximiser la bande passante du réseau disponible pour le système de surveillance du trafic, le projet VISIONS s’est tourné vers l’apprentissage automatique pour le traitement et la diffusion vidéo en continu. Pour le traitement vidéo, les caméras envoient des vidéos à faible résolution, que l’algorithme VISIONS améliore ensuite en les reconstruisant grâce à des techniques telles que la super-résolution. En ce qui concerne la diffusion vidéo en continu, VISIONS utilise l’apprentissage par renforcement profond (DRL pour «deep reinforcement learning») pour ajuster le débit binaire vidéo en temps réel, ce qui permet au système de s’adapter à des dynamiques de réseau inattendues (telles que des demandes concurrentes d’autres services) et d’améliorer l’expérience des utilisateurs. «Étant donné la capacité de calcul et la consommation d’énergie limitées des caméras de surveillance du trafic, notre modèle de réseau neuronal peut fonctionner de manière fiable sur des caméras disposant de ressources de calcul limitées», note Xu Zhang, boursière MSCA. À l’avenir, pour garantir aux utilisateurs un visionnage de la plus haute qualité possible tout en optimisant la bande passante, le système calculera une sorte de compromis, comme l’explique Xu Zhang: «Si les installations de l’utilisateur final sont puissantes, VISIONS transmettra des vidéos à faible résolution sur le réseau, en reconstruisant la vidéo pour en améliorer la qualité du côté du client, ce qui nécessite moins de bande passante sur le réseau. Si les installations de l’utilisateur final disposent de moins de moyens de calcul, des vidéos à plus haute résolution doivent être transmises, ce qui consomme beaucoup plus de bande passante.»

Tests simultanés d’algorithmes

Le système a été développé à l’aide de l’API Python de TensorFlow. Un environnement de simulation a été mis au point sur la base du processus d’ingestion vidéo des services de diffusion vidéo en continu du trafic réel. L’équipe a formé plusieurs modèles simultanément, chacun étant alimenté par des données réseau et vidéo différentes provenant d’ensembles de données publiques, ce qui a rendu le système plus robuste dans l’ensemble. Il s’agissait de données de téléchargement à large bande de la Commission fédérale des communications (FCC), de données de bande passante sans fil 4G collectées sur des appareils mobiles à Gand, et de journaux de bande passante HSDPA 3G provenant de scénarios de diffusion en continu HTTP mobile. Pour évaluer les performances, l’algorithme VISIONS a été comparé à d’autres approches de pointe, en termes de consommation de bande passante et de fluidité vidéo, ainsi que d’images perdues et de gel des images, entre autres critères. «Notre algorithme peut réduire les pertes d’images et le gel des images de 24 % et 15,5 %, respectivement, sans nécessiter davantage de bande passante», explique Xu Zhang.

Pertinence pour d’autres systèmes multimédias

VISIONS s’est concentré sur la diffusion en continu de vidéos vers les centres de contrôle, aidant les opérateurs à observer à distance le flux du trafic afin d’identifier et de répondre rapidement aux problèmes tels que les urgences ou les embouteillages. «À l’avenir, nous étudierons la possibilité de transmettre des vidéos du trafic à des systèmes d’IA pour qu’ils les analysent et signalent les problèmes. En attendant, nos résultats pourraient profiter à d’autres systèmes reposant sur des applications multimédias telles que les applications de réalité virtuelle, l’enseignement à distance et les soins de santé», conclut Xu Zhang.

Mots‑clés

VISIONS, vidéo, débit binaire, intelligence artificielle, apprentissage automatique, trafic, route, surveillance, diffusion vidéo en continu, bande passante

Découvrir d’autres articles du même domaine d’application