Comment développer des méthodes de gestion de contenus audiovisuels à la fois précises et efficaces
Les contenus des médias audiovisuels ne représentent pas uniquement un outil essentiel de communication et de divertissement, mais également une source utile d’histoire moderne. Afin de permettre à tous de bénéficier de documents aussi instructifs, il est primordial de traduire efficacement et de manière rentable les images en mouvement ainsi que les sons en mots. C’est là qu’intervient le projet MeMAD, financé par l’UE, qui développe des méthodes automatiques basées sur le langage pour gérer, accéder et publier des contenus numériques préexistants et nouvellement produits au sein des industries créatives. En se focalisant sur la diffusion télévisuelle ainsi que sur les services de média à la demande, le projet MeMAD compte également améliorer l’expérience narrative numérique. Plus de deux ans après ses débuts, les partenaires de MeMAD ont développé un prototype de plateforme pour aider les professionnels du contenu audiovisuel. Ils ont également évalué plusieurs aspects de la plateforme, comme l’indique un article de blog, publié sur le site web du projet. «Nous avions quatre pistes d’évaluation: l’aide à l’édition vidéo, la recherche, le sous-titrage intralingue à l’aide de la reconnaissance automatique de la parole (RAP) et le sous-titrage intralingue à l’aide de la traduction automatique (TA)». On peut également lire dans le même article de blog: «Pour chaque évaluation, les participants remplissaient un formulaire de type questionnaire d’expérience utilisateur à l’issue de chaque tâche; ces questionnaires se focalisaient sur la tâche elle-même plutôt que sur l’interface utilisateur. Après chaque session d’évaluation, un entretien court semi-structuré avait lieu. De plus, pour les évaluations d’aide à l’édition vidéo et de recherche, nous avons également recueilli des données issues des réflexions à haute voix des participants». L’article de blog ajoute que les transcriptions issues des outils RAP et TA se sont révélées particulièrement «utiles pour les besoins de l’aide à l’édition vidéo et de la recherche d’archives, même si les résultats sont encore perfectibles». Dans le même article, les partenaires du projet soulignent que la présentation ainsi que la facilité de recherche des métadonnées pouvaient également être améliorées. «Il serait utile de pouvoir chercher des séquences où une personne parle d’un sujet en particulier, en combinant des données de reconnaissance faciale ainsi que vocale. Il convient également d’examiner la longueur des séquences, même si pour des vidéos plus longues, le fait de raccourcir la longueur des séquences pourrait se traduire par un nombre de marqueurs impossible à traiter par un outil d’édition vidéo». L’article de blog poursuit: «De futures évaluations incorporeront la reconnaissance faciale à la détection visuelle d’objets. Les mêmes participants devraient prendre part aux évaluations futures, dans la mesure du possible, car ils ont déjà pu se familiariser avec la plateforme et sont en mesure de comparer les résultats».
Des outils innovants
Le projet MeMAD (Methods for Managing Audiovisual Data: Combining Automatic Efficiency with Human Accuracy) emploie l’apprentissage et le traitement automatique pour permettre de facilement récupérer de grands volumes de contenus dans plusieurs langues. Il vise également à doter les créateurs de contenus d’outils innovants pour mieux structurer leurs contenus et automatiser la livraison de dérivés de contenus vers différentes plateformes, telles que les médias sociaux. Grâce aux outils TA utilisés pour les transcriptions vocales et les sous-titres, les contenus seront disponibles pour les publics étrangers, et seront également plus accessibles aux personnes sourdes, malentendantes ou présentant une déficience visuelle. La transcription, la traduction et le sous-titrage automatisés constituent des exemples parmi les nombreuses possibilités d’utilisation offertes par le projet MeMAD. Ainsi, les éditeurs vidéo devant éditer des entretiens dans une langue étrangère pourront travailler sans recourir aux services d’un interprète. Une autre possibilité d’utilisation consisterait à permettre aux consommateurs présentant une déficience visuelle de suivre des émissions d’actualités, grâce aux descriptions de contenus auto-générées qui seront alors disponibles. Un rapport périodique du projet sur CORDIS note: «La clé de cette innovation consiste à fournir aux industries créatives une représentation commune des données de référence pendant les processus de production, afin que les processus éditoriaux qui reposent pour le moment sur des documents puissent être remplacés par une approche plus structurée». Pour plus d’informations, veuillez consulter: site web du projet MeMAD
Mots‑clés
MeMAD, audiovisuel, contenu audiovisuel, édition vidéo, traduction automatique