Entwicklung präziser und effizienter Verfahren zur Verwaltung audiovisueller Inhalte
Audiovisuelle Medieninhalte sind nicht nur für die Kommunikation und Unterhaltung unerlässlich. Sie gelten außerdem als nützliche Quelle der Geschichte der Neuzeit. Damit alle Menschen von solch informativen Dokumenten profitieren können, müssen die bewegten Bilder und Töne effizient und kostengünstig in Wörter übersetzt werden. Hier setzt das EU-finanzierte Projekt MeMAD (Methods for Managing Audiovisual Data: Combining Automatic Efficiency with Human Accuracy) an: In dessen Rahmen werden automatische sprachbasierte Verfahren entwickelt, um in der Kreativwirtschaft bereits erstellte und originale digitale Inhalte zu verwalten, auf sie zuzugreifen und sie zu veröffentlichen. Der Schwerpunkt des Projekts MeMAD liegt auf dem Fernsehen und auf Abruf bereitstellenden Mediendiensten, wobei ein weiteres Ziel die Verbesserung digitalen Geschichtenerzählens ist. In mehr als zwei Jahren Projektlaufzeit haben die Partner den Prototyp einer Plattform zur Unterstützung von Fachleuten für audiovisuelle Inhalte entwickelt. In einem Blog-Beitrag auf der Projektwebsite wird erläutert, dass sie außerdem verschiedene Aspekte der Plattform bewertet haben. „Es gab vier Bewertungsbereiche: Unterstützung bei der Videobearbeitung, Suchfunktion, intralinguale Untertitelung mithilfe automatischer Spracherkennung und interlinguale Untertitelung mithilfe maschineller Übersetzung.“ Im selben Blog-Beitrag heißt es weiter: „Für alle Bewertungen füllten die Teilnehmenden nach jeder Aufgabe Fragebögen ähnlich dem User Experience Questionnaire (UEQ) aus. Der UEQ wurde so zugeschnitten, dass das Hauptaugenmerk hier eher auf der Aufgabe selbst als auf der Benutzeroberfläche lag. Nach jeder Bewertungssitzung fand ein kurzes halbstrukturiertes Interview statt. Für die Beurteilungen der Unterstützung bei der Videobearbeitung und der Suchfunktion wurden zusätzlich Think-Aloud-Daten erfasst.“ Laut dem Blog-Beitrag erwiesen sich vor allem die Transkripte der automatischen Spracherkennung und die maschinelle Übersetzung „sowohl für die Unterstützung bei der Videobearbeitung als auch die Archivsuche als nützlich, auch wenn weiterhin Verbesserungsbedarf besteht.“ In dem Blog-Beitrag betonen die Projektpartner, dass die Darstellung und Durchsuchbarkeit von Metadaten ebenfalls verbessert werden könnten. „Es wäre hilfreich, Gesichts- und Spracherkennungsdaten zu verbinden und so nach Ausschnitten, in denen eine bestimmte Person über ein Thema spricht, suchen zu können. Außerdem muss die Länge der Ausschnitte geprüft werden, obwohl sich bei längeren Videos durch kürzere Ausschnitte möglicherweise zu viele Markierungen ergeben, die das Werkzeug zur Videobearbeitung nicht verarbeiten kann.“ In dem Blog-Beitrag heißt es weiter: „In den künftigen Bewertungen werden die Gesichts- sowie die visuelle Objekterkennung berücksichtigt. Nach Möglichkeit sollten an diesen künftigen Bewertungen dieselben Personen teilnehmen, da sie bereits mit der Plattform vertraut sind und die Ergebnisse vergleichen können.“
Neuartige Werkzeuge
Im Rahmen des Projekts MeMAD werden maschinelles Lernen und Verarbeiten verwendet, um Daten aus großen Mengen von Inhalten und aus verschiedenen Sprachen leichter abrufen zu können. Außerdem sollen Erstellerinnen und Erstellern von Inhalten neuartige Werkzeuge an die Hand gegeben werden, um Inhalte besser strukturieren und abgeleitete Inhalte automatisch an verschiedene Plattformen wie soziale Medien übermitteln zu können. Dank der für die Sprachtranskripte und Untertitel verwendeten maschinellen Übersetzung sind die Inhalte für neue, fremdsprachige Zielgruppen verfügbar und für Menschen mit Hör- und/oder Sehbehinderung besser zugänglich. Ein Beispiel für die verschiedenen Anwendungsfälle des Projekts MeMAD ist die automatisierte Transkription, Übersetzung und Untertitelung. Dadurch können Videoeditorinnen und Videoeditoren fremdsprachige Interviews ohne Verdolmetschung bearbeiten. Ein weiterer Anwendungsfall sind automatisch erzeugte Beschreibungen des Inhalts von Sendungen über das aktuelle Geschehen, die für Menschen mit Sehbehinderung verfügbar gemacht werden. In einem regelmäßigen Projektbericht auf CORDIS wird erklärt: „Der Schlüssel zur Innovation ist eine gemeinsame Darstellung von Stammdaten für die Kreativwirtschaft während des Produktionsprozesses, sodass der aktuelle dokumentenorientierte Redaktionsprozess durch einen strukturierteren Ansatz ersetzt werden kann.“ Weitere Informationen: MeMAD-Projektwebsite
Schlüsselbegriffe
MeMAD, audiovisuell, audiovisueller Inhalt, Videobearbeitung, maschinelle Übersetzung