Projekt-Erfolgsstorys -Visualisierung der Zukunft
Die Idee hinter der Konzipierung einer audio-visuellen Suchmaschine ist auf den ersten Blick eher einfach. Das Konzept ist auf eine grundlegende Schwäche heutiger Computer ausgerichtet: Während sie im Finden von Wörtern in Texten geradezu Experten sind, ist das Suchen von Objekten in Bildern und Videos eine ganz andere Sache. Um zu verstehen, warum das so ist, muss man darüber nachdenken, wie viel Inhalt beim Schreiben direkt kodiert wird: Wenn wir am Telefon sprechen, erzeugen wir ein physikalisches Signal. Aber ab dem Zeitpunkt, zu dem diese Informationen aufgezeichnet werden, ist dieses physikalische Signal zu einer Reihe digitaler Symbole, also Buchstaben, kodiert, die hintereinander angeordnet sind. Computer sind sehr effizient darin, diese Symbole zu manipulieren, da sie sie nicht wirklich interpretieren müssen, sondern nur Muster in ihnen zu finden haben. Aber das gilt nicht für Videos. Man stelle sich zum Beispiel zehn verschiedene Videoausschnitte zum Thema Katzen vor. Eine Beschreibung des Inhalts in Textform wäre sehr einfach zu suchen, da wir dazu immer das Wort "Katze" (auf Deutsch) benutzen würden. Allerdings wird bei jedem der Ausschnitte die Menge der Pixel, die die Katze zeigen, in Bezug auf Form, Größe und Farbe sehr unterschiedlich sein. Und genau das ist für einen Computer sehr schwierig zu erkennen: dass diese sehr unterschiedlichen Pixelgruppen alle die gleiche Art von Objekt - eine Katze - zeigen. Um dieses Problem in den Griff zu bekommen, hat das EU-finanzierte Projekt "Interactive semantic video search with a large thesaurus of machine-learned audio-visual concepts" (Vidivideo) eine interaktive semantische Videosuche mit einem großen Thesaurus maschinell gelernter, audio- visueller Konzepte entwickelt. Bei Vidivideo handelt es sich um ein Forschungsprojekt. Als solches hat es nicht das Ziel oder die Mittel, dieses Problem in seiner Gesamtheit zu lösen. Vielmehr bemühte man sich darum, die Bausteine zur Verfügung zu stellen, mit deren Hilfe ein Computer ein Objekt im Videoformat schnell, konsistent und genau identifizieren kann. "Wir arbeiten schon lange an der Videoanalyse", berichtet Marcel Worring, mitwirkender Professor von der Universität Amsterdam und einer der Vidivideo-Projektkoordinatoren. "Aber wir mussten feststellen, dass bestimmte Dinge einfach fehlen. Es gibt drei Stufen der Videoanalyse: Zerlegen des Videos in Einstellungen, Versuch der Beschreibung, was in dem Video zu sehen ist, und schließlich das maschinelle Lernen. Wir kamen an einen Punkt, an dem wir merkten, dass die Einstellungssegmentierung noch besser gemacht werden könnte, und wollten mit den führenden Experten aus der Welt des maschinellen Lernens zusammenarbeiten. Und wir wollten auch noch ein anderes fehlendes Element hinzufügen: Sprache und Ton. Hier hatte die treibende Kraft hinter dem Vidivideo-Projekt ihren Ursprung. Es gibt mit Sicherheit eine Riesenmenge an Videos dort draußen. So werden zum Beispiel jede Minute mehr als 24 Stunden Video auf YouTube hochgeladen. Um da mithalten zu können und etwas über all diese Inhalte herauszufinden, müssen wir unbedingt Systeme entwickeln, die sehr schnell arbeiten. "Geschwindigkeit und Skalierbarkeit sind eine große Herausforderung", gibt Professor Worring zu bedenken. "Die Werkzeuge, die wir jetzt haben, sind schon viel genauer, brauchen aber noch viel Rechenzeit. Wir müssen unsere Systeme mit Beispielvideos trainieren, für die erfahrene Benutzer den Inhalt beschrieben haben - und dies ist eine recht zeitaufwendige Aufgabe." Teil der Lösung ist es, das System seine Aufgabe parallel in vielen Computern ausführen zu lassen. Das Vidivideo-Team erkannte allerdings, dass auch die Nutzung eines Systems mit modularer Architektur sehr wichtig wäre: man beginnt mit etwas Intelligenz, und fügt mehr hinzu, sobald diese verfügbar ist. Aber wie genau funktioniert nun Vidivideo, das Finanzmittel des Sechsten EU-Rahmenprogramms für IKT-Forschung erhielt? Angenommen, man hätte eine Gruppe von Leuten, die gerade ein Video über eine komplizierte Prozedur wie etwa die Montage eines japanischen Druckers anschauen. Die ersten beiden Leute erkennen, dass in der Szene ein Drucker vorkommt. Eine dritte Person kommt herein und erkennt, wo die Patrone ist, während die vierte Person (die Japanisch lesen kann) die Montage der Patrone erfasst und so weiter. An jedem Punkt gibt es etwas mehr über den Drucker zu sagen - etwas, dass das Bild noch genauer macht. Ganz genau so funktioniert Vidivideo auch. 1000 spezielle Module sind entwickelt worden, die gleichzeitig nach einem Video suchen. Wenn eines von ihnen etwas erkennt, worauf es trainiert wurde, wird ein Flag gesetzt. Diese Module sind an sich überhaupt nicht intelligent, aber im Zusammenwirken bilden sie ein immer vollständigeres Bild. Ein weiterer Vorteil von Vidivideo ist seine höchst flexible Architektur, die es Wissenschaftlern und Forschern gestattet, ganz nach Belieben Module zur kollektiven Intelligenz des Systems hinzuzufügen. Zu Projektbeginn im Jahr 2007 gab es etwa hundert Module; Anfang 2010 zum Projektabschluss waren es schon über 1000. Vidivideo enthält außerdem Audiomodule, die darauf trainiert wurden, eine große Anzahl unterschiedlicher Geräusche von Vogelgezwitscher bis hin zu Schusswechseln wie auch Regen und Donner zu erkennen. Die Suchmaschine ist mit Endnutzern aus den Bereichen Rundfunk, Überwachung und Kulturerbes validiert worden. Sie konnte ihre Qualität gemäß den drei großen internationalen Vergleichsgrößen dieses Bereichs, und zwar Trecvid, "Pascal VOC" und Imageclef, beweisen. Die Vidivideo-Suchmaschine erhielt bei allen drei Vergleichsgrößen den obersten Rang im automatischen Bild/Video-Kommentar, während sie bei Trecvid außerdem den ersten Platz in der interaktiven Suche belegte. Einige der an dem Projekt beteiligten Partner arbeiten weiter an dem "Safer Internet"-Projekt I-Dash, um den Kampf gegen die Kinderpornographie zu unterstützen. Hier handelt es sich um schwere organisierte Kriminalität: Oft werden Tausende Videos von der gleichen Quelle produziert. Die Vidivideo-Technologie kann die Herstellung von Verbindungen zwischen den Videos unterstützen. Beispielsweise kann das gleiche visuelle Detail, etwa eine Pflanze oder ein Möbelstück in mehr als einem Video auftauchen. Dieses Tool ermöglicht es daher den Polizeibeamten Videos zusammenzufassen, von denen sie annehmen, dass sie im gleichen Raum gefilmt wurden. Möglicherweise kann so der Aufenthaltsort der Verbrecher identifiziert werden. Die Überwachung ist ein weiterer Bereich mit riesigem Potenzial. Bisher wurde eher die Erkennung von physischen Objekten in Videos betont, aber Vidivideo kann durchaus auch zum Einsatz kommen, um Verhaltensformen auszumachen. Da betritt zum Beispiel jemand einen Schauplatz mit einem Koffer und verlässt ihn aber ohne diesen wieder. Genau diese Veränderung kann herausgefiltert werden. Derartige Anwendungen bieten der Polizei interessante Chancen zur Bekämpfung des Terrorismus. Derartige Anwendungen bieten der Polizei interessante Chancen zur Bekämpfung des Terrorismus Wenn man bedenkt, dass es im Vereinigten Königreich mehr als 4 Millionen Überwachungskameras gibt, dann ist es sonnenklar, dass eine Technologie, die zumindest eine erste Stufe der Interpretation leistet, wahrlich nützlich wäre. In vielen Innenstädten gibt es - vor allem spätnachts - ein Gewaltproblem. Vidivideo könnte darauf trainiert werden, bestimmte Vorstufen von Gewalt wie etwa erhobene Stimmen oder aggressive Bewegungen zu identifizieren, bevor der Ärger überhaupt erst richtig losgeht. Eine andere, vielleicht eher banale, aber durchaus ebenso wichtige Möglichkeit, die sich durch diese Technologie eröffnet, steckt in einer effektiven audio-visuellen Archivierung. Dokumentarfilmmacher auf der Suche nach speziellen Videobeispielen könnten schneller auf genau das zugreifen, was sie suchen. Das gleiche gilt für öffentliche Plattformen wie zum Beispiel YouTube. Schöne neue Welt: Man stelle sich vor, die Suchanfrage nach "Katze" beruhte nicht darauf, wie Videos beschrieben sind, sondern auf den tatsächlichen visuellen Inhalten selbst! Experimente auf sozialen Websites haben bereits gezeigt, dass hinter dieser Technologie ein enormes Potenzial verborgen ist. Vidivideo verspricht eine Zukunft, die nicht nur aus unserer digitalen audio-visuellen Welt Nutzen zieht, sondern gleichfalls eine, in der die Barrieren und Grenzen der Sprache erheblich reduziert sein werden.