Przykłady udanych projektów – Wizualizacja przyszłości
Koncepcja stojąca za opracowaniem wyszukiwarki audiowizualnej jest z pozoru dosyć prosta. Dotyczy zasadniczej jak dotychczas słabości komputerów, które będąc ekspertami w wyszukiwaniu słów w tekście nadal borykają się z wynajdywaniem obiektów w obrazach i filmach wideo. Aby zrozumieć dlaczego tak jest, należy zastanowić się nad tym, jak wiele interpretacji niesie w sobie bezpośrednio pismo. Kiedy rozmawiamy przez telefon tworzymy fizyczny sygnał. Kiedy informacje te zostają zapisanie, fizyczny sygnał jest kodowany w postaci symboli cyfrowych, liter stawianych jedna za drugą. Komputery są niezwykle sprawne w manipulowaniu tymi symbolami, ponieważ nie muszą tak naprawdę ich interpretować, tylko wynajdywać pośród nich odpowiednie schematy. Niemniej nie sprawdza się to w przypadku filmu wideo. Wyobraźmy sobie na przykład 10 różnych urywków filmów wideo na temat kotów. Opis tekstowy zawartości będzie bardzo łatwy do wyszukania, ponieważ (w języku polskim) użylibyśmy słowa „kot” do opisania każdego z nich. Ale w każdym z urywków zestaw pikseli przedstawiający kota będzie całkowicie odmienny pod względem kształtu, rozmiaru i koloru. Komputerowi niezwykle trudno stwierdzić, że te zasadniczo rozbieżne zestawy pikseli przedstawiają ten sam rodzaj obiektu – kota. Aby rozwiązać ten problem opracowano w ramach dofinansowanego ze środków unijnych projektu Vidivideo (Interaktywne wyszukiwanie semantyczne filmów wideo za pomocą dużego słownika maszynowo wyuczonych konceptów audiowizualnych) interaktywną wyszukiwarkę semantyczną filmów wideo z dużym słownikiem maszynowo wyuczonych konceptów audiowizualnych. Projekt badawczy Vidivideo jako taki nie ma na celu pełnego rozwiązania problemu, ani nie ma na to wystarczających środków. Dąży raczej do stworzenia podstaw zdolności komputera do szybkiej, spójnej i precyzyjnej identyfikacji obiektu zapisanego w formacie wideo. „Pracujemy nad analizą wideo od dłuższego czasu” - mówi Marcel Worring, adiunkt na Uniwersytecie Amsterdamskim i jeden z koordynatorów projektu Vidivideo. „I odkryliśmy, że czegoś brakuje. Analiza wideo składa się trzech poziomów: podział filmu wideo na ujęcia, próba opisu treści filmu wideo i wreszcie maszynowe uczenie się. Wydało nam się, że segmentację na ujęcia można przeprowadzać lepiej i chcieliśmy podjąć pracę z wiodącymi ekspertami na świecie z dziedziny maszynowego uczenia się. Chcieliśmy również dodać kolejny element, którego brakowało: mowę i dźwięk.” To był bodziec do stworzenia projektu Vidivideo. Ilość istniejących filmów wideo jest z pewnością ogromna. Na przykład na portalu YouTube w każdej minucie zapisywane są ponad 24 godziny filmów wideo. Aby być na bieżąco i wiedzieć, czego dotyczy ich treść potrzebujemy systemów, które są w stanie bardzo szybko pracować. „Głównym wyzwaniem jest prędkość i skalowalność” – mówi prof. Worring. „Narzędzia, którymi teraz dysponujemy są precyzyjniejsze, ale obliczenia nadal zabierają czas. Musimy wytrenować nasze systemy na przykładach filmów wideo, których treść została oznakowana przez profesjonalnych użytkowników, a to czasochłonne zadanie.” Częściowym rozwiązaniem jest umożliwienie systemowi wykonywania swojego zadania równolegle z wieloma komputerami. Ale zespół Vidivideo zdał sobie sprawę, że wykorzystanie systemu z architekturą modułową również byłoby niezwykle istotne. Należy zacząć od niewielkiej ilości informacji i dodawać coraz więcej w miarę ich przypływu. A jak działa Vidivideo, dofinansowane z Szóstego Programu Ramowego UE na badania TIK? Wyobraźmy sobie grupę osób oglądającą film przedstawiający skomplikowaną procedurę, jak np. montaż japońskiej drukarki. Dwie pierwsze osoby rozpoznają, że widać drukarkę. Trzecia osoba dołącza się i rozpoznaje, gdzie znajduje się wkład, natomiast czwarta (która potrafi czytać po japońsku) rozpoznaje markę wkładu i tak dalej. Na każdym etapie pojawia się coraz więcej do powiedzenia na temat drukarki, dzięki czemu obraz staje się dokładniejszy. Vidivideo funkcjonuje dokładnie w ten sam sposób. Opracowano 1000 specjalistycznych modułów, które jednocześnie przyglądają się filmowi. Kiedy jeden z nich rozpozna to, w czego rozpoznawaniu został przeszkolony, stawia swój znacznik. Samodzielnie poszczególne moduły nie są w zasadzie zbyt inteligentne, ale pracując wspólnie, dają coraz pełniejszy obraz. Kolejną zaletą Vidivideo jest wysoka elastyczność architektury, umożliwiająca naukowcom i badaczom dodawanie dowolnych modułów do wspólnej bazy wiedzy systemu. Na początku realizacji projektu w 2007 r. było ich około stu – pod koniec, na początku 2010 r., ich liczba przekroczyła 1000. Vidivideo zawiera również moduły audio, które zostały przeszkolone do rozpoznawania dużej liczby rozmaitych dźwięków, począwszy od ptaków, poprzez wystrzały, po deszcz i grzmoty. Wyszukiwarka została zatwierdzona przez użytkowników końcowych z branży radiowo-telewizyjnej, monitoringu i dziedzictwa kulturowego. Dowiodła swojej jakości w trzech głównych, międzynarodowych testach porównawczych w branży, a mianowicie Trecvid, Pascal VOC oraz Imageclef. We wszystkich trzech testach porównawczych wyszukiwarka Vidivideo otrzymała najwyższe noty pod względem automatycznego komentarza obrazu/filmu wideo, podczas gdy w teście Trecvid uzyskała pierwsze miejsce w wyszukiwaniu interaktywnym. Niektórzy partnerzy zaangażowani w zakończony projekt kontynuują prace w ramach projektu na rzecz bezpieczniejszego Internetu, I-Dash, który ma pomóc w walce z pornografią dziecięcą. To poważna, zorganizowana przestępczość, bowiem tysiące filmów jest często produkowanych przez to samo źródło. Technologia Vidivideo pomaga w ustaleniu powiązań między filmami. Na przykład ten sam szczegół wizualny, roślina czy mebel, może pojawić się w więcej niż jednym materiale. Narzędzie umożliwia zatem policjantom zebranie w grupę filmów wideo, co do których istnieje podejrzenie, że zostały zrealizowane w tym samym pomieszczeniu, potencjalnie pomagając w lokalizacji przestępców. Monitoring jest kolejnym obszarem o ogromnym potencjale. Do tej pory kładziono nacisk na wykrywanie obiektów fizycznych na filmie wideo, natomiast Vidivideo można również wykorzystywać do rozpoznawania zachowań. Na przykład ktoś wchodzi do sceny z walizką a wychodzi bez niej. Taka zmiana może zostać wychwycona. Takie możliwości mogą okazać się interesujące dla policji w kontekście walki z terroryzmem. Wobec faktu, że w Wlk. Brytanii jest ponad 4 miliony kamer telewizji przemysłowej staje się oczywiste, że technologia zapewniająca przynajmniej pierwszy poziom interpretacji byłaby przydatna. W wielu miastach istnieje zagrożenie przemocą, zwłaszcza późno w nocy. Vidivideo można wyszkolić do rozpoznawania pewnych zwiastunów przemocy, takich jak podniesione głosy czy agresywne ruchy zanim dojdzie do starcia. Inną, być może bardziej przyziemną, ale niemniej znaczącą możliwością, jaką daje ta technologia jest skuteczne archiwizowanie materiałów audiowizualnych. Dokumentaliści poszukujący konkretnych przykładów scen będą w stanie szybciej skoncentrować się dokładnie na tym, czego szukają – to samo dotyczy publicznych platform takich jak YouTube. Co by było, gdyby odpowiedź na zapytanie „kot” udzielana była nie na podstawie znaczników lub opisu filmów, lecz na ich rzeczywistej treści? Eksperymenty z portalami społecznościowymi już pokazały, że ta technologia ma ogromne możliwości. Vidivideo obiecuje przyszłość, która nie tylko wykorzystuje nasz cyfrowy, audiowizualny dorobek, ale również taką, w której bariery i ograniczenia językowe zostają w znacznej mierze usunięte.