Grandes logros de proyectos - Una visión del futuro
El concepto que subyace al desarrollo de un buscador audiovisual es, en principio, muy simple. Se trata de resolver una debilidad fundamental que han sufrido los ordenadores hasta hoy: mientras que los ordenadores son muy eficaces a la hora de localizar palabras en un texto, la búsqueda de objetos en imágenes y vídeos ya es harina de otro costal. Para comprender el porqué, pensemos en cuánta interpretación queda codificada directamente en la escritura: al hablar por teléfono, creamos una señal física. Pero en el momento en que esta información se escribe, esa señal física queda codificada en una serie de símbolos digitales, las letras, colocadas una detrás de la otra. Los ordenadores son muy eficientes a la hora de manipular estos símbolos, porque realmente no necesitan interpretarlos, sino que basta con encontrar patrones en ellos. Sin embargo, las condiciones son bien distintas en el caso del vídeo. Imaginemos, por ejemplo, diez clips de vídeo distintos que muestran gatos. Buscar dentro de una descripción textual de su contenido sería muy fácil, porque (en español) utilizaríamos la palabra «gato» para describir cada uno de ellos. Pero en cada uno de ellos son muy distintos la forma, el tamaño y el color del grupo de píxeles que muestra el gato. Resulta muy difícil para un ordenador identificar que estos conjuntos tan distintos de píxeles representan, todos ellos, el mismo tipo de objeto: un gato. Para abordar este problema, el proyecto de «Búsqueda semántica e interactiva de vídeos con un gran tesauro de conceptos audiovisuales aprendidos por el sistema» (Vidivideo), financiado por la Unión Europea, ha desarrollado un sistema de búsqueda semántica interactiva de vídeos con un gran tesauro de conceptos audiovisuales aprendidos por el sistema. Vidivideo es un proyecto de investigación y, como tal, no tiene el objetivo de resolver el problema por completo ni los recursos necesarios para hacerlo. En realidad su finalidad era proporcionar las piezas necesarias para permitir a los ordenadores identificar un objeto en formato de vídeo con rapidez, coherencia y precisión. «Llevamos mucho tiempo trabajando en el análisis de vídeos», admitió Marcel Worring, profesor asociado de la Universidad de Ámsterdam y uno de los coordinadores del proyecto Vidivideo. «Pero nos encontramos con muchas carencias. Un vídeo se analiza en tres niveles distintos: primero se divide el vídeo en tomas, después se trata de describir lo que hay en el vídeo y, finalmente, viene el entrenamiento del sistema. Consideramos que la segmentación por tomas se podía mejorar y nos propusimos trabajar con los expertos más destacados del mundo en el entrenamiento de sistemas. También deseábamos añadir otro elemento que faltaba: la voz y el audio.» Ésta era pues la motivación del proyecto Vidivideo. Hoy en día exista una cantidad enorme de material videográfico. Por ejemplo, cada minuto se cargan más de 24 horas de vídeo en YouTube. Para seguir el ritmo y dar sentido a todos esos contenidos, hay que desarrollar sistemas que funcionen muy deprisa. «La velocidad y la escalabilidad suponen retos de gran envergadura», aseguró el profesor Worring. «Las herramientas de las que disponemos ahora son mucho más precisas, pero todavía se requiere mucho tiempo de computación. Hay que entrenar a nuestros sistemas utilizando vídeos de muestra cuyo contenido ha sido etiquetado previamente por usuarios expertos, y esta tarea requiere mucho tiempo.» Parte de la solución estriba en permitir que el sistema realice su trabajo en paralelo con muchos ordenadores. Pero el equipo de Vidivideo también se percató de que utilizar un sistema con arquitectura modular también sería muy ventajoso, ya que se puede comenzar con una pequeña cantidad de inteligencia y añadir más a medida que esté disponible. Pero, ¿cómo funciona el proyecto Vidivideo, que está financiado por el Sexto Programa Marco de la Unión Europea para la investigación de las TIC? Imaginemos un grupo de personas que miran un vídeo de un proceso complicado, como el montaje de una impresora japonesa. Las dos primeras personas reconocen que en la escena aparece una impresora. Llega una tercera persona e identifica dónde se encuentra el cartucho, mientras que la cuarta persona (capaz de leer japonés) reconoce la marca del cartucho, etc. En cada punto se puede decir algo más acerca de la impresora, lo cual hace que la imagen sea más precisa. Vidivideo funciona exactamente del mismo modo. Se han desarrollado hasta 1 000 módulos especializados que observan un vídeo simultáneamente. Cuando uno de ellos reconoce algo para lo cual ha sido entrenado para reconocer, lo señala. Individualmente, estos módulos no son inteligentes de forma general, pero al colaborar facilitan una imagen progresivamente más completa. Otra ventaja de Vidivideo es que su arquitectura es muy flexible, lo cual permite a los investigadores añadir módulos a voluntad a la inteligencia colectiva del sistema. Al inicio del proyecto, en el año 2007, eran alrededor de cien, mientras que al terminar el proyecto, a principios de 2010, eran más de mil. Vidivideo también contiene módulos de audio entrenados para reconocer un gran número de sonidos distintos, desde pájaros y disparos hasta lluvia y truenos. El buscador se ha puesto a prueba con usuarios finales en los campos de la radiodifusión, vigilancia y conservación. La calidad del buscador se ha comprobado con las tres referencias más importantes a nivel internacional en este campo: Trecvid, «Pascal VOC» e Imageclef. En las tres referencias el buscador Vidivideo ha recibido la máxima calificación en anotación automática de imagen/vídeo, mientras que TrecVid también lo ha considerado el mejor sistema de búsqueda interactiva. Algunos de los socios implicados en el proyecto pasaron a colaborar en I-Dash, un proyecto orientado al logro de una Internet más segura y que concretamente pretende ayudar en la lucha contra la pornografía infantil. Se trata de un delito organizado grave: a menudo una misma fuente produce miles de vídeos. La tecnología de Vidivideo ayuda a establecer conexiones entre vídeos. Por ejemplo, un mismo detalle visual, como una planta o un mueble, puede aparecer en más de un vídeo. Por consiguiente, esta herramienta ayuda a la policía a agrupar los vídeos que creen que han sido filmados en una misma habitación, contribuyendo así, potencialmente, a localizar a los delincuentes. La vigilancia es otra área que presenta un enorme potencial de aplicación. Hasta la fecha se ha dado importancia a la detección de objetos físicos en vídeos, pero Vidivideo también se puede utilizar para reconocer formas de comportamiento. Por ejemplo, alguien entra en un lugar con una maleta y sale sin ella. Este cambio se puede detectar. Estas posibilidades podrían ser interesantes como aplicación de uso policial para luchar contra el terrorismo. Si se tiene en cuenta que en el Reino Unido hay más de 4 millones de cámaras de circuito cerrado de televisión, está claro que una tecnología que proporcionase por lo menos un primer nivel de interpretación resultaría útil. En muchos centros urbanos existe la amenaza de la violencia, sobre todo durante la noche. Vidivideo se podría entrenar para identificar ciertos precursores de la violencia, como voces subidas de tono o movimientos agresivos, antes de que se produzcan problemas. Otra oportunidad que ofrece esta tecnología, probablemente más trivial pero igualmente útil, es el archivo eficiente de material audiovisual. Los realizadores de documentales que buscan ejemplos específicos de vídeos podrían dar con lo que están buscando con mayor rapidez y exactitud. Lo mismo se puede decir de las plataformas de uso público como YouTube. ¿Y si la búsqueda del término «gato» no se basase en las etiquetas asignadas a los vídeos sino en el verdadero contenido visual de los mismos? Los experimentos en redes sociales ya han puesto de manifiesto el enorme potencial de esta tecnología. Vidivideo permite vislumbrar un futuro en el que no sólo se podrá sacar provecho a nuestro mundo audiovisual digital, sino también eliminar una parte importante de las barreras y limitaciones que impone el lenguaje.