Un reto formidable de computación completado
El proyecto DILIGENT («Banco de pruebas de una infraestructura para bibliotecas digitales basadas en tecnología de grid»), financiado con fondos comunitarios, ha hecho posible la disponibilidad para todo el mundo, con fines de investigación, de una de las colecciones de metadatos multimedia más grandes del mundo, tras superar todo un reto de extracción de datos sobre rasgos de imágenes. Durante este reto informático, y en el transcurso de 16 semanas, se procesaron 37 millones de imágenes de Flickr, una base de datos pública de fotos en línea, utilizando la grid de computación del EGEE (Enabling Grids for E-sciencE), un proyecto cofinanciado por la Comisión Europea que proporciona recursos de computación a instituciones académicas y la industria. Habiéndose alcanzado una capacidad media de procesado de 300.000 imágenes al día, en el proceso se generaron casi cinco terabytes de datos: 112 millones de objetos de imagen y texto y más de 150 millones de rasgos extraídos. Para extraer los datos de Flickr, los investigadores combinaron una aplicación de Java con scripts de Perl y una aplicación C: la aplicación de Java ayudaba a contactar con la base de datos y descargar un grupo de usuarios de Flickr y las imágenes compartidas por dichos usuarios. A continuación, los scripts de Perl y la aplicación C extraían rasgos de las imágenes, creaban reproducciones en miniatura y almacenaban los resultados. Ahora los datos extraídos serán utilizados por el proyecto comunitario SAPIR, que pretende desarrollar arquitecturas de búsqueda en Web que permitan al usuario hacer búsquedas de contenidos audiovisuales a partir de ejemplos. Así, por ejemplo, una imagen tomada con un teléfono móvil permitiría encontrar información relativa al monumento fotografiado, o tararear una melodía podría servir para buscar la canción completa. El objetivo principal del proyecto DILIGENT, financiado por el Sexto Programa Marco, era crear un banco de pruebas avanzado que facilitara a los miembros de organizaciones virtuales de e-ciencia, de manera rentable, el intercambio de conocimientos y la colaboración. El coste total del proyecto ascendió a más de nueve millones de euros, dos tercios de los cuales fueron sufragados por la UE. Participaron 14 socios de Austria, Alemania, Grecia, Francia, Hungría, Italia, Noruega, Suiza y Reino Unido.