Puesta a punto de los métodos de investigación de periódicos históricos
A menudo consideramos que los libros de historia son los recuerdos más valiosos de las luchas y avances pasados de la sociedad. Sin embargo, en lo que a detalles se refiere, no hay nada que pueda superar a los millones de sucesos, artículos y nombres que se mencionan todos los días en los periódicos. Como tales, los periódicos son parte integral de nuestro patrimonio cultural y deben digitalizarse y almacenarse; lo cual explica por qué las bibliotecas de toda Europa han intensificado sus esfuerzos y seguirán haciéndolo durante los próximos años. Con todo, los métodos de digitalización actuales no están exentos de inconvenientes. Tal y como señala Antoine Doucet, profesor e investigador de la Universidad de La Rochelle: «Todavía queda mucho por hacer para que las colecciones estén verdaderamente a disposición de los ciudadanos de a pie y de los académicos de humanidades, de forma que estos puedan beneficiarse de las nuevas posibilidades que brindan los métodos digitales para sus estudios». Existen varios problemas, que Doucet se ha propuesto superar gracias a la financiación recibida en el marco del proyecto NewsEye (A Digital Investigator for Historical Newspapers): la baja calidad de los periódicos digitalizados, la falta de herramientas adecuadas para realizar búsquedas y análisis, y la cantidad vertiginosa de información disponible, que requiere nuevas formas de ayudar a los usuarios a encontrar lo que buscan. El primer problema está ligado al hecho de que la mayoría de colecciones de bibliotecas se digitalizaron hace décadas. La aplicación del reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) a este tipo de archivos suele acabar con un resultado de baja calidad, el cual plantea problemas, puesto que los usuarios de periódicos históricos necesitan unos resultados de reconocimiento de texto de alta calidad para buscar, encontrar y hojear contenidos pertinentes. NewsEye supera este problema mediante la combinación de tecnologías avanzadas para el reconocimiento de texto, el análisis de disposición, la separación de artículos y otras tareas relacionadas. Además, Doucet y su equipo desarrollaron herramientas semánticas que enriquecen el texto con datos como entidades (personas, empresas, países, etc.) o sucesos mencionados. Estos elementos pueden vincularse a fuentes de datos externas como Wikidata, ayudando así a proporcionar unos resultados de búsqueda más precisos que incluso traspasan las barreras lingüísticas.
Mejora del potencial de investigación
«El enriquecimiento semántico proporciona funciones de búsqueda potentes y hace posible análisis del contenido ulteriores. Los métodos empleados se basan en gran medida en métodos estadísticos y evitan depender de diccionarios externos o de análisis lingüísticos de alto nivel. Esto permite que nuestras herramientas puedan aplicarse a una gran variedad de idiomas», explica Doucet. De hecho, este es un gran avance. Los usuarios de periódicos históricos necesitan herramientas eficaces para indexar y buscar contenidos periodísticos de distintas formas a fin de descubrir temas, tendencias y pautas. Tales herramientas eran prácticamente inexistentes antes de NewsEye y las que existían no podían hacer frente a los resultados ruidosos y de baja calidad del OCR. Esto nos lleva al tercer problema: las herramientas de última generación de análisis textual no se adaptan a las necesidades de los usuarios de periódicos históricos. NewsEye colma esta laguna con herramientas de análisis textual dinámico. Estas sirven de apoyo para consultas interactivas destinadas a descubrir distintos puntos de vista, subtemas o tendencias relativas al tema seleccionado, la entidad mencionada, el periódico, el marco temporal, etc. Todos estos elementos proporcionan información sobre la colección de periódicos de formas contextualizadas y comparativas. Por último, los usuarios interesados en cuestiones históricas y que necesitan tratar miles de millones de elementos se beneficiarán del llamado «asistente de investigación personal» del proyecto. Doucet explica: «El asistente investigará de forma autónoma contenidos periodísticos por cuenta del usuario y comunicará los hallazgos que estime que puedan ser de interés. Además, presentará de forma transparente el fundamento lógico de la manera en que se llevó a cabo la evaluación, para que el usuario pueda entender y verificar los hallazgos». Todas las herramientas de NewsEye están disponibles en el sitio web del proyecto. Muchas de ellas van a ser plenamente aprovechadas y mantenidas, y Doucet tiene la intención de hacer que resulten finalmente útiles más allá de la investigación periodística. Ya se ha concedido financiación para este estudio en el contexto de futuros proyectos a escala regional, nacional y europea.
Palabras clave
NewsEye, historia, periódico histórico, investigación, OCR, análisis textual