Refonte des méthodes de recherche sur les journaux historiques
Nous considérons souvent les livres d’histoire comme les souvenirs les plus précieux des luttes et des avancées passées de la société. Mais en ce qui concerne les détails, rien ne vaut les millions d’événements, d’histoires et de noms évoqués chaque jour dans les journaux. En tant que tels, les journaux font partie intégrante de notre patrimoine culturel. Ils doivent être numérisés et stockés, ce qui explique pourquoi les bibliothèques en Europe ont intensifié leurs efforts et continueront à le faire dans les années à venir. Mais les méthodes de numérisation actuelles ne sont pas exemptes d’inconvénients. Comme le souligne Antoine Doucet, professeur et chercheur à l’Université de La Rochelle: «Il reste encore beaucoup à faire pour que les collections soient réellement accessibles aux citoyens ordinaires et aux chercheurs en sciences humaines, afin qu’ils puissent tirer profit des nouvelles possibilités qu’offrent les méthodes numériques pour leurs recherches Plusieurs problèmes se posent, qu’Antoine Doucet s’est efforcé de surmonter grâce au financement du projet NewsEye (A Digital Investigator for Historical Newspapers): La mauvaise qualité des journaux numérisés, le manque d’outils de recherche et d’analyse adéquats et la quantité étourdissante d’informations disponibles qui exige de nouveaux moyens pour aider les utilisateurs à trouver ce qu’ils recherchent. Le premier problème est donc lié au fait que la plupart des volumes des bibliothèques ont été numérisés il y a plusieurs décennies. La reconnaissance optique de caractères (OCR) appliquée à ces archives donne souvent un résultat de piètre qualité. Cela pose problème, car les utilisateurs de journaux historiques ont besoin de résultats de reconnaissance de texte de haute qualité pour rechercher, trouver et parcourir des contenus pertinents. NewsEye surmonte ce problème en combinant des technologies avancées de reconnaissance de texte, d’analyse de la mise en page, de séparation des articles et d’autres tâches connexes. De plus, Daniel Doucet et son équipe ont développé des outils sémantiques qui enrichissent le texte avec des données telles que des entités nommées (personnes, sociétés, pays, etc.) ou des événements. Ces données peuvent ensuite être reliées à des sources de données externes comme Wikidata, ce qui permet d’obtenir des résultats de recherche plus précis qui vont même au-delà des barrières linguistiques.
Un potentiel de recherche amélioré
«L’enrichissement sémantique offre de puissantes capacités de recherche et permet une analyse plus approfondie du contenu. Les méthodes appliquées sont fortement basées sur des approches statistiques et ne dépendent pas de dictionnaires externes ou d’analyses linguistiques de haut niveau. Nos outils peuvent donc être appliqués à un large éventail de langues», explique Daniel Doucet. Cela constitue en effet un grand pas en avant. Les utilisateurs de journaux historiques ont besoin d’outils efficaces pour indexer et interroger de diverses manières le contenu des journaux afin de retrouver des sujets, des tendances et des modèles. De tels outils étaient pratiquement inexistants avant NewsEye, et ceux qui existaient ne permettaient pas de gérer les résultats grossiers et de mauvaise qualité de l’OCR. Ce qui nous amène au troisième problème: Les outils de pointe d’analyse de texte ne sont pas adaptés aux besoins des utilisateurs de journaux historiques. NewsEye comble cette lacune avec des outils d’analyse dynamique de texte. Ceux-ci permettent des requêtes interactives pour découvrir différents points de vue, sous-thèmes ou tendances concernant le sujet sélectionné, l’entité nommée, le journal, la période, etc. Tout cela permet d’avoir un aperçu de la collection de journaux de manière contextualisée et comparative. Enfin, les utilisateurs intéressés par des questions historiques et devant traiter des milliards d’articles pourront profiter de l’assistant personnel de recherche du projet. Daniel Doucet explique: «L’assistant enquêtera de manière autonome sur le contenu des journaux pour le compte de l’utilisateur et rendra compte des résultats qu’il jugera potentiellement intéressants. Il fournira également une justification transparente de la manière dont l’évaluation a été effectuée, de sorte que l’utilisateur puisse comprendre et vérifier les résultats». Tous les outils de NewsEye sont disponibles sur le site web du projet. Plusieurs d’entre eux sont en passe d’être pleinement exploités et maintenus, et Daniel Doucet entend à terme élargir leur utilisation au-delà de la recherche dans les journaux. Un financement a déjà été accordé pour une telle exploration, dans le contexte de projets ultérieurs au niveau régional, national et européen.
Mots‑clés
NewsEye, histoire, journal historique, recherche, OCR, analyse de texte