Ouvrir le patrimoine culturel écrit de l’Europe aux peuples du monde entier
Le projet READ avait pour ambition de mettre en place un environnement de recherche virtuel dans lequel les archivistes, les chercheurs en sciences humaines, les informaticiens et les bénévoles pourraient travailler ensemble. Cet objectif collectif concernait l’application de technologies innovantes pour la reconnaissance, la transcription et l’indexation automatisées de textes, dans le but de révolutionner l’accès aux documents historiques. «Nous voulions pouvoir explorer et accéder à des centaines de kilomètres de documents d’archives, grâce à la reconnaissance de textes manuscrits et, ce faisant, mettre au jour l’un des derniers trésors cachés du riche patrimoine culturel européen», explique Günter Mühlberger, coordinateur du projet et responsable du Centre de recherche sur les humanités numériques de l’Université d’Innsbruck et membre du consortium Time Machine. Le projet a rassemblé plusieurs groupes de recherche et a permis des progrès scientifiques remarquables dans des domaines tels que la reconnaissance de texte manuscrit, l’analyse de la mise en page et la recherche de mots-clés. Selon M. Mühlberger: «Parallèlement à ces avancées, nous avons mis en place la première plateforme de reconnaissance de texte manuscrit, baptisée Transkribus, sur laquelle les utilisateurs n’ayant pas un profil particulièrement technique peuvent former leurs propres réseaux à reconnaître des types de textes spécifiques. Plus de 27 000 utilisateurs sont actuellement enregistrés sur la plateforme, et des centaines d’entre eux l’utilisent quotidiennement.» M. Mühlberger se réjouit de voir à quel point la plateforme est bien accueillie par des personnes travaillant dans des domaines aussi divers que le traitement du langage naturel et l’histoire médiévale, et déclare à ce sujet: «Transkribus représente le plus grand ensemble de données d’apprentissage au monde en ce qui concerne les écrits manuscrits historiques. Fort de ce succès retentissant, nous avons créé l’une des premières sociétés coopératives européennes dans le domaine de la recherche et du patrimoine culturel.»
S’appuyer sur les travaux précédents
READ s’est basé sur plusieurs projets antérieurs, en particulier IMPACT (IMProving ACcess to Text) et tranScriptorium, qui ont donné lieu à des recherches fondamentales. «L’un des principaux facteurs ayant contribué à notre succès est lié au programme d’e-infrastructure pour les environnements de recherche virtuels, qui nous a donné la possibilité de créer un service à part entière», ajoute M. Mühlberger. Toutefois, même si les projets précédents ont donné à l’équipe une longueur d’avance, il y avait encore des défis à relever, comme toujours! L’un de ces défis était ce que M. Mühlberger appelle «le problème de l’analyse de la mise en page». Lorsqu’il s’agit de reconnaissance de texte manuscrit, la première étape du pipeline de traitement consiste à faire en sorte que l’ordinateur sache où se trouve réellement le texte sur une page. On peut penser qu’il s’agit d’une tâche aisée, mais c’était le défi le plus difficile au début du projet. «Elle a été résolue en combinant les forces de plusieurs domaines. En tout premier lieu, un nouveau concept concernant la façon de représenter une ligne a été introduit. En second lieu, il s’agissait de mettre en place l’ensemble de données de loin le plus important jamais créé à ce jour, grâce à l’intégration de documents provenant de plusieurs archives. Enfin, des collègues de l’Université de Rostock ont appliqué des méthodes d’apprentissage automatique», explique M. Mühlberger. Leur approche à plusieurs volets a porté ses fruits. Le résultat s’est traduit par une augmentation du taux de précision dans la recherche de lignes sur une page manuscrite, qui est passé d’environ 85 % à environ 97 %. La plateforme prend de l’ampleur. M. Mühlberger fait remarquer: «Les Archives nationales des Pays-Bas et les Archives nationales de Finlande ont lancé des projets dans le cadre desquels des millions de documents manuscrits sont mis à la disposition de millions d’utilisateurs, par le biais de la reconnaissance de texte manuscrit et de la recherche de mots-clés. Ces projets sont parmi les premiers à être mis en œuvre avec Transkribus et sont gérés par la société coopérative européenne Transkribus.»
Mots‑clés
READ, documents d’archives, recherche en texte intégral, transcription, numérisation, reconnaissance de texte manuscrit