Generalüberholung für Methoden der Recherche in historischen Zeitungsbeständen
Oft betrachten wir die Geschichtsbücher als die wertvollsten Erinnerungen an die vergangenen Kämpfe und Durchbrüche unserer Gesellschaft. Aber was die genauen Einzelheiten betrifft, so geht doch nichts über die Millionen Ereignisse, Geschichten und Namen, die täglich in den Zeitungen auftauchen. Deshalb sind Zeitungen ein wesentlicher Bestandteil unseres kulturellen Erbes. Sie müssen digitalisiert und gespeichert werden – was erklärt, warum europaweit die Bibliotheken ihre Anstrengungen verstärkt haben und dies auch in den kommenden Jahren tun werden. Doch die heutzutage üblichen Digitalisierungsmethoden haben auch ihre Nachteile. Antoine Doucet, Professor und Forscher an der Universität La Rochelle, beschreibt: „Viel bleibt noch zu tun, damit die Sammlungen wirklich allen Interessierten, egal ob privat oder aus den Geisteswissenschaften, so zur Verfügung stehen, dass sie bei ihren Nachforschungen von den neuen Möglichkeiten der digitalen Verfahren profitieren können.“ Es gibt mehrere Probleme, die Doucet mithilfe der Finanzmittel des Projekts NewsEye überwinden will. Dabei geht es um die geringe Qualität der digitalisierten Zeitungen, fehlende geeignete Such- und Analysewerkzeuge und die schwindelerregende Menge der verfügbaren Informationen. Es müssen neue Wege gefunden werden, um den Nutzenden dabei zu helfen, das Gesuchte zu finden. Das erste Problem hängt damit zusammen, dass die meisten Bibliothekssammlungen bereits vor Jahrzehnten digitalisiert wurden. Kam in Archiven dieser Art die optische Zeichenerkennung zum Einsatz, waren die Ergebnisse oft von geringer Qualität. Das bedeutet Probleme, da die anhand historischer Zeitungen Forschenden qualitativ hochwertige Texterkennungsergebnisse brauchen, um relevante Inhalte zu suchen, zu finden und zu durchstöbern. NewsEye löst dieses Problem, indem moderne Technologien der Texterkennung, Layoutanalyse, Artikeltrennung und weitere ähnliche Aufgaben kombiniert werden. Zudem haben Doucet und sein Team semantische Werkzeuge entwickelt, die den Text mit Daten wie beispielsweise benannten Dingen (u. a. Personen, Firmen, Länder) oder Ereignissen anreichern. Diese können dann mit externen Datenquellen wie etwa Wikidata verknüpft werden, wodurch genauere Suchergebnisse, die sogar Sprachbarrieren überwinden, erreichbar sind.
Noch größeres Forschungspotenzial
„Semantische Anreicherung sorgt für wirkungsvolle Suchmöglichkeiten und unterstützt die weitere Analyse der Inhalte. Die angewandten Methoden beruhen auf nachhaltigen statistischen Ansätzen, wobei Abhängigkeiten von externen Wörterbüchern oder ausführlichen linguistischen Analysen vermieden werden. Somit können unsere Werkzeuge bei vielen Sprachen angewendet werden“, bekräftigt Doucet. Und das ist in der Tat ein großer Schritt in die richtige Richtung. Bei der Nutzung historischer Zeitungen werden wirksame Werkzeuge benötigt, um Zeitungsinhalte zu indizieren und auf verschiedene Arten nach Themen, Trends und Mustern zu durchsuchen. Vor NewsEye gab es kaum derartige Werkzeuge, und jene, die es schon gab, kamen nicht mit den ungenauen, qualitativ schlechten Ergebnissen der optischen Zeichenerkennung zurecht. Was uns direkt zum dritten Problem bringt: Die modernen Textanalysewerkzeuge sind nicht an die Absichten angepasst, mit denen in historischen Zeitungen recherchiert wird. NewsEye füllt diese Lücke nun mit Werkzeugen zur dynamischen Textanalyse. Diese unterstützen interaktive Abfragen, um verschiedene Sichtweisen, Unterthemen oder Trends in Hinsicht auf u. a. das ausgewählte Thema, die benannten Dinge, die Zeitung, den Zeitabschnitt zu entdecken. So werden kontextualisierte und vergleichende Einblicke in die Zeitungssammlung möglich. Nicht zuletzt profitieren Nutzende, die sich für historische Fragen interessieren und Milliarden Artikel sichten müssen, von der sogenannten persönlichen Forschungsassistenz (Personal Research Assistant) des Projekts. Doucet erläutert dazu: „Die Assistenz wird im Auftrag der recherchierenden Person selbstständig Zeitungsinhalte untersuchen und über Fundstücke berichten, die sie als potenziell interessant einschätzt. Sie wird außerdem eine transparent dargestellte Begründung liefern, wie diese Einschätzung zustande gekommen ist, sodass die Ergebnisse im Lauf der Recherche verstanden und nachgeprüft werden können.“ Alle Werkzeuge von NewsEye stehen auf der Projektwebsite zur Verfügung. Viele von ihnen sind nun auf dem besten Weg, vollständig und nachhaltig genutzt werden zu können. Auf lange Sicht plant Doucet außerdem, ihren Einsatzbereich über die Zeitungsrecherche hinaus zu erweitern. Für die weitere Erforschung dieses Themas wurden im Rahmen weiterer Projekte auf regionaler, nationaler und europäischer Ebene bereits Finanzmittel bewilligt.
Schlüsselbegriffe
NewsEye, Geschichte, Geschichtswissenschaft, historische Zeitung, Forschung, Texterkennung, optische Zeichenerkennung, OCR, Textanalyse