Uwspółcześnienie metod badań gazet historycznych
Książki historyczne postrzega się często jako nośniki najcenniejszej pamięci o społecznych konfliktach i przełomach z przeszłości. Jednak z perspektywy ilości detali, żadne medium nie dorównuje gazetom z milionem zamieszczanych tam każdego dnia relacji na temat wydarzeń, historii i postaci. Z tego punktu widzenia gazety są więc integralną częścią naszego dziedzictwa kulturowego. Istnieje duża potrzeba ich digitalizacji i archiwizacji, co tłumaczy, dlaczego biblioteki w całej Europie od wielu lat nieustannie dokładają starań, aby ten cel zrealizować. Jednak współczesne metody digitalizacji pozostawiają wiele do życzenia. Jak zaznacza Antoine Doucet, profesor i badacz na Uniwersytecie La Rochelle: „Przed nami jeszcze wiele pracy, aby zbiory stały się w pełni dostępne dla zwykłych obywateli i adeptów nauk humanistycznych, tak by osoby te mogły w swoich badaniach zrobić użytek z nowych możliwości, jakie oferują współczesne metody cyfrowe”. Wśród najbardziej pilnych wyzwań, które Doucet stara się już od jakiegoś czasu rozwiązać w ramach dofinansowanego projektu NewsEye (A Digital Investigator for Historical Newspapers), badacz wymienia: niską jakość zdigitalizowanych gazet, brak adekwatnych narzędzi do wyszukiwania i analizy, a także przyprawiająca o zawrót głowy ilość dostępnych informacji. Wszystko to razem wzięte pokazuje, jak bardzo potrzebne są nowe metody, które pozwolą użytkownikom znaleźć dokładnie to, czego szukają. Pierwszy z wymienionych przez badacza problemów wiąże się z faktem, że większość zbiorów bibliotecznych poddano cyfryzacji wiele lat temu. Wyniki analizy takich archiwów z użyciem techniki optycznego rozpoznawania znaków (OCR) charakteryzują się więc niską jakością. Tymczasem użytkownicy oczekują, że jakość tekstu, na którym bazują podczas wyszukiwania, znajdywania i przeglądania treści starych gazet będzie wysoka. NewsEye rozwiązuje ten problem dzięki połączeniu zaawansowanych technologii rozpoznawania tekstu, analizy układu graficznego, podziału na akapity i tym podobnych zadań. Ponadto Doucet wraz z zespołem opracował narzędzia semantyczne, które wzbogacają tekst danymi, np. nazwami własnymi (nazwiskami osób, nazwami firm czy państw itp.) lub wydarzeniami. Można je łączyć z zewnętrznymi źródłami danych, takimi jak Wikidata, dostarczając tym samym jeszcze bardziej trafne wyniki wyszukiwania, a przy okazji przełamywać bariery językowe.
Większe możliwości wyszukiwania
„Wzbogacanie semantyczne stwarza nieporównywalnie większe możliwości wyszukiwania i wspomaga dalszą analizę treści. Zastosowane metody w dużym stopniu opierają się na podejściach statystycznych i nie muszą polegać na zewnętrznych słownikach ani zaawansowanej analizie językowej. Wszystko to sprawia, że nasze narzędzia mają zastosowanie do szerokiego zakresu języków”, przekonuje Doucet. Jest to niewątpliwie duży krok naprzód. Użytkownicy historycznych gazet potrzebują skutecznych narzędzi do indeksowania i wyszukiwania w nich treści różnymi sposobami, by móc odkrywać tematy, trendy i schematy. Przed pojawieniem się NewsEye takie narzędzia w zasadzie nie istniały, zaś te, które były dostępne nie radziły sobie z wynikającą z zaszumienia niską jakością otrzymywanych metodą OCR tekstów. I tu natrafiamy na trzeci problem, a mianowicie fakt, że najnowocześniejsze narzędzia przeznaczone do analizy tekstu nie są dostosowane do potrzeb użytkowników historycznych gazet. NewsEye wypełnia tę lukę dzięki narzędziom do dynamicznej analizy tekstu (Dynamic Text Analysis). Wspomagają one interaktywne zapytania, dzięki czemu odkrywanie różnych punktów widzenia, podtematów lub trendów dotyczących wybranego tematu, danej nazwy własnej, danego tytułu czy ram czasowych staje się łatwiejsze. Wszystko to daje użytkownikowi szerszy wgląd w cały zbiór w sposób skontekstualizowany i komparatywny. Co nie mniej ważne, użytkownicy interesujący się zagadnieniami historycznymi, którzy dzisiaj muszą przedzierać się przez gąszcz danych, z zadowoleniem przyjmą pomoc, jaką oferuje im opracowany w ramach projektu tak zwany osobisty asystent (Personal Research Assistant). Doucet wyjaśnia: „Asystent autonomicznie bada treści zamieszczone w gazecie w imieniu użytkownika i donosi o wynikach, które ocenia jako potencjalnie interesujące. Ponadto przekazuje transparentne uzasadnienie oceny, co umożliwia użytkownikowi lepsze zrozumienie wyników i ich weryfikację”. Wszystkie narzędzia NewsEye są dostępne na stronie internetowej projektu. Wiele z nich jest na najlepszej drodze do pełnego wykorzystania, także w przyszłości, zaś zamiarem Doucet jest uczynienie ich użytecznymi nie tylko w zakresie badań treści gazet. Finansowanie przyznane twórcom projektu już umożliwiło im takie badania w kontekście kolejnych projektów realizowanych na poziomie regionalnym, krajowym i europejskim.
Słowa kluczowe
NewsEye, historia, gazeta historyczna, badanie, OCR, analiza tekstu