Udostępnianie pisemnego dziedzictwa kulturowego Europy osobom z całego świata
Celem projektu READ była realizacja wirtualnego środowiska badawczego, w ramach którego archiwiści, specjaliści zajmujący się naukami humanistycznymi, informatycy oraz wolontariusze mogli nawiązać ze sobą współpracę. Zespołowi przyświecał główny cel w postaci zastosowania innowacyjnych technologii, umożliwiających automatyczne rozpoznawanie, transkrypcję oraz indeksowanie tekstu, aby w ten sposób zrewolucjonizować kwestię dostępu do dokumentów historycznych. „Chcieliśmy mieć możliwość zapoznawania się z setkami kilometrów dokumentów archiwalnych i uzyskiwania dostępu do ich treści dzięki rozpoznawaniu tekstu, aby dać światu szansę na poznanie tego ukrytego skarbu bogatego dziedzictwa kulturowego Europy”, wyjaśnia koordynator projektu Günter Mühlberger, dyrektor Ośrodka Cyfrowych Badań nad Naukami Humanistycznymi Uniwersytetu w Innsbrucku i członek konsorcjum Time Machine. Projekt pozwolił na współpracę kilku grup badawczych, którym udało się osiągnąć kilka przełomowych odkryć naukowych w dziedzinach, takich jak rozpoznawanie tekstu zapisanego odręcznie, analiza układu graficznego i rozpoznawanie słów kluczowych. Jak twierdzi Mühlberger: „Poza tymi osiągnięciami, zbudowaliśmy pierwszą platformę rozpoznawania zapisanego odręcznie tekstu nazywaną Transkribus, dzięki której użytkownicy mogą trenować własne sieci neuronowe w celu rozpoznawania konkretnych krojów pisma. Obecnie na platformie zarejestrowanych jest przeszło 27 000 użytkowników, a setki osób korzystają z niej każdego dnia”. Mühlberger jest zachwycony faktem, że platforma stanowi nieocenioną pomoc dla osób zajmujących się różnymi dziedzinami nauki, w tym przetwarzaniem języka naturalnego czy średniowieczną historią. „Platforma Transkribus stanowi największy na świecie zbiór danych szkoleniowych historycznych pism spisanych odręcznie. Na podstawie tego ogromnego sukcesu utworzyliśmy jedną z pierwszych spółdzielni europejskich zajmujących się badaniami naukowymi oraz dziedzictwem kulturowym”.
Wykorzystywanie dotychczasowych prac
Projekt READ opierał się na kilku projektach realizowanych w przeszłości, między innymi Improving Access to Text oraz tranScriptorium, w ramach których zostały przeprowadzone podstawowe badania. „Jednym z najważniejszych czynników, który pozwolił nam na osiągnięcie sukcesu, było jednak to, że program e-infrastruktury dla wirtualnych środowisk badawczych umożliwił nam opracowanie w pełni rozwiniętej usługi”, dodaje Mühlberger. Niezależnie od fundamentów, na których mógł oprzeć się zespół dzięki poprzednim projektom, uczestnicy tego działania nadal musieli stawić czoła szeregowi wyzwań, a jednym z nich było zagadnienie określane przez Mühlbergera mianem „problemu analizy układu graficznego”. W przypadku rozpoznawania pisma odręcznego, pierwszym krokiem w procesie przetwarzania jest ustalenie przez komputer, w których miejscach na stronie znajduje się tekst. To z pozoru łatwe zadanie okazało się największym wyzwaniem w początkowych fazach realizacji projektu. „Udało nam się znaleźć rozwiązanie tego problemu dzięki współpracy naukowców z wielu dziedzin nauki. Przede wszystkim musieliśmy wprowadzić nową koncepcję przedstawiania wierszy. W następnej kolejności zgromadziliśmy materiały z wielu archiwów w celu stworzenia największego zbioru danych w historii. Dzięki temu nasi współpracownicy z Uniwersytetu w Rostocku mogli zastosować na naszym zbiorze algorytmy uczenia maszynowego”, wyjaśnia Mühlberger. Zastosowane wielokierunkowe podejście przyniosło zamierzone skutki. Dzięki niemu dokładność wyszukiwania wierszy na stronie zapisanej pismem odręcznym wzrosła z 85 % do około 97 %. Platforma nieustannie staje się coraz bardziej popularna. Jak twierdzi Mühlberger: „Archiwa Narodowe w Holandii i Finlandii zapoczątkowały projekty, w ramach których udostępniają miliony zapisanych odręcznie dokumentów milionom użytkowników, dzięki wykorzystaniu technologii rozpoznawania pisma odręcznego oraz wyszukiwania słów kluczowych. Projekty te są jednymi z pierwszych działań realizowanych z pomocą platformy Transkribus oraz zarządzanych przez europejską spółdzielnię Transkribus”.
Słowa kluczowe
READ, dokumenty archiwalne, wyszukiwanie pełnotekstowe, Transkribus, cyfryzacja, rozpoznawanie pisma odręcznego