Równość a przetwarzanie języka naturalnego
Jeśli korzystasz z usług internetowych lub prowadzisz firmę i musisz analizować dane o klientach, prawdopodobnie sięgasz już po możliwości technologii przetwarzania języka naturalnego (NLP). Czatboty, analiza sentymentu, reklama, a nawet ocena zdolności kredytowej stanowią tylko część z wielu zastosowań, w których ta technologia doskonale się sprawdza. Jest jednak pewien haczyk: o ile wszystko działa sprawnie, gdy chodzi o język angielski, o tyle w kontakcie z językami o bogatej morfologii technologia NLP przestaje sobie radzić.
Przepraszam, ale tusaatsiarunnanngittualuujunga
„Weźmy na przykład takie zdanie: »Źle cię słyszę«. Morfemy – czyli najmniejsze jednostki znaczeniowe – mają w nim formę wyłącznie słów, które są oddzielone od siebie spacjami. Sprawa komplikuje się jednak w wypadku języków o bogatej morfologii, takich jak inuktitut (język inuicki). W tym języku to samo zdanie można wyrazić jednym słowem »tusaatsiarunnanngittualuujunga«”, mówi Bollmann, który jest pracownikiem naukowym z tytułem doktora i stypendystą działania „Maria Skłodowska-Curie” z Uniwersytetu w Kopenhadze. Do radzenia sobie z podobnymi zdaniami większość modeli NLP korzysta teraz z takich technik, jak kodowanie digramami (ang. byte-pair encoding, BPE). Treść źródłowa jest dzielona na jeszcze mniejsze części, by zidentyfikować powtarzające się ciągi znaków. „Tussa” na przykład jest bardzo częstym ciągiem i będzie stanowić osobną jednostkę. To jednak wciąż za mało, by otrzymać poprawny model NLP dla języka inuktitut. Zdaniem Bollmanna ta technika jest skazana na porażkę, ponieważ nie oddziela pojedynczych jednostek w sposób, który miałby znaczenie językowe. „Wielu specjalistów w dziedzinie NLP uważa, że BPE jest odpowiedzią na wszystkie problemy i wraz z pozyskiwaniem nowych danych będzie działać sprawniej, aż w końcu nauczy się rozpoznawać konkretną strukturę. Nie zgadzam się z tym. Moim zdaniem potrzebujemy bardziej jednoznacznych modeli każdej struktury językowej” wyjaśnia Bollmann. W ramach projektu MorphIRe (Morphologically-informed representations for natural language processing) Bollmann wykorzystuje uczenie głębokie i architektury sieci neuronowych do poznawania zawartych w morfemach reprezentacji, które można następnie wykorzystać w najnowocześniejszych modelach do różnych zadań z obszaru NLP. Prace potrwają co najmniej do marca 2021 roku, ale już teraz wykazały, że błędy w obecnych algorytmach NLP są często powiązane z morfologią.
Nadchodzące wyzwania
„Moim celem jest teraz znalezienie struktury morfologicznej, która będzie w przeważającym stopniu niezależna od języka”, dodaje Bollmann. „Jest to trudne z kilku powodów. Jednym z nich jest brak dobrych, opatrzonych komentarzem zasobów do tego zadania. W dużym skrócie chodzi o to, że jeśli zbuduję system identyfikujący strukturę morfologiczną, wciąż będzie mi trudno ocenić jego jakość, ponieważ mam do dyspozycji niewiele danych, które pozwalałyby na porównanie analiz”. Drugim poważnym wyzwaniem w ramach tego projektu jest przekonanie większej liczby naukowców do tego, że ta strategia jest rzeczywiście przydatna. By być opłacalną, technika NLP bazująca na informacji morfologicznej musiałaby okazać się lepsza od najnowocześniejszych rozwiązań, które korzystają z reprezentacji wejściowych trenowanych za pomocą drogiego sprzętu przez dni, a nawet tygodnie. Jak zauważa Bollmann: „Konkurowanie z takimi modelami wymaga dużej ilości czasu i zasobów. Prowadzę obecnie kilka eksperymentów pilotażowych w celu wybrania kilku języków, które powinny pokazać, jak zaproponowane przeze mnie podejście może poprawić aktualny stan techniki”. Bollmann przewiduje, że jeśli strategia okaże się skuteczna, będzie mogła znaleźć wiele różnych zastosowań – od tłumaczenia maszynowego po wyszukiwarki. Czeka go jednak jeszcze daleka droga, nim zacznie poważnie myśleć o takich rozwiązaniach.
Słowa kluczowe
MorphIRe, język, przetwarzanie języka naturalnego, NLP, języki o bogatej morfologi, morfem, kodowanie digramami, BPE