Equità nell’elaborazione del linguaggio naturale
Se utilizzate soltanto servizi online o possedete un’azienda che necessita di customer intelligence, probabilmente avrete già beneficiato delle meraviglie della tecnologia dell’elaborazione del linguaggio naturale (NLP, Natural Language Processing). I chatbot, l’analisi dei sentimenti, la pubblicità o addirittura le valutazioni del credito di merito sono alcuni fra i molti modi di fare un buon uso della tecnologia. Ma c’è un problema: se tutto funziona bene quando si impiega una lingua come l’inglese, l’NLP comincia a presentare difficoltà non appena deve confrontarsi con lingue morfologicamente ricche.
Mi dispiace, ma tusaatsiarunnanngittualuujunga
«Si prenda una frase come “Non riesco a sentirti molto bene”. Prevalentemente, i morfemi (le più piccole unità dotate di significato) sono solo parole che possono essere identificate attraverso gli spazi bianchi. Tuttavia, tutto si fa molto più complicato se si prendono in considerazione lingue morfologicamente ricche, quali l’inuktitut (una lingua Inuit). In questo caso, la stessa frase verrebbe espressa in un’unica parola “tusaatsiarunnanngittualuujunga”», afferma Bollmann, ricercatore post-dottorato e borsista Marie Skłodowska-Curie presso l’Università di Copenaghen. Per adattarsimolti modelli di NLP devono ora integrare tecniche quali la codifica per coppie di byte. L’input viene suddiviso ulteriormente per identificare sequenze di caratteri frequenti. «Tusaa», ad esempio, è molto comune e viene rappresentato in una singola unità. Tuttavia, ciò non è sufficiente per realizzare un modello adeguato di NLP per l’inuktitut. Secondo Bollmann, la tecnica è destinata a fallire perché non identifica le unità in un modo significativo dal punto di vista linguistico. «Molte persone della comunità dell’NLP ritengono che la codifica per coppie di byte sia tutto ciò di cui abbiamo bisogno, che funzionerà meglio con dati sufficienti e che, alla fine, saremo in grado di comprendere la struttura pertinente. Sono tendenzialmente in disaccordo: secondo me, abbiamo bisogno di modellare ogni struttura linguistica in modo più esplicito», spiega Bollmann. Con MorphIRe (Morphologically-informed representations for natural language processing), Bollmann utilizza l’apprendimento profondo con architetture di reti neurali per scoprire di più sulle rappresentazioni alla base dei morfemi, prima di applicarle ai modelli d’avanguardia per una varietà di compiti di NLP. Il suo lavoro si concluderà solo a marzo 2021, ma la ricerca ha già fornito prove sul fatto che gli errori negli attuali algoritmi di NLP possono essere spesso attribuiti alla morfologia.
Le sfide future
«Il mio obiettivo consiste ora nell’identificare la struttura morfologica in un modo che sia per lo più indipendente dalla lingua», aggiunge Bollmann. «Si tratta di una sfida per molte ragioni, una delle quali è rappresentata dalla mancanza di risorse valide e annotate per questo compito. In parole semplici, se costruissi in sistema che identifichi la struttura morfologica, avrei difficoltà a valutarne la reale validità poiché non sono presenti molti dati con cui paragonare l’analisi». Un’altra sfida chiave per il progetto consiste nel convincere più ricercatori che si tratta di un approccio davvero utile. Per essere fattibile, un approccio all’NLP informato morfologicamente dovrebbe competere con le attuali tecniche d’avanguardia utilizzando le rappresentazioni di input formate su hardware costosi per giorni o addirittura settimane. Come notato da Bollmann: «Sono necessari molto tempo e molte risorse per competere con questi modelli. Attualmente sto conducendo esperimenti pilota per selezionare alcune lingue che, auspicabilmente, dimostreranno come l’approccio che ho proposto possa migliorate l’attuale stato dell’arte». Se dovesse avere successo, Bollmann prevede molte possibili applicazioni, dalla traduzione automatica ai motori di ricerca. Tuttavia, deve fare ancora molta strada prima che possa considerare queste opzioni.
Parole chiave
MorphIRe, linguaggio, elaborazione del linguaggio naturale, NLP, lingue morfologicamente ricche, morfema, codifica per coppie di byte