Unterstützung bei der Verarbeitung natürlicher Sprache
Falls Sie Online-Dienste nutzen oder ein Unternehmen besitzen, das Customer Intelligence voraussetzt, haben Sie wahrscheinlich bereits von den Wundern der Technik im Bereich der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) profitiert. Chatbots, Sentimentanalyse, Werbung oder selbst Kreditwürdigkeitsprüfungen sind nur ein paar der zahlreichen Wege, um die Technologie zu nutzen. Doch es gibt einen Haken: Obgleich alles funktioniert, wenn eine Sprache wie das Englische verwendet wird, hat die NLP-Technologie mit morphologisch reichhaltigen Sprachen zu kämpfen.
Es tut uns leid, aber tusaatsiarunnanngittualuujunga
„Man nehme einen Satz wie ,Ich verstehe Sie nicht besonders gut‘. In den meisten Fällen sind Morpheme – die kleinsten bedeutungstragenden Einheiten – bloß Wörter, die durch eine Betrachtung der Leerzeichen erkannt werden können. Doch wenn man eine morphologisch reichhaltige Sprache wie Inuktitut (eine Inuit-Sprache) betrachtet, wird alles viel komplizierter. Hier würde der gleiche Satz mit einem einzigen Wort, ,tusaatsiarunnanngittualuujunga‘, ausgedrückt“, sagt Bollmann, postdoktoraler Forscher und Marie-Skłodowska-Curie-Stipendiat an der Universität Kopenhagen. Zur Anpassung sind in die meisten NLP-Modelle jetzt Techniken wie Byte-Pair Encoding (BPE) integriert. Die Eingabe wird noch weiter untergliedert, um häufige Zeichenfolgen zu ermitteln. „Tusaa“ zum Beispiel kommt sehr häufig vor und wird als eine einzige Einheit repräsentiert. Doch das reicht noch nicht aus, um ein angemessenes NLP-Modell für Inuktitut zu erreichen. Laut Bollmann ist die Technik zum Scheitern verurteilt, da keine linguistisch bedeutungstragenden Einheiten erkannt werden. „In der NLP-Community herrscht in weiten Kreisen die Ansicht vor, dass wir lediglich die BPE-Technik brauchen, dass mit genügend Daten alles besser wird und wir letztlich die betreffende Struktur erschließen können. Ich widerspreche dem tendenziell: Meiner Meinung nach müssen wir jede linguistische Struktur expliziter modellieren“, erklärt Bollmann. Bei MorphIRe verwendet Bollmann Deep Learning in Kombination mit neuralen Netzwerkarchitekturen, um die Repräsentationen zu ermitteln, welche den Morphemen zugrunde liegen, ehe diese für eine Vielzahl von NLP-Aufgaben auf hochmoderne Modelle übertragen werden. Seine Arbeit wird nicht vor März 2021 abgeschlossen sein, doch die Forschung hat bereits wissenschaftliche Beweise dafür geliefert, dass Fehler in aktuellen NLP-Algorithmen auf die Morphologie zurückgeführt werden können.
Anstehende Herausforderungen
„Mein Ziel ist jetzt, die morphologische Struktur in einer Weise zu ermitteln, die möglichst sprachunabhängig ist“, merkt Bollmann an. „Dies ist aus einer Vielzahl von Gründen eine Herausforderung, unter anderem aufgrund des Mangels an guten, kommentierten Ressourcen für diese Aufgabe. Einfach gesagt, falls ich ein System schaffe, das eine morphologische Struktur erkennt, hätte ich Schwierigkeiten damit, zu bewerten, wie gut es tatsächlich ist, weil es wenige Daten für vergleichende Analysen gibt.“ Eine weitere zentrale Herausforderung für das Projekt besteht darin, weitere Forschende von der tatsächlichen Nützlichkeit dieses Ansatzes zu überzeugen. Für die Machbarkeit müsste ein morphologisch fundierter NLP-Ansatz unter Verwendung von Eingaberepräsentation, die tage- oder wochenlang an kostspieliger Hardware eingepflegt werden, mit aktuellen Verfahren auf dem neuesten Stand der Technik Schritt halten. Bollmann erklärt dazu: „Es braucht eine Menge Zeit und Ressourcen, um mit diesen Modellen Schritt zu halten. Ich führe derzeit mehrere Pilotversuche durch, um ein paar Sprachen auszuwählen, die hoffentlich zeigen werden, wie mein vorgeschlagener Ansatz den Stand der Technik verbessern kann.“ Im Erfolgsfall sieht Bollmann zahlreiche Anwendungsmöglichkeiten, die von der maschinellen Übersetzung bis zu Suchmaschinen reichen. Doch bevor er solche Optionen in Erwägung ziehen kann, ist noch ein weiter Weg zu gehen.
Schlüsselbegriffe
MorphIRe, Sprache, Verarbeitung natürlicher Sprache, NLP, morphologisch reichhaltige Sprachen, Morphem, Byte-Pair Encoding, BPE