Aus massiven, unvollständig kommentierten und strukturierten Daten lernen

Ob aus DNA-Datenbanken, sozialen Netzwerken im Internet oder Solarparks - man verwendet Big Data, um Systeme mit künstlicher Intelligenz darin zu trainieren, reale Probleme zu lösen. Unüberschaubare Datenbestände oder schnelle Datenströme erzeugen Informationen jedoch nicht immer in einer Form, mit der auch lernfähige Maschinen zurechtkommen. Die vom MAESTRA-Projekt entwickelte intelligente Software zielt auf die Lösung dieses Problems ab.

Digitale Wirtschaft

Künstliche Intelligenz ist zur Zeit ein heißes Thema, das im Zusammenhang mit herausragenden Spiel-, Spracherkennungs- und Gesundheitsüberwachungsleistungen regelmäßig in die Schlagzeilen kommt. Der Aufbau von Lernsystemen ist jedoch nicht ganz so einfach, wie es manche Medienberichte darstellen: Die Technologie zum maschinelles Lernen als das Herzstück künstlicher Intelligenz hat bei sehr vielen Anwendungen mit rechnerisch schwierigen Aufgaben zu kämpfen. Hauptgrund dafür ist, dass die Daten, mit denen derartige Systeme arbeiten, aus vielen grundverschiedenen Quellen stammen, etwa aus Videos, DNA, medizinischen Bildern, von Sensoren oder aus sozialen Netzwerken, und daher nicht immer in die gut strukturierten Formate eingepasst werden können, die ML-Systeme (Maschinenlernen) erfordern, wenn sie ausreichend trainiert werden sollen, damit beim Eintreffen neuer Rohdaten sinnvolle und genaue Vorhersagen getroffen werden können. Um zum Beispiel Vorhersagemodelle zu trainieren, müssen die Softwareingenieure im Zusammenhang mit den vorherzusagenden Werten oft unaufbereitete (oder nur zum Teil aufbereitete) Daten, massive, unhandliche Datenbestände oder schwer zu bewältigende, zu hohe Streaminggeschwindigkeiten, oder Daten auch handhaben, die von Sensoren in einem umfassenden, räumlich verteilten Netzwerk gleichzeitig erzeugt werden. Zusätzlich zu dieser Komplexität können die Daten zuweilen eine Kombination aus einigen oder allen dieser Eigenschaften aufweisen, was ein wirkungsvolles Data-Mining extrem erschwert. Es ist an der Zeit, den Daten einen Sinn zu geben „Die gleichzeitige Anwesenheit mehrerer dieser Datenkomplexitäten ist eine schwierige, gegenwärtig unüberwindbare Anforderung. Und sie schränkt die Anwendbarkeit von Ansätzen des maschinellen Lernens und Data-Minings stark ein“, sagt Sašo Džeroski vom Jozef-Stefan-Institut in Ljubljana, Slowenien. So haben Džeroski, Projektkoordinator des von der EU finanzierten MAESTRA-Projekts, sowie Kolleginnen und Kollegen in Kroatien, Italien, Mazedonien und Portugal daran gearbeitet, diese chaotische Situation bei der Datengewinnung in den Griff zu bekommen. Nach detaillierter Analyse der Probleme beim Sammeln komplexer Daten konzipierten sie baum- und regelbasierte Methoden des maschinellen Lernens und entwickelten intelligente Software, die gewaltige Datensätze oder Datenströme einschließlich unvollständig aufbereiteter Daten und Netzwerkdaten aufnehmen und deren Bedeutung herausfinden kann. Der Großteil ihrer entwickelten Methoden kann nun komplexen Vorhersagen dienen, etwa die Werte mehrerer Datenvariablen gleichzeitig prognostizieren. Und das nicht nur in der Theorie: Um das Funktionieren der Softwareverfahren zu beweisen, erprobte sie das MAESTRA-Team mit Erfolg anhand einer Anzahl von Vorzeigeproblemen aus verschiedenen Bereichen. Erfolg liegt in den Genen Die MAESTRA-Data-Mining-Verfahren wurden auf Genomdatensätze angewandt, die DNA-Sequenzen sowohl von einzelnen Organismen als auch von verschiedenen Gemeinschaften wie etwa der menschlichen Darmflora enthielten. Die komplexen genomischen Daten wurden von den ML-Systemen derart gründlich analysiert, dass es gelang, für tausende Bakterienarten Genfunktionen aus Daten vorherzusagen, die lediglich aus deren DNA-Sequenzen stammten. Man prognostizierte außerdem die Phänotypen von Mikroorganismen aus deren Genotypen und identifizierte Verbindungen, die bei der Behandlung von Tuberkulose und Salmonellen hilfreich sein könnten. Im Bereich der Solarenergie kamen die MAESTRA-Methoden zum Einsatz, um ML-Systemen Hilfestellung dabei zu geben, sowohl die Erzeugung als auch den Verbrauch von Energie aus verschiedenen Arten von Sensordaten in verschiedenen Kontexten vorherzusagen. Dabei ging es um die Erzeugung von Solarenergie in Photovoltaikanlagen und den Verbrauch von Sonnenenergie zum Aufheizen des Mars Express Orbiters. Zudem prognostizierte das Team von Džeroski sowohl Anlagenausfälle bei Zügen als auch die Nachfrage nach Taxis aus Verkehrsdatensätzen. Es verbesserte außerdem die Genauigkeit der Stimmungserkennung und Bildannotation in sozialen Netzwerken. Immer mehr Anwendungen Viele der im Rahmen von MAESTRA entwickelten Data-Mining-Allzweckverfahren sind bereits quelloffen. Džeroski geht dennoch davon aus, dass man mehrere von ihnen in kommerziellen KI-Projekten nutzbar machen wird, wobei die Einrichtungen sie für bestimmte Anwendungen anpassen und ihre eigenen Benutzeroberflächen hinzufügen werden. „Das wird den MAESTRA-Partnern die Entwicklung von Sekundärprodukten in Form von Instrumenten und Dienstleistungen ermöglichen, die für potenzielle Kunden einfacher zu bedienen sind“, so Džeroski. Pharmafirmen etwa, schlägt Džeroski vor, könnten kundenspezifische MAESTRA-Instrumente anwenden, um KI neue Anwendungen für ältere Medikamente, d. h. im Sinne der Umnutzung von Arzneimitteln, ermitteln zu lassen. In der weiteren, noch andauernden Forschung werden MAESTRA-Ideen gleichermaßen in Projekten genutzt, die Maschinenlernen bei der Untersuchung von Genfunktion und -gesundheit, Tumormutation, personalisierter Medizin, Gehirninformatik, nachhaltiger Nahrungsmittelerzeugung und Biodiversität zum Einsatz bringen.