Benchmarking von Big Linked Data in der Industrie auf dem Vormarsch
Haben Sie schon mal etwas von Linked Data gehört? Wenn nicht, haben Sie wahrscheinlich etwas verpasst oder es wäre sowieso nur noch eine Frage der Zeit gewesen. So wie Big Data eine Weiterentwicklung des Data Mining ist, so ist Linked Data eine Weiterentwicklung des Semantic Web, das wiederum ein Eckpfeiler des Web 3.0 ist – also des Internets, in dem sämtliche Informationen so kategorisiert werden, dass Computer und Menschen sie auf dem selben Niveau verstehen können. Kurz gesagt heißt Linked Data, dass das Internet genutzt wird, um zusammenhängende Daten miteinander zu verbinden, die bisher nicht verknüpft waren. In der Industrie wird Linked Data bereits verwendet, aber es in Big Data zu integrieren ist bisher an den Kosten und Schwierigkeiten gescheitert, die die Verwendung von Big Data in einer Wertschöpfungskette verursacht. „Big Linked Data“ steht vor einigen Hindernissen, weil Leistungsparameter kaum standardisiert angewendet werden – was die Entscheidung erschwert, wann welches Tool zum Einsatz kommen soll – und weil einige Dimensionen von Big Data (Geschwindigkeit, Datenvolumen, Bandbreite der Datentypen, Richtigkeit, Mehrwert) in bestehenden Tools kaum berücksichtigt werden. „Es ist zum Beispiel vom Umfang her noch immer ein Problem, Milliarden von RDF-Tripeln (dreiteilige Einheiten, die mit einer Struktur von Subjekt-Prädikat-Objekt eine Aussage über semantische Informationen kodifizieren, z. B. ‚Max Mustermann mag CORDIS‘ – Anmerkung des Autors) zu verwalten“, erklärt Prof. Dr. Axel Ngonga von der Universität Paderborn und dem Institut für Angewandte Informatik in Leipzig. „Zudem machen die unterschiedliche Semantik der Datenströme und die mangelnde Skalierbarkeit der bestehenden Lösungen die Verarbeitung semantischer Datenströme im Maßstab zu einer ziemlich großen Herausforderung (Problem der Geschwindigkeit). Zu guter Letzt lassen sich auch die aktuellen Lernansätze für strukturierte Daten nicht auf große Wissensdatenbanken skalieren, wodurch nur schwer neue Erkenntnisse gewonnen werden können (Mehrwert).“ Um genau diese Probleme anzugehen, leitete Prof. Dr. Ngonga das neunköpfige Konsortium des Projekts HOBBIT (Holistic Benchmarking of Big Linked Data). Das Team konzentrierte sich auf die Industrie 4.0 geo-räumliches Datenmanagement, Smart Citys und IT-Management und führte dazu vor und während des Projekts Umfragen mit über 100 Probanden durch, um die Hauptbereiche für eine Vergleichsanalyse (sog. Benchmarking) von Linked Data herauszuarbeiten. „Unseren Umfragen zufolge entsprechen die Vergleichskategorien, die wir erstellt haben, einigen der wichtigsten Interessengebiete von europäischen Unternehmen und Forschern“, erklärt er. HOBBIT hat insgesamt fünf Vergleichskategorien erstellt, mit denen aktuelle Software bewertet werden kann: Wissensentdeckung, Speicherung, Versionsvielfalt, Verknüpfung sowie maschinelles Lernen und Question Answering. Beim Thema Speicherung fanden sie heraus, dass einige der Lösungen, die die beste Leistung brachten, eigentlich nur so gut abschnitten, weil ihre ausgegebenen Ergebnisse teilweise unvollständig waren. Das allein zeigt schon, dass die Vergleichsanalysen von HOBBIT bisher vernachlässigte Aspekte abdecken und dass es beim gesamten Thema Linked Data einen Bedarf an Benchmarking gibt. Weiterhin stellten sie fest, dass es noch an leicht verteilbaren Lösungen für Wissensentdeckung mangelt; dass die Erstellung verschiedener Versionen bisher kaum unterstützt wird und dafür ein Standard nötig wäre; dass offene Plattformen zur Fragenbeantwortung bei freien Anfragen noch immer schlecht arbeiten und dass spezielle Algorithmen des maschinellen Lernens für Linked Data sich schlecht skalieren lassen. Vor diesem Hintergrund bietet HOBBIT das erste Benchmarking für Linked Data, das frei zugänglich, skalierbar und FAIR (englisches Akronym für auffindbare, ausführbare, interoperable und abrufbare Ergebnisse) ist: „Die HOBBIT Plattform ist der erste allgemeine, skalierbare Benchmark für Big Linked Data. Zu ihren innovativsten Eigenschaften gehören: verteiltes Benchmarking für verteilte Systeme; Portierbarkeit für lokales Benchmarking und Benchmarking in verteilten Umgebungen; einfache Installation sowohl lokal als auch bei Amazon Web Services; die Wiederverwendung von Standards für maximale Interoperabilität und Flexibilität sowie klar definierte Schnittstellen für eine einfache Anpassung an andere Datentypen und Anwendungsfälle“, so Dr. Ngonga. Die Industrie hat die Plattform gut angenommen: etwa 40 Klone werden jeden Monat generiert und einige Industriepartner wollen die Benchmarking-Dienste intern anwenden, um die Qualität ihrer Tools zu steigern. Das Projekt HOBBIT endet erst im November, da momentan eine zweite Vergleichsrunde läuft. Danach führt die unter dem Dach des Projekts gegründete Vereinigung die Forschung weiter und dient als Knotenpunkt des Benchmarkings in Europa, unterstützt die Weiterentwicklung der HOBBIT-Plattform und ähnlicher Frameworks für Benchmarking und bietet europäischen Interessenten Benchmarkingdienste an.
Schlüsselbegriffe
HOBBIT, Big Data, Linked Data, Semantic Web, Web 3.0, Benchmarking