Datenunsicherheit eindämmen
Verschiedene Softwareanwendungen müssen unter Anwendung von Daten mit einem hohen Grad an Unsicherheit Entscheidungen verwalten und treffen. Während bestimmte Instrumente durchaus die Lücken bis zu einem gewissen Grad auffüllen können, sind derartige Werkzeuge doch allgemein vereinfachend und begrenzt wirksam. Das EU-finanzierte Projekt "Heisendata - towards a next-generation uncertain-data management system" (HEISENDATA) wollte hier den Stand der Dinge verbessern. Das Team plante Entwurf und Aufbau neuer probabilistischer Datenbanksysteme (PDBS), durch die statistische Modelle und probabilistische Schlussfolgerungen zusätzlich zu konventionellen Datenbankstrukturen unterstützt werden. Das Projekt soll die Herausforderungen meistern, die mit der Förderung eines solchen neuen Zusammenschlusses verbunden sind, wozu auch die Neugestaltung der wichtigsten Systemkomponenten gehört. HEISENDATA lief vier Jahre lang bis Februar 2014. Die Projektarbeit umfasste drei Hauptzweige: neue probabilistische Datensynopsen zur Abfrageoptimierung, neue PDBS-Algorithmen und -Architekturen sowie skalierbare Algorithmen und Instrumente. Die Datensynopsen umfassten die Definition und Erzeugung von Algorithmen für den Aufbau von Histogrammen. Für verschiedene Fehlermetriken konstruierten die neuen Algorithmen optimale oder nahezu optimale Histogramme und Wavelet-Synopsen. In der weiteren Arbeit führte man probabilistische Histogramme ein, welche eine genauere Darstellung der Unschärfeeigenschaften der Daten gestatteten. Darüber hinaus widmete sich das Team Problemen im Zusammenhang mit unstrukturiertem Text, der Einheiten aus strukturierten Informationen enthält. Die Lösungen mündeten in der Erweiterung eines maßgeblichen Informationsextraktionsmodells (IE), indem man zwei Abfrageansätze entwickelte. Effizienz und Wirksamkeit der Ansätze wurden unter Einsatz realer Datensätze verglichen. Resultat war ein Satz von Regeln zur Auswahl geeigneter Inferenzalgorithmen unter verschiedenen Bedingungen, wodurch sich eine bis zu zehnfache Geschwindigkeitserhöhung ergab. Das Projekt entwickelte außerdem ein Rahmenwerk zur Skalierung beliebiger generischer Einheitsauflösungsalgorithmen und demonstrierte dessen Funktionsfähigkeit. Weitere Arbeiten trugen dazu bei, die IE-Pipeline mittels probabilistischer Abfrageverarbeitung zu integrieren. HEISENDATA fand neue statistische Methoden zur Verarbeitung von Daten mit hohen Unsicherheiten und integrierte diese Verfahren in konventionelle Datenbankstrukturen. Die Arbeit setzte sich mit einem Thema auseinander, das für akademische und kommerzielle Sektoren von Interesse ist.
Schlüsselbegriffe
Datenunsicherheit, Datensysteme, Datenmanagement, probabilistische Datenbanksysteme