Neue Plattform für die Datenanalyse mindert Datenschutzsorgen in Bezug auf das Dateneigentum
Datenschutzverletzungen haben dazu geführt, dass die Verbraucherinnen und Verbraucher immer vorsichtiger mit ihren personenbezogenen Daten auf Cloud-Servern umgehen. Angesichts der mittlerweile in Kraft getretenen Datenschutz-Grundverordnung (DSGVO) möchte Projekt PAPAYA ein ausgewogenes Gleichgewicht zwischen dem Datenschutz und wertvollen Datenanalysen schaffen. Die Technologie des Projekts wird im Rahmen von fünf realen Anwendungsfällen getestet, die von der Detektion von Herzrhythmusstörungen bis zur Analyse der Mobiltelefonnutzung reichen. Melek Önen, außerordentliche Professorin am Fachbereich für digitale Sicherheit der EURECOM und Koordinatorin von PAPAYA, spricht über die Ambitionen und bisherigen Erfolge des Projekts.
Welche Datenschutzlücken möchten Sie mit diesem Projekt schließen?
Melek Önen: Das PAPAYA-Projekt soll Datenschutzsorgen adressieren, wenn die Datenanalyse an leistungsstarke Cloud-Server ausgelagert wird, denen allerdings nicht vertraut wird. Die Datenanalyse kann Interessengruppen dabei helfen, erhobene Daten zu nutzen, um relevante Informationen abzuleiten und bessere Entscheidungen zu treffen. Eine Gesundheitsbehörde kann die Datenanalyse bspw. zur Prognose oder Detektion von Pandemiegefahren verwenden. Die Datenanalyse kann auch Marketingunternehmen oder kommerziellen Betrieben bei der Entscheidungsfindung helfen. Doch es gibt ein zentrales Problem. Ungeachtet ihres Werts für die Organisationen, welche die Daten erheben, enthalten die Datensätze auch hochsensible Informationen zu den Personen, von denen die Daten erhoben werden. Die Vertraulichkeit der Daten und der Datenschutz der betroffenen Personen stehen wirklich auf dem Spiel. Durch Anwendung eines Ansatzes mit eingebautem Datenschutz möchte unser Projekt eine Plattform mit Modulen zur Wahrung des Datenschutzes ausarbeiten und entwickeln, welche die Privatsphäre von Nutzenden auf Ende-zu-Ende-Basis schützen, ohne Datenanalysefunktionalitäten einzubüßen.
Wie erklären Sie sich den Mangel an bisherigen Maßnahmen, um dieses Gleichgewicht herzustellen?
Die Gesellschaft ist mit immer mehr Datenschutzverletzungen konfrontiert, die schweren Schaden verursachen. Viele Menschen haben das Zutrauen in die Datensicherungslösungen von Organisationen verloren und sind zunehmend um die Sicherheit ihrer persönlichen Informationen besorgt. Die europäische Datenschutz-Grundverordnung (DSGVO) kann diesen Trend umkehren, was jedoch auch bedeutet, dass Unternehmen jetzt nach sicheren Verfahren für den Umgang mit Daten suchen. Der Bedarf für Datenanalysen, die den Datenschutz wahren sowie Unternehmen den Umgang mit geschützten Daten ermöglichen, den Datenschutz der Kundschaft gewährleisten und die Aussagekraft und den Nutzen besagter Daten erhalten, war nie größer. Die üblichen Datenschutzverfahren (Standardverschlüsselungsverfahren wie AES) sind für diesen neuen Kontext leider ungeeignet, da sie Dritt-Server daran hindern, mit den verschlüsselten Daten zu arbeiten. Dateneigentümer müssten stattdessen zunächst die verschlüsselten Daten herunterladen, diese entschlüsseln und mit Klartextdaten arbeiten. Dies ist nicht möglich, wenn Dateneigentümer nicht über die Rechenressourcen zur Durchführung solcher Operationen mit derart hohem Datenvolumen verfügen oder wenn der Algorithmus, der ausgeführt werden soll, Eigentum eines Dritt-Servers ist. Eine Lösung wäre es, dem Dritt-Server den Schlüssel für die Entschlüsselung der Daten bereitzustellen, doch dann könnte die Vertraulichkeit nicht mehr gewährleistet werden.
Wie hilft Ihr Ansatz dabei, all diese Probleme zu überwinden?
PAPAYA entwickelt Technologien zur Verbesserung des Datenschutzes, die eine geschützte Datenanalyse ermöglichen. Diese Analysen reichen von einfachen statistischen Operationen zu ausgefeilteren maschinellen Lernverfahren wie bspw. neurale Netze. Sie bieten Interessengruppen, deren Daten verarbeitet werden, einen wesentlichen Schutz, während die Daten von Dateninhabern/Datenverantwortlichen genutzt werden können. Unsere Lösung enthält den eingebauten Datenschutz („privacy by design“), der gemäß DSGVO erforderlich ist. Abgesehen davon entwickelt das Projekt für Organisationen, die Analysen unter Wahrung des Datenschutzes verwenden, spezifische Tools, um die rechtliche Konformität mit der DSGVO und dazugehörigen Rechtsvorschriften zum Schutz der Privatsphäre und des Datenschutzes zu vereinfachen. Im Fokus des Tools stehen die Rechte der Personen, deren personenbezogene Daten verarbeitet werden – diese werden in der DSGVO als „betroffene Personen“ bezeichnet.
Wie genau funktioniert Ihre Plattform?
Der PAPAYA-Framework dreht sich um zwei Hauptgruppen von Komponenten. Zunächst die plattformseitigen Komponenten, die auf dem nicht vertrauenswürdigen Cloud-Server ausgeführt werden. Dann die clientseitigen Komponenten, die in einer Client-Umgebung (wie bspw. einem Smartphone) ausgeführt werden, der vertraut wird. Die Plattform gruppiert die Analysemodule zur Wahrung des Datenschutzes für die folgenden Operationen um: Klassifikation des neuralen Netzes, kollaborative Unterweisung des neuralen Netzes, Trajektorien-Clusterbildung und grundlegende Statistik. Auf hoher Ebene senden Plattform-Clients – Interessengruppen – ihre Anfragen zur Durchführung der gewünschten Analyse unter Wahrung des Datenschutzes und erhalten das entsprechende Ergebnis, ohne dass datenschutzsensible Informationen an Dritte weitergegeben werden. Der Framework umfasst zudem eine Toolbox für betroffene Personen. Diese bietet vielseitige Tools für den eingebauten Datenschutz durch Plattform-Clients in Bezug auf betroffene Personen, deren personenbezogene Daten im Auftrag verarbeitet werden. Betroffene Personen können bspw. mehr Informationen zu dem zugrundeliegenden Datenanalysedienst unter Wahrung des Datenschutzes oder zur Weitergabe ihrer Daten erfahren.
Könnten Sie ein paar konkrete Beispiele für Anwendungsfälle nennen?
PAPAYA definiert fünf Anwendungsfälle, die jeweils verschiedene Umgebungen anvisieren. Ein Anwendungsfall, der auf Gesundheitsanwendungen abzielt (unter der Leitung von MediaClinics Italia, einem italienischen KMU), beinhaltet die Detektion von Herzrhythmusstörungen unter Wahrung des Datenschutzes. Bei diesem Anwendungsfall werden sensible Gesundheitsdaten in Form von Elektrokardiogrammen (EKG) von Patientinnen und Patienten erhoben. Die PAPAYA-Plattform detektiert Herzrhythmusstörungen unter Verwendung neuraler Netze, ohne Zugriff auf diese EKG zu haben. Ein anderer Anwendungsfall, der auf Telekommunikationsbetreiber abzielt (unter der Leitung des französischen Telekommunikationsunternehmens Orange), hilft Interessengruppen dabei, Mobilitätsmuster unter Verwendung von Trajektorien-Clusterbildungsalgorithmen zu extrahieren, ohne dass irgendwelche individuellen Trajektorien identifiziert werden.
Was sind Ihrer Meinung nach die bislang größten Errungenschaften des Projekts?
Über das Projekt wurden aus einer Gruppe von vier Analysen – neurale Netze (Klassifikation, kollaborative Unterweisung), Trajektorien-Clusterbildung, Erfassung und grundlegende Statistik – Varianten zur Wahrung des Datenschutzes entwickelt. Diese Module verwenden verschiedene fortschrittliche Kryptographie-Tools wie bspw. eine homomorphe Verschlüsselung, Differential Privacy oder eine funktionale Verschlüsselung. Darüber hinaus wurden mehrere Benutzerschnittstellen entwickelt, um die Transparenz für betroffene Personen und andere Interessengruppen zu erhöhen. Dies umfasst eine Erweiterung des Datenschutz-Folgenabschätzungs-Tools der CNIL, das PAPAYA-Interessengruppen dabei hilft, die Folgen einer Analyse unter Wahrung des Datenschutzes auf die Datenschutz- und Sicherheitsziele abzuschätzen. Das Tool ist auch weitaus transparenter für betroffene Personen. Unsere Benutzerschnittstellen erklären, wie die Analyse unter Wahrung des Datenschutzes von PAPAYA funktioniert und unser Datenschutzmaschine-Tool berücksichtigt die bevorzugten Datenschutzeinstellungen und Rechte betroffener Personen.
Was gibt es noch zu erreichen?
Das Projekt befindet sich jetzt in der Validierungsphase. Unser Ziel ist, Prototypen zur Demonstration der fünf Anwendungsfälle einzurichten und einen Plattformleitfaden zu erstellen, der Benutzerinnen und Benutzern bei der einfachen Bedienung der Plattform hilft.
Schlüsselbegriffe
PAPAYA, Datenanalyse, Cloud, DSGVO, Herzrhythmusstörungen, Telekommunikation