Skip to main content
European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Article Category

Zawartość zarchiwizowana w dniu 2024-04-18

Article available in the following languages:

Dzięki nowej platformie analizy danych ich właściciele będą mieli mniej obaw dotyczących ochrony prywatności

Prowadzenie działalności i przetrwanie na rynku w czasach cyfrowej rewolucji w coraz większym stopniu zależy od analizy danych, ale czy to oznacza, że musimy zrezygnować z prywatności? Niekoniecznie. W ramach finansowanego ze środków UE projektu PAPAYA powstała nowa platforma, która daje nadzieję na odrodzenie zaufania między właścicielami danych a podmiotami zewnętrznymi zajmującymi się ich przetwarzaniem.

Kolejne wycieki danych sprawiają, że klienci coraz ostrożniej podchodzą do kwestii bezpieczeństwa danych przechowywanych na serwerach w chmurze. Wejście w życie ogólnego rozporządzenia o ochronie danych osobowych (RODO) zrodziło potrzebę powstania takich inicjatyw, jak projekt PAPAYA (PlAtform for PrivAcY preserving data Analytics), który porusza kwestię delikatnej równowagi między prywatnością a analizą cennych danych. Zaproponowana technologia jest sprawdzana w pięciu przypadkach faktycznego użycia, swoim zakresem obejmujących tak odległe zagadnienia, jak wykrywanie arytmii serca czy analizę użycia telefonu komórkowego. Melek Önen, profesor nadzwyczajna na Wydziale Bezpieczeństwa Cyfrowego EURECOM i koordynatorka projektu PAPAYA, omawia cele projektu i dotychczasowe osiągnięcia pracującego nad nim zespołu.

Jakie były cele projektu, jeśli chodzi o uszczelnienie systemu ochrony danych?

Melek Önen: Projekt PAPAYA ma stanowić rozwiązanie problemów dotyczących bezpieczeństwa danych, jakie pojawiają się podczas przekazywania danych analitycznych do potężnych serwerów w chmurze, które jednak nie cieszą się dużym zaufaniem. Analiza danych może pomóc przeprowadzającym ją podmiotom w uzyskaniu istotnych informacji i w efekcie będzie prowadzić do podejmowania lepszych decyzji, na przykład agencje zajmujące się służbą zdrowia mogą wykorzystywać takie dane, by przewidywać lub wykrywać ryzyko wystąpienia pandemii. Analiza danych jest także podstawą podejmowania decyzji w firmach zajmujących się marketingiem i handlem, ale zawsze pojawia się jeden problem. Niezależnie od wartości, jaką dane przedstawiają dla zbierających je podmiotów, w ich zestawach zapisane są także bardzo wrażliwe informacje dotyczące osób, od których dane te pochodzą. Poufność danych oraz prywatność osób, których te dane dotyczą, są poważnie zagrożone. Przez przyjęcie podejścia zakładającego uwzględnienie kwestii prywatności w fazie projektowania narzędzia staramy się opracować i zbudować platformę modułów chroniących prywatność użytkowników w całym zakresie stosowalności danych bez jednoczesnej utraty możliwości, jakie daje ich analiza.

Jak można wyjaśnić obecny stan, w którym brak wcześniejszych prób podejmowania działań prowadzących do uzyskania takiej równowagi?

Jako społeczeństwo jesteśmy narażeni na coraz poważniejsze wycieki danych, które prowadzą do coraz większych problemów. Wiele osób utraciło już wiarę w rozwiązania zabezpieczające dane wdrażane przez działające na rynku organizacje. Coraz częściej martwimy się o bezpieczeństwo naszych danych osobowych. Ogólne rozporządzenie o ochronie danych osobowych (RODO) ma szansę zmienić ten stan rzeczy, a to oznacza, że firmy szukają już bezpiecznych metod przetwarzania danych. Obecnie odczuwamy większą niż kiedykolwiek potrzebę korzystania z metod analizy danych, które będą te dane chronić i umożliwią firmom działanie na zabezpieczonych ich zestawach. Dzięki temu klienci tych firm będą czuć się bezpiecznie, a zebrane dane nie stracą na znaczeniu i nadal będą mogły służyć realizacji celów firm. Stosowane zazwyczaj techniki ochrony danych – głównie standardowe techniki szyfrowania, na przykład AES – niestety nie nadają się do użycia w tym nowym kontekście, ponieważ zewnętrzne serwery nie mogą pracować na zaszyfrowanych danych. Właściciele danych musieliby najpierw pobrać zaszyfrowane dane, rozszyfrować je i dopiero wtedy wykonać wszystkie zaplanowane operacje. Rozwiązanie to nie wchodzi w rachubę, gdy właściciel danych nie dysponuje odpowiednimi zasobami obliczeniowymi do przeprowadzania operacji na tak dużych zbiorach lub gdy wykorzystywany w obliczeniach algorytm należy do firmy zewnętrznej i znajduje się na jej serwerze. W takim przypadku jednym z rozwiązań może być udostępnienie serwerowi zewnętrznemu klucza potrzebnego do odszyfrowania danych, ale wtedy nie można już mówić o zapewnianiu bezpieczeństwa.

W jaki sposób proponowane przez Pani zespół rozwiązanie pomaga przezwyciężyć te problemy?

W ramach projektu PAPAYA opracowaliśmy technologie o zwiększonej prywatności, które umożliwiają bezpieczną analizę danych. Dotyczy to zarówno prostych działań statystycznych, jak i bardziej złożonych technik uczenia maszynowego, które stosuje się na przykład w przypadku sieci neuronowych. Zapewniają one wyraźną ochronę osobom, do których należą przetwarzane dane, a jednocześnie dają możliwość korzystania z nich podmiotom te dane przechowującym czy nimi administrującym. Proponowane rozwiązanie jest zgodne z literą RODO w zakresie ochrony danych już na etapie projektowania narzędzia. Poza tym projekt pozwala nam także opracowywać konkretne narzędzia ułatwiające zapewnianie zgodności z wymogami RODO oraz powiązanych z nim zapisów prawnych dotyczących prywatności i ochrony danych. Narzędzia te są przeznaczone dla organizacji korzystających z metod analizy chroniących prywatność. Prace nad nimi prowadziliśmy, mając cały czas na uwadze prawa ludzi, których dane osobowe są przetwarzane, w RODO określanych mianem „osób, których dane dotyczą”.

Jak dokładnie działa ta platforma?

Szkielet PAPAYA został zbudowany wokół dwóch zasadniczych grup składników. Po pierwsze są to składniki po stronie platformy, które będą uruchamiane na niezaufanych serwerach w chmurze. Po drugie mamy składniki po stronie klienta, które będą działać w zaufanym środowisku klienta (na przykład na smartfonie). Platforma przeprowadza przegrupowanie modułów analitycznych chroniących prywatność dla następujących operacji: klasyfikacji przez sieć neuronową, uczenia sieci neuronowej opartego na współpracy, grupowania trajektorii oraz podstawowych działań statystycznych. Na wysokim poziomie klienty platformy, a za ich pośrednictwem podmioty, wysyłają zapytania o wykonanie żądanych analiz w sposób zapewniający ochronę prywatności i odbierają dane wyjściowe bez możliwości przypadkowego ujawnienia ich wrażliwych fragmentów. Szkielet udostępnia też zestaw narzędzi do pracy na danych. Zawiera on różne narzędzia umożliwiające klientom platformy ochronę danych w fazie projektowania. W ten sposób będą oni mogli chronić osoby, których wrażliwe dane są przetwarzane przez ich usługi. Przykładowo osoba, której dotyczą dane, może otrzymywać więcej informacji o usługach analizy chroniących prywatność lub o ujawnianiu swoich danych.

Czy mogłaby Pani podać konkretny przykład zastosowania platformy?

W ramach projektu PAPAYA określiliśmy pięć przykładów zastosowania, z których każdy odpowiada innym warunkom. Jeden z nich to rozwiązania do zastosowań w aplikacji z obszaru ochrony zdrowia (ten prowadzony jest przez MediaClinics Italia, włoską firmę z segmentu MŚP), w której skład wchodzi system wykrywania arytmii serca zapewniający poszanowanie ochrony danych. W tym przypadku użycia po stronie pacjenta pobierane są wrażliwe dane medyczne w postaci elektrokardiogramu (EKG). Platforma PAPAYA wykrywa arytmię dzięki zastosowaniu sieci neuronowych, nie mając w ogóle dostępu do tych danych EKG. Kolejnym przykładem użycia jest rozwiązanie celowane w operatorów sieci telekomunikacyjnych (za prowadzenie tego przypadku odpowiada Orange, francuska firma z sektora telekomunikacji). Pomaga ono podmiotom pobierać wzorce dotyczące mobilności przy wykorzystaniu pewnych algorytmów grupowania trajektorii, dzięki czemu podmiot nie określa poszczególnych trajektorii użytkowników telefonów.

Jakie są Pani zdaniem najważniejsze osiągnięcia projektu?

Udało się nam opracować grupowe odmiany analiz chroniących prywatność, to jest analizy z wykorzystaniem sieci neuronowych (klasyfikacja, szkolenie oparte na współpracy), grupowania trajektorii, zliczania oraz podstawowych statystyk. Moduły te wykorzystują różne zaawansowane narzędzia kryptograficzne, na przykład szyfrowanie homomorficzne, prywatność różnicową czy szyfrowanie funkcjonalne. Poza tym powstały różne interfejsy użytkownika (UI), które zwiększają transparentność działań dla osób, których dotyczą dane, oraz podmiotów korzystających z tych danych. Są to na przykład rozszerzenie narzędzia oceny wpływu na prywatność CNIL, dzięki któremu podmioty korzystające z platformy PAPAYA mogą oceniać wpływ analiz chroniących prywatność na prywatność i cele związane z bezpieczeństwem. Narzędzie jest także bardzo transparentne z punktu widzenia osób, których dotyczą przetwarzane dane. Nasz UI wyjaśnia sposób działania narzędzi analitycznych chroniących prywatność, z których korzysta platforma PAPAYA, a autorska wyszukiwarka uwzględnia preferencje użytkownika dotyczące prywatności i ochrony praw.

Jakie wyzwania stoją jeszcze przed Pani zespołem?

Projekt jest w fazie walidacji. Naszym celem jest przygotowanie prototypów, w których przestawimy te pięć przypadków użycia, oraz opracowanie przewodnika po platformie, który stanowiłby pomoc dla jej użytkowników.

Słowa kluczowe

PAPAYA, analiza danych, chmura, RODO, arytmia, telekomunikacja

Powiązane artykuły