Oznaczanie danych wrażliwych w badaniach z zakresu nauk przyrodniczych
Od zmiany klimatu po globalne pandemie – świat stoi w obliczu poważnych wyzwań związanych ze środowiskiem i zdrowiem, które skłaniają instytucje badawcze zajmujące się naukami przyrodniczymi do łączenia swoich danych i zasobów cyfrowych w poszukiwaniu rozwiązań. Wiele danych generowanych w ramach badań biologicznych i medycznych ma jednak charakter wrażliwy, co wynika z ich osobistego charakteru lub z kwestii własności intelektualnej, zagrożeń biologicznych lub protokołu z Nagoi.
Zestaw narzędzi na potrzeby danych wrażliwych
Finansowany przez Unię Europejską projekt EOSC-Life łączy infrastruktury badawcze w celu stworzenia otwartej, cyfrowej i opartej na współpracy przestrzeni na potrzeby badań w dziedzinie nauk przyrodniczych, w której dane, narzędzia i procesy analityczne są łatwiejsze do znalezienia, dostępne, interoperacyjne i gotowe do ponownego wykorzystania (ang. findable, accessible, interoperable and reusable, FAIR). Aby wesprzeć ten proces, zespół projektu opracował zestaw narzędzi, który dostarcza informacji naukowcom zamierzającym udostępniać lub wykorzystywać dane wrażliwe w środowisku w chmurze, takim jak europejska chmura dla otwartej nauki (ang. European Open Science Cloud, EOSC). Opracowany zestaw narzędzi opisano w pracy naukowej opublikowanej w czasopiśmie „Scientific Reports”. Zestaw ten opiera się na systemie kategoryzacji (tagowania), opracowanym i zharmonizowanym w grupie sześciu infrastruktur badawczych z dziedziny nauk przyrodniczych zaangażowanych w projekt EOSC-Life. Co istotne, zestaw narzędzi nie tworzy nowych treści, ale raczej umożliwia naukowcom znalezienie zasobów istotnych dla udostępniania danych wrażliwych we wszystkich uczestniczących w inicjatywie infrastrukturach badawczych. Zawiera on linki do obiektów cyfrowych związanych z danymi wrażliwymi, takich jak regulacje, wytyczne, najlepsze praktyki i oprogramowanie, wspierające udostępnianie i ponowne wykorzystywanie danych.
Trzy etapy rozwoju
System kategoryzacji zestawu narzędzi umożliwia spójne etykietowanie i tagowanie zasobów. Zespół projektu opracował trzy różne wersje systemu kategoryzacji, które przetestował w ramach późniejszego badania pilotażowego. Doprowadziło to ostatecznie do powstania systemu obejmującego siedem głównych kategorii: rodzaj danych wrażliwych; rodzaj zasobu; dziedzina badań; rodzaj danych; etap cyklu życia udostępniania danych; zakres geograficzny; oraz konkretne tematy. Trzecia wersja systemu kategoryzacji została przetestowana w badaniu pilotażowym nr 3 z udziałem 110 zasobów, z których jeden miał brakujące dane. Łącznie 109 zasobów oznaczonych w tym badaniu pilotażowym zostało więc wykorzystanych jako początkowa zawartość strony demonstratora zestawu narzędzi. Demonstrator jest oprogramowaniem, które umożliwia badaczom przeszukiwanie obiektów cyfrowych powiązanych z danymi wrażliwymi, z filtrowaniem opartym na systemie kategoryzacji. Autorzy badania wyjaśniają dalej: „Narzędzie to umożliwia wstępne filtrowanie zasobów powiązanych z danymi wrażliwymi z wolnym tekstem w tytule, przez DOI lub przez autorów. Możliwe jest też dalsze filtrowanie pod kątem typu pozycji (np. artykuł w czasopiśmie, webinarium, raport, oprogramowanie) i wyboru dowolnego z wcześniej wymienionych tagów z różnych kategorii wersji nr 3 systemu. Wynik wyszukiwania może być zapisany jako PDF lub JSON”. Według autorów, kolejne ważne kroki obejmują ocenę użyteczności i przyjazności dla użytkownika takiego demonstratora zestawu narzędzi, poszerzenie zestawu o kolejne zasoby, promowanie jego szerszego przyjęcia przez różne społeczności nauk przyrodniczych oraz opracowanie długoterminowej wizji utrzymania i trwałości. Projekt EOSC-Life (Providing an open collaborative space for digital biology in Europe) kończy się w sierpniu 2023 roku. Więcej informacji: strona projektu EOSC-Life
Słowa kluczowe
EOSC-Life, nauki przyrodnicze, dane, zestaw narzędzi, system kategoryzacji, badania naukowe, infrastruktura badawcza