Categorizzazione dei dati sensibili nel campo della ricerca sulle scienze della vita
Dai cambiamenti climatici alle pandemie globali, il mondo si trova ad affrontare importanti sfide ambientali e sanitarie che spingono gli istituti di ricerca sulle scienze biologiche a condividere i propri dati e le loro risorse digitali alla ricerca di soluzioni. Tuttavia, molti dei dati generati dalla ricerca biologica e medica sono sensibili, sia per la loro personale natura che per considerazioni legate alla proprietà intellettuale, al rischio biologico o al Protocollo di Nagoya.
Un set di strumenti per i dati sensibili
Il progetto EOSC-Life, finanziato dall’UE, riunisce le infrastrutture di ricerca per creare uno spazio aperto, digitale e collaborativo finalizzato alla ricerca sulle scienze della vita, in cui i dati, gli strumenti e i flussi di lavoro di analisi sono più reperibili, accessibili, interoperabili e riutilizzabili (findable, accessible, interoperable and reusable, FAIR). Per supportare questo processo in ottica FAIR, ha sviluppato un set di strumenti che fornisce informazioni ai ricercatori interessati a condividere e/o utilizzare dati sensibili in un ambiente cloud quale l’European Open Science Cloud (EOSC). Gli strumenti sono descritti in uno studio pubblicato sulla rivista «Scientific Reports». Essi si basano su un sistema di categorizzazione, o tagging, sviluppato e armonizzato in un gruppo di sei infrastrutture di ricerca sulle scienze della vita coinvolte nel progetto EOSC-Life. Il set di strumenti non crea nuovi contenuti, ma consente agli scienziati di trovare risorse pertinenti per la condivisione di dati sensibili in tutte le infrastrutture di ricerca partecipanti. Contiene collegamenti a oggetti digitali relativi a dati sensibili, quali regolamenti, linee guida, migliori prassi e software, per supportare la condivisione e il riutilizzo dei dati.
Sviluppo in tre fasi
Il sistema di categorizzazione del set di strumenti consente di etichettare e contrassegnare le risorse in modo coerente. Sono state sviluppate tre diverse versioni del sistema di categorizzazione, ognuna delle quali è stata testata in un successivo studio pilota. Alla fine si è giunti a un sistema con sette categorie principali: tipo di dati sensibili; tipo di risorsa; campo di ricerca; tipo di dati; fase del ciclo di vita della condivisione dei dati; ambito geografico; argomenti specifici. La terza versione del sistema di categorizzazione è stata testata nello studio pilota 3 con 110 risorse, una delle quali aveva dati mancanti. In questo studio pilota sono stati utilizzati 109 risorse quali contenuto iniziale per il dimostratore del set di strumenti. Il dimostratore è uno strumento software che consente ai ricercatori di scovare oggetti digitali collegati a dati sensibili, con filtri basati sul sistema di categorizzazione. Gli autori dello studio spiegano inoltre: «Lo strumento consente di pre-filtrare le risorse collegate a dati sensibili con testo libero nel titolo, tramite DOI o per autore. È inoltre possibile filtrare in base al tipo di articolo (ad esempio, articolo di giornale, webinar, relazione, software) e alla selezione di uno dei tag pre-elencati dalle diverse categorie della versione 3 del sistema. I risultati della ricerca possono essere salvati in formato PDF o JSON.» Secondo gli autori, i prossimi passi importanti riguardano la valutazione dell’usabilità e della facilità d’uso del dimostratore, l’estensione del set di strumenti a un maggior numero di risorse, la promozione di una più ampia adozione da parte di diverse comunità di scienze biologiche e lo sviluppo di una visione a lungo termine per la manutenzione e la sostenibilità. Il progetto EOSC-Life (Providing an open collaborative space for digital biology in Europe) si concluderà nell’agosto 2023. Per maggiori informazioni, consultare: sito web del progetto EOSC-Life
Parole chiave
EOSC-Life, scienze della vita, dati, set di strumenti, sistema di categorizzazione, ricerca, infrastruttura di ricerca