Marquer les données numériques sensibles des recherches en sciences de la vie
Du changement climatique aux pandémies mondiales, le monde se trouve aujourd’hui confronté à des défis majeurs liés à l’environnement et à la santé, ce qui incite les institutions de recherche en sciences de la vie à mettre en commun leurs données et leurs ressources numériques dans l’objectif de trouver des solutions. Toutefois, une grande partie des données générées par la recherche biologique et médicale présentent un caractère sensible, que ce soit en raison de leur nature confidentielle ou de considérations liées à la propriété intellectuelle, aux risques biologiques ou encore au Protocole de Nagoya.
Une boîte à outils conçue pour les données sensibles
Le projet EOSC-Life, financé par l’UE, entend rassembler des infrastructures de recherche afin de créer un espace ouvert, numérique et collaboratif dédié à la recherche en sciences de la vie, dans lequel les données, les outils et les flux d’analyse seraient à la fois plus faciles à trouver, accessibles, interopérables et réutilisables (FAIR). Afin de soutenir ce processus de «FAIRification», l’équipe a mis au point une boîte à outils qui fournit des informations aux chercheurs qui souhaitent partager et/ou utiliser des données sensibles dans un environnement en nuage tel que le nuage européen pour la science ouverte (EOSC). Ce dispositif est décrit dans un article publié dans la revue «Scientific Reports». La boîte à outils repose sur un système de catégorisation, ou de marquage, conçu et harmonisé pour un groupe de six infrastructures de recherche en sciences de la vie impliquées dans le projet EOSC-Life. Elle ne contribue pas à la création de nouveau contenu, mais aide plutôt les scientifiques à trouver des ressources pertinentes pour le partage de données sensibles entre les établissements participants. Afin de soutenir la mise en commun et la réutilisation des informations, elle met également à disposition des liens vers des objets numériques se rapportant aux données sensibles, tels que des réglementations, des directives, des meilleures pratiques et des logiciels.
Un développement en trois étapes
Le système de catégorisation de la boîte à outils permet un étiquetage et un balisage cohérents des ressources. Trois versions différentes de ce système ont été développées, chacune ayant été testée au cours d’une étude pilote ultérieure. Cela a finalement abouti à un dispositif comportant sept catégories principales: type de données sensibles, type de ressources, domaine de recherche, type de données, étape du cycle de vie du partage des données, portée géographique, et sujets spécifiques. La troisième version a été testée dans le cadre de l’étude pilote 3 avec 110 ressources, dont une avec des données manquantes. Un total de 109 ressources catégorisées dans cette étude pilote a donc été utilisé comme contenu initial pour le démonstrateur de la boîte à outils. Ce démonstrateur est un outil logiciel qui permet aux scientifiques de rechercher des objets numériques liés à des données sensibles en utilisant des filtres reposant sur le système de catégorisation. Les auteurs de l’étude expliquent plus en détail: «L’outil permet un pré-filtrage des ressources liées à des données sensibles avec du texte libre dans le titre, par DOI ou par auteurs. Un filtrage supplémentaire est possible en fonction du type d’élément cherché (par exemple, article de revue, webinaire, rapport, logiciel) et en sélectionnant l’une des balises pré-listées parmi les différentes catégories de la version 3 du système. Le résultat de la recherche peut être enregistré au format PDF ou JSON.» Selon les auteurs, les prochaines étapes importantes consisteront à évaluer l’utilité et la convivialité du démonstrateur de la boîte à outils, à compléter cette boîte pour couvrir davantage de ressources, à promouvoir son adoption plus large par les différentes communautés des sciences de la vie, et à développer une vision à long terme pour la maintenance et la durabilité. Le projet EOSC-Life (Providing an open collaborative space for digital biology in Europe) prendra fin en août 2023. Pour plus d’informations, veuillez consulter: site web du projet EOSC-Life
Mots‑clés
EOSC-Life, sciences de la vie, données, boîte à outils, système de catégorisation, recherche, infrastructure de recherche