Articoli di approfondimento - Salvare gli ecosistemi con ecosistemi di dati aperti e infrastrutture digitali
Le e-infrastrutture usano il grid e cloud computing per sfruttare gli archivi, il calcolo e le funzionalità software di una varietà di risorse distribuite. Un gruppo di ricercatori di biologia potrebbe creare un'e-infrastruttura, ad esempio, per studiare un problema specifico. Tramite l'e-infrastruttura i biologi, per collaborare, potrebbero creare un ambiente virtuale di ricerca (VRE - Virtual Research Environment), sfruttando le risorse di calcolo grid per elaborare le informazioni di una fonte e analizzarle con strumenti software di data-mining di un'altra. Ma cosa succede se durante questo lavoro volessero incrociare i loro dati con informazioni provenienti da altri ricercatori, che usano dati, software e sistemi informatici diversi, o addirittura risorse pubbliche di dati aperti? "L'integrazione delle risorse tra le diverse e-infrastrutture è molto difficile e richiede molto tempo, e in molti casi è necessario costruire una nuova infrastruttura, una cosa poco conveniente sia in termini di tempo che di costi", spiega Donatella Castelli, ricercatrice presso l'Istituto di scienza e tecnologie dell'informazione "A. Faedo" (ISTI) del Consiglio nazionale delle ricerche (CNR), Italia. Se tali diverse e-infrastrutture si trovassero in un ecosistema in cui, come in natura, sono a conoscenza le une delle altre, e sono in grado di collaborare o addirittura di competere, la condivisione delle risorse tra loro diventerebbe estremamente più semplice, facile e meno costosa. È stata questa visione che ha portato un consorzio di università, istituti di ricerca, aziende e un organismo delle Nazioni Unite a lanciare il progetto D4Science-II ("Data infrastructures ecosystem for science"). Il progetto, sostenuto dalla Commissione europea con un finanziamento di 4,3 milioni di euro, ha creato un quadro di interoperabilità per le e-infrastrutture, ovvero un ecosistema di e-infrastrutture in cui fonti di dati, calcolo e software appartenenti a diverse e-infrastrutture possono essere condivise indipendentemente dalla posizione, tecnologia, formato, lingua, protocollo o flusso di lavoro. L'interoperabilità tra le e-infrastrutture nell'ecosistema di conoscenze D4Science-II viene fornita in due modi: attraverso l'uso di standard comuni tra le e-infrastrutture e, cosa più importante, attraverso i cosiddetti "quadri di mediazione". I quadri di mediazione consistono di software che traduce e trasforma dati e processi eterogenei in modo che possano essere utilizzati in contesti diversi da diverse e-infrastrutture, permettendo così la cooperazione. La colonna porante del sistema è gCube, un quadro software scalabile che consente l'interoperabilità e che è stato sottoposto a verifica dal partner di progetto ungherese 4D SOFT. L'e-infrastruttura D4Science non solo aggrega le risorse rendendole interoperabili, ma le ripropone anche ad altre e-infrastrutture, permettendo loro di accedere in modo dinamico a dati, strumenti software e potenza di calcolo. "In questo senso, le e-infrastrutture risultano competitive all'interno dell'ecosistema. I ricercatori possono scegliere, tra le risorse disponibili, quelle che meglio si adattano alle loro esigenze in qualsiasi momento", spiega la dott.ssa Castelli. La forza di tale approccio è evidente nelle applicazioni VRE e gCube (VRE ad accesso aperto) create come parte del progetto D4Science-II e disponibili sul portale D4Science . "D4Science-II nasce da due progetti precedenti, DILIGENT e D4Science, impegnati nello sviluppo di infrastrutture per le biblioteche digitali costruite su e-infrastrutture abilitate per i grid. Tuttavia, abbiamo visto che già esistono molte e-infrastrutture per scopi specifici e abbiamo ritenuto che è meglio utilizzare le risorse di cui esse già dispongono e farle funzionare insieme, piuttosto che costruire di volta in volta una nuova e-infrastruttura. La nostra attenzione in D4Science-II si è quindi spostata dall'attivare nuove e-infrastrutture alla creazione di un ecosistema di e-infrastrutture", fa notare la dott.ssa Castelli. Dalla biodiversità e la pesca alla fisica delle alte energie... L'ecosistema è stato utilizzato per sostenere i VRE in settori quali la fisica delle alte energie, la biodiversità, le risorse della pesca e dell'acquacoltura. Ha contribuito ad aprire nuove aree di ricerca tra di loro e viene ora esteso a nuovi domini. AquaMaps, un progetto per creare mappe di distribuzione globale delle specie marine del mondo, si avvale di risorse dati e grid di e-infrastrutture attraverso un VRE presente sull'e-infrastruttura D4Science. La generazione di mappe ad alta risoluzione che mostrano la distribuzione delle specie ittiche è un compito computazionalmente impegnativo: disegnare una mappa multi-specie unica richiede 125 milioni di calcoli. Senza un'e-infrastruttura abilitata per i grid, la raccolta delle mappe necessarie per supportare un'attività di ricerca potrebbe richiedere giorni; con il grid computing ci vogliono poche ore. All'interno dell'ecosistema D4Science, tre distinti ma correlati VRE impegnati nell'elaborazione di dati della pesca sono stati in grado di utilizzare le informazioni e le risorse fornite da diverse e-infrastrutture (GENESI-DEC per i dati di osservazione della Terra, GBIF per i dati sulla biodiversità e FIGIS per le informazioni relative alla pesca). Grazie a questa funzionalità, sono riusciti a eseguire processi innovativi di analisi statistica, che prima erano semplicemente impossibili, combinando le informazioni sulle specie ittiche e il luogo di cattura, con i dati ambientali e geospaziali, per esempio. "Raccogliamo statistiche su tutti i tipi di pesca da svariati paesi e riguardanti una grande diversità di qualità di dati. D4Science ci aiuta a raccogliere tutti questi dati", fa notare Anton Ellenbroek del Dipartimento per la pesca e l'acquacoltura della FAO, a Roma. "Si tratta di un'infrastruttura molto importante... ci permette di analizzare le statistiche in modi che non erano possibili prima e possiamo facilmente condividere le informazioni con altri ambienti di ricerca virtuali." La FAO ha anche ospitato un workshop insieme al progetto, intitolato "Digital Repositories - Linked Open Data", volto a esaminare soluzioni per la pubblicazione di archivi digitali come dati aperti collegati, utilizzando strumenti avanzati come i VRE di D4Science. Il successo dei VRE che si occupano di pesca e dati sulla biodiversità in D4Science-II ha ispirato due progetti di follow-up nel campo. Nell'ambito di i-Marine, i ricercatori stanno applicando l'approccio degli ecosistemi alla gestione della pesca e alla conservazione dell'ambiente marino, utilizzando una piattaforma aperta basata sull'infrastruttura D4Science per lavorare con un insieme di fonti di conoscenza e di dati molto più ampio di quello utilizzato per la gestione della pesca tradizionale. Nel progetto EUBrazilOpenBio ("EU-Brazil open data and cloud computing e-Infrastructure for biodiversity"), ricercatori europei e brasiliani stanno impiegando l'approccio con ecosistemi di e-infrastrutture per creare una piattaforma ad accesso aperto, integrando le e-infrastrutture e le risorse esistenti per la scienza della biodiversità europee e brasiliane. "La cooperazione tra e-infrastrutture apre possibilità e campi di ricerca completamente nuovi. Siamo in grado di confrontare i dati scientifici con le statistiche economiche, per esempio, ottenendo una prospettiva completamente nuova che non era disponibile prima", conclude la dott.ssa Castelli. Link utili: - Sito web del progetto "Data infrastructures ecosystem for science" - D4Science-II factsheet on CORDIS - Sito web del progetto "EU-Brazil open data and cloud computing e-Infrastructure for biodiversity" - Scheda informativa di EUBrazilOpenBio su CORDIS - Intervento sul tema "Open Data" da parte del commissario europeo Neelie Kroes Articoli correlati: - D4Science-ll promuove la rivoluzione scientifica e-resource - Avanza il lavoro sull'infrastruttura grid paneuropea - Il grid computing per l'Alzheimer - Progetto EELA dell'UE dà impulso ai sistemi Grid in America Latina e EELA 2 ne diffonde l'uso