Najważniejsze wiadomości - Ochrona ekosystemów oferujących otwarty dostęp do danych oraz ekosystemów e-infrastruktur
W ramach e-infrastruktur wykorzystuje się przetwarzanie sieciowe ('grid computing') oraz chmury obliczeniowe ('cloud computing'), w celu sprostania wyzwaniu jakim jest magazynowanie, przetwarzanie oraz dostarczanie odpowiedniej funkcjonalności, w oparciu o liczne, rozproszone zasoby. Przykładowo e-infrastruktura może zostać utworzona przez grupę biologów, w celu zbadania konkretnego problemu. Dzięki e-infrastrukturze biolodzy mogą stworzyć wirtualne środowisko badawcze ('Virtual Research Environment' - VRE), umożliwiające współpracę polegającą na korzystaniu z sieciowego przetwarzania informacji pochodzących z jednego źródła, a następnie analizowaniu tych informacji w oparciu o oprogramowanie służące do eksploracji danych, pochodzące z innego źródła. Co jednak w przypadku, gdy podczas pracy naukowcy zapragną porównać pozyskane przez siebie dane z informacjami posiadanymi przez innych naukowców, stosujących inne dane, inne oprogramowanie, inne systemy obliczeniowe, a nawet inne ogólnodostępne, otwarte zasoby danych? "Integrowanie zasobów dostępnych w ramach różnych e-infrastruktur jest bardzo trudne i czasochłonne, często wymaga także tworzenia nowych e-infrastruktur, co również wiążę się z poświęceniem dużej ilości czasu i środków finansowych", tłumaczy Donatella Castelli, naukowiec pracujący w Instytucie Nauk i Technologii Informatycznych "Alessandro Faedo" ('Institute of information science and technology "Alessandro Faedo"') włoskiej Narodowej Rady ds. Badań Naukowych ('National Research Council'). Jeżeli powyższe, zróżnicowane e-infrastruktury stanowią część ekosystemu, w którym (tak jak w naturze) poszczególne elementy są świadome istnienia pozostałych elementów i mogą z nimi współpracować lub nawet rywalizować, to współdzielenie zasobów staje się znacznie prostsze i tańsze. Powyższa idea przyświecała konsorcjum utworzonemu przez uniwersytety, instytuty badawcze, przedsiębiorstwa oraz organ narodów zjednoczonych i doprowadziła do stworzenia projektu o nazwie "ekosystem infrastruktur danych dla celów naukowych" ('Data infrastructures ecosystem for science' - D4Science-II). W ramach projektu D4Science-II, wspartego przez Komisję Europejską kwotą 4,3 milionów euro, stworzono platformę wspierającą współpracę pomiędzy e-infrastrukturami w postaci ekosystemu e-infrastruktur, w którym dane oraz zasoby aplikacyjne i obliczeniowe, stanowiące część odrębnych e-infrastruktur, mogą być współdzielone w sposób niezależny od lokalizacji, technologii, formatu, języka, protokołu czy też schematu przepływu danych. Interoperatywność poszczególnych e-infrastruktur w ramach ekosystemu wiedzy D4Science-II osiągana jest na dwa sposoby: poprzez wykorzystanie jednolitych standardów w ramach poszczególnych e-infrastruktur oraz, co najważniejsze, dzięki tak zwanym "platformom pośredniczącym". Platforma pośrednicząca składa się z oprogramowania tłumaczącego i przetwarzającego heterogeniczne dane i procesy w takich sposób, aby mogły być wykorzystywane w różnych kontekstach przez różne e-infrastruktury, co umożliwia współpracę. Szkielet systemu stanowi skalowalna platforma aplikacyjna gCube, która umożliwia interoperacyjność i która została przetestowana przez węgierskiego partnera projektu - firmę 4D SOFT. E-infrastruktura D4Science pozwala nie tylko grupować zasoby oraz wspierać ich interoperacyjność, ale także oferuje poszczególnym infrastrukturom dostęp do innych e-infrastruktur, otwierając tym samym dynamiczny dostęp do danych, narzędzi aplikacyjnych oraz mocy obliczeniowej. "W powyższym sensie e-infrastruktury dostępne w ramach ekosystemu mogą ze sobą konkurować. Naukowcy mogą wybrać te spośród dostępnych zasobów, które są w danej chwili najlepiej dopasowane do potrzeb", zauważa dr Castelli. Siłę powyższego podejścia dobrze ilustrują aplikacje VRE oraz gCube (VRE o otwartym dostępie), wdrożone w ramach projektu D4Science-II i dostępne pod adresem portal D4Science . "Korzenie projektu D4Science-II sięgają dwóch wcześniejszych projektów: DILIGENT oraz D4Science, w ramach których rozpoczęto tworzenie infrastruktur stanowiących podwaliny bibliotek cyfrowych, bazujących na e-infrastrukturze zaprojektowanej pod kątem zastosowań sieciowych. Zauważyliśmy jednak, że istnieje szereg e-infrastruktur przeznaczonych dla konkretnych celów i zdaliśmy sobie sprawę, że lepiej jest wykorzystać istniejące zasoby i umożliwić ich współdziałanie, niż za każdym razem tworzyć nową e-infrastrukturę. W związku z powyższym podejście obrane w ramach projektu D4Science-II polegało na stworzeniu ekosystemu e-infrastrutur, a nie na tworzeniu nowych e-infrastruktur", tłumaczy dr Castelli. Od bioróżnorodności i rybołówstwa po fizykę wysokich energii... Ekosystem wykorzystano w celu wspierania VRE w dziedzinach takich jak fizyka wysokich energii, bioróżnorodności, łowiska oraz zasoby akwakultury. Powyższe prace pozwoliły otworzyć wrota do nowych obszarów badawczych. Obecnie prace te są poszerzane, w celu objęcia nowych dziedzin. W ramach projektu AquaMaps, którego celem jest stworzenie mapy globalnego rozmieszczenia światowych gatunków morskich, wykorzystano zasoby oferowane przez e-infrastrukturę sieciową oraz e-infrastrukturę danych w oparciu o VRE utworzone na bazie infrastruktury D4Science. Tworzenie map o dużej rozdzielczości, przedstawiających rozmieszczenie poszczególnych gatunków ryb, stanowi duże wyzwanie obliczeniowe: opracowanie pojedynczej mapy kilku gatunków wymaga 125 milionów obliczeń. Bez dostępu do sieciowych e-infrastruktur tworzenie zbioru map niezbędnych do prowadzenia prac naukowych mogłoby zająć kilka dni; dzięki przetwarzaniu sieciowemu zadanie to zajmuje zaledwie kilka godzin. W ramach ekosystemu D4Science trzy oddzielne, jednak wzajemnie powiązane VRE, korzystające z danych dotyczących łowisk, mogły używać zasobów oferowanych przez różne infrastruktury danych (GENESI-DEC dostarczająca dane na temat obserwacji Ziemi, GBIF dostarczająca dane na temat różnorodności biologicznej oraz FIGIS dostarczająca informacje na temat łowisk). Dzięki powyższym elementom naukowcy mogli przeprowadzić innowacyjne analizy statystyczne, które wcześniej były niewykonalne, łącząc na przykład informacje na temat gatunków ryb oraz lokalizacji łowisk z danymi środowiskowymi oraz geoprzestrzennymi. "Gromadzimy statystyki na temat różnorakich rodzajów łowisk, pochodzące z różnych krajów, o zróżnicowanym stopniu jakości danych. Infrastruktura D4Science pomaga nam połączyć ze sobą powyższe dane", zauważa Anton Ellenbroek, pracownik Departamentu Łowisk i Akwakultur FAO ('FAO Fisheries and Aquaculture Department') w Rzymie. "D4Science to bardzo ważna infrastruktura... pozwala nam przeprowadzać analizy statystyczne w uprzednio nieosiągalny sposób, a także umożliwia współdzielenie wyników z innymi, wirtualnymi środowiskami badawczymi". Organizacja Narodów Zjednoczonych do Spraw Wyżywienia i Rolnictwa (FAO) zorganizowała ponadto, w ramach projektu "Cyfrowe repozytoria - wzajemnie powiązane, otwarte dane" ('Digital Repositories - Linked Open Data') warsztaty, których celem było przeprowadzanie analizy rozwiązań z dziedziny udostępniania cyfrowych repozytoriów w postaci wzajemnie powiązanych, otwartych danych, przy użyciu zaawansowanych narzędzi, takich jak VRE stworzone przez uczestników projektu D4Science. Osiągnięcia w zakresie analizy danych dotyczących łowisk oraz różnorodności biologicznej, poczynione dzięki VRE stworzonym w ramach projektu D4Science-II, stanowiły inspirację do rozpoczęcia dwóch projektów w powyższej dziedziny. Naukowcy uczestniczący w projekcie i-Marine stosują podejście ekosystemowe do zarządzania łowiskami oraz do ochrony środowiska morskiego, wykorzystując otwartą platformę bazującą na infrastrukturze D4Science, pozwalającą czerpać wiedzę i dane ze znacznie większej ilości źródeł, niż ma to miejsce w przypadku klasycznego podejścia do zarządzania łowiskami. Natomiast w ramach projektu o nazwie "Europejsko-brazyliska e-infrastruktura otwartego dostępu do danych oraz przetwarzania w obrębie chmur obliczeniowych na rzecz różnorodności biologicznej" (EUBrazilOpenBio) europejscy i brazylijscy naukowcy stosują ekosystemowe podejście do e-infrastruktur, w celu stworzenia otwartej platformy integrującej istniejące, europejskie i brazylijskie, e-infrastruktury oraz zasoby, z myślą o zastosowaniu ich w badaniach nad różnorodnością biologiczną. "Współpraca pomiędzy e-infrastrukturami otwiera całkowicie nowe możliwości oraz obszary badań. Dzięki niej możemy na przykład analizować dane naukowe w odniesieniu do statystyk ekonomicznych, otrzymując w ten sposób nową, niedostępną wcześniej wiedzę", mówi dr Castelli. Użyteczne odnośniki: - strona internetowa projektu "Ekosystem infrastruktur danych dla celów naukowych" - informacje na temat D4Science-II w bazie danych CORDIS - strona internetowa projektu "Europejsko-brazyliska e-infrastruktura otwartego dostępu do danych oraz przetwarzania w obrębie chmur obliczeniowych na rzecz różnorodności biologicznej" - informacje na temat projektu EUBrazilOpenBio w bazie danych CORDIS - Przemowa Komisarza Europejskiego Neelie Kroesa na temat otwartego dostępu do danych Odnośne publikacje: - "Projekt D4Science-II siłą napędową rewolucji w zakresie nauki opartej na e-zasobach" - 'D4Science-ll drives forward the science e-resource revolution' - "Prace nad ogólnoeuropejską infrastrukturą sieciową osiągają nowy poziom" - 'Work on pan-European grid infrastructure moves to next level' - "Przetwarzanie sieciowe w walce z chorobą Alzheimera" - 'Grid computing tackles Alzheimer's' - "Europejski projekt EELA paliwem dla latynoamerykańskiego przetwarzania sieciowego, projekt EELA-2 upowszechnia wykorzystanie tych" - 'EU's EELA fuels Latin American computing grid, EELA-2 makes use widespread'