Naukowcy z UE sięgają po big data
Aby utrzymać się w czołówce, europejscy naukowcy z różnych dziedzin muszą być w stanie zachować i uzyskać dostęp do ogromnej ilości danych oraz wspierać współpracę transgraniczną. Projekt EUDAT2020 ma to ułatwić. Opierając się na poprzednich projektach finansowanych ze środków UE, w ramach tej inicjatywy połączono sieć europejskich organizacji badawczych oraz centrów danych i obliczeniowych w 14 państwach w celu stworzenia ogólnoeuropejskiej wspólnej infrastruktury danych (CDI). W kwietniu 2018 r. CDI liczyła formalnie 23 partnerów. Koordynator projektu Damien Lecarpentier z CSC w Finlandii omawia osiągnięcia projektu oraz jego rolę w zapewnieniu przyszłej europejskiej doskonałości w zakresie badań naukowych. Słyszymy o tym, że big data stwarza nowe możliwości dla naukowców. Ale jakie są wyzwania z tym związane? W ostatnich latach Unia Europejska i jej państwa członkowskie poczyniły znaczne inwestycje w celu udostępnienia sieci rozproszonych i wysokowydajnych systemów obliczeniowych (HPC) naukowcom z różnych dziedzin. Wyzwanie polega na tym, że szybki wzrost ilości danych – dzięki nowym, potężnym instrumentom naukowym, symulacjom i digitalizacji istniejących zasobów – wymaga nowych sposobów organizacji i przetwarzania dostępnych informacji. Musimy wypracować bardziej spójne podejście do zarządzania danymi i o to właśnie chodzi w tym projekcie. Chcieliśmy połączyć centra danych, aby lepiej wspierać różne społeczności naukowe. Czy może Pan podać kilka konkretnych przykładów tych wyzwań? W nauce o Ziemi gromadzone dane obejmują zarówno dane w czasie rzeczywistym, jak i dane offline (takie jak zdjęcia, filmy wideo i zorganizowane struktury danych przechowywane w bazach danych). Te różne rodzaje danych mają różne wymagania techniczne w zakresie dostępu do nich i ich przechowywania. W społeczności biomedycznej kluczowym wyzwaniem jest zapewnienie dostępu do danych przy jednoczesnym zachowaniu wymogów prawnych dotyczących anonimowości pacjentów i poufności. Wszystkie dziedziny badań, w tym nauki społeczne i humanistyczne, stoją przed wyzwaniami związanymi z zarządzaniem kopiami danych i dostępem do tych danych w środowisku wielu użytkowników. Jaką rolę odegrali w tym projekcie badacze? Od samego początku środowiska naukowe odgrywają wiodącą rolę w wyborze usług w zakresie danych. Uczestniczą oni również bezpośrednio w projektowaniu i rozwijaniu tych usług za pośrednictwem wielodyscyplinarnych zespołów. Projekt zgromadził ponad 50 środowisk badawczych z różnych dziedzin, z których każde wniosło specyficzne wymagania i wiedzę. Wymogi te obejmowały zarówno konieczność powielania danych w celu zapewnienia ich większej dostępności i bezpieczeństwa danych szczególnie chronionych, jak i możliwość wymiany danych poza pierwotnym środowiskiem. Nowsze środowiska naukowe często jeszcze projektują swoje podstawowe procesy przepływu danych i są zainteresowane testowaniem różnych rozwiązań, zanim będą mogły się zaangażować. Bardziej dojrzałe społeczności zazwyczaj dysponują istniejącą infrastrukturą roboczą. Tam, gdzie było to możliwe, postrzegaliśmy istniejące usługi jako punkt wyjścia i staraliśmy się je wspierać, zapewniając społecznościom możliwość skalowania środowiska obliczeniowego i pamięci masowej przy użyciu infrastruktury CDI. Oznaczało to rozważenie społeczności naukowych jako dostawców usług, a nie tylko klientów. W jaki sposób projekt przyniesie korzyści naukowcom? Społeczności naukowe zaangażowane w projekt mogły planować, wdrażać i korzystać z usług zarządzania danymi w skali ogólnoeuropejskiej. Dziedziny nauki objęły nauki społeczne i humanistyczne, nauki o Ziemi i o atmosferze, nauki o klimacie, bioróżnorodność, nauki o życiu i fizykę. W przeszłości, gdy potrzebowałem dostępu do systemu pamięci masowej, w którym mogłem również analizować swoje dane, mogłem porozmawiać z lokalnym centrum danych/obliczeniowym. Dotyczyłoby to jednak tylko użytkowników lokalnych z tego samego kraju. Przenoszenie danych za granicę lub dzielenie się danymi i narzędziami z kolegami z zagranicy często wymagało każdorazowo rozwiązania dostosowanego do indywidualnych potrzeb, którego po prostu nie da się skalować. To trwałe partnerstwo, w którym wszyscy partnerzy podzielają wspólną wizję, otworzyło dostęp do narzędzi danych na poziomie europejskim i umożliwia znacznie szybsze uruchamianie współpracy europejskiej. Dzięki projektowi dostawcy usług w zakresie przechowywania i zarządzania danymi stali się o wiele bardziej świadomi potrzeb środowisk naukowych. Obejmuje to ich wymagania w zakresie zarządzania danymi, jak również sposób organizacji ich poszczególnych infrastruktur badawczych, na przykład, czy decydują się na świadczenie własnych usług zarządzania danymi, czy też korzystają z istniejących wcześniej usług, które wymagają specjalnych dostosowań. Jakie były kluczowe czynniki decydujące o sukcesie projektu? Osiągnięcia te były możliwe dzięki hojnie finansowanemu projektowi unijnemu oraz dzięki grupie zaangażowanych partnerów. Wykorzystując dotychczasowe doświadczenia z projektu i współpracując, udało nam się stworzyć unikalną kulturę otwartej wymiany wiedzy i współpracy. Stworzyliśmy EUDAT CDI jako sposób na zachowanie i kontynuację tego dziedzictwa. W jaki sposób to dziedzictwo zostanie zabezpieczone? W ostatnim roku realizacji projektu koncentrowaliśmy się na przejściu od bazy projektowej do zbudowania trwałej organizacji. Partnerzy EUDAT zobowiązali się do utrzymania CDI i jej usług przez początkowy okres 10 lat. Utworzyliśmy również sekretariat koordynujący rozwój i obsługę infrastruktury CDI, a w lutym 2018 r. formalnie utworzono spółkę z ograniczoną odpowiedzialnością. Będzie ona działać na zasadzie non-profit jako głos organizacji europejskich współpracujących w ramach EUDAT CDI i świadczących usługi związane z przechowywaniem danych naukowych i badawczych oraz zarządzaniem cyklem życia. Jeżeli chodzi o dalszą perspektywę, EUDAT CDI jest rozwijającą się organizacją opartą na umowie między jej członkami. Jest to jeden z głównych filarów europejskiej otwartej chmury naukowej, chmury danych badawczych w Europie. CDI jest otwartym przedsiębiorstwem i z chętnie przyjmuje usługodawców chcących przyłączyć się do sieci na różnych poziomach zaangażowania i integracji.
Kraje
Finlandia