Najważniejsze wiadomości - Duże ilości danych do Państwa dyspozycji
Idea "otwartych danych" ('open data') bazuje na pełnej dostępności danych dla każdego użytkownika, z możliwością dzielenia się informacjami według życzenia, bez ograniczeń takich jak zastrzeżone znaki towarowe, patenty i inne mechanizmy kontroli. Ruch na rzecz otwartych danych, zainspirowany oprogramowaniem o otwartym kodzie źródłowym ('open source') oraz otwartym dostępem do publikacji akademickich, polega na swobodnym przepływie, wkorzystywaniu oraz elektronicznym rozpowszechnianiu danych. Istotnym elementem ruchu na rzecz "dużych danych" jest wykorzystanie, dla dobra ogółu społeczeństwa, nieosobistych informacji, którymi obywatele dzielą się z władzami państwowymi i dostawcami usług publicznych. Otwarte dane rządowe stanowią ogromny zasób, który jak dotychczas nie jest w pełni wykorzystywany. "Podczas wypełniania swych obowiązków władze państwowe gromadzą ogromne ilości danych o bardzo wysokiej jakości. Upublicznienie powyższych danych wiązałoby się z szeregiem potencjalnych korzyści", stwierdzono na portalu "Otwarte Dane Rządowe" ('Open Government Data' - OGD), prowadzonym przez Grupę Roboczą na rzecz Otwartych Władz Państwowych ('Open Government Working Group'). Jak twierdzi Rufus Pollock, członek Fundacji na rzecz Otwartej Wiedzy ('Open Knowledge Foundation'), otwarcie dostępu do danych pozwoli przedsiębiorstwom, obywatelom oraz organizacjom non-profi tworzyć użyteczne aplikacje i usługi, wspierać demokrację, a także promować zaangażowanie, transparentność i odpowiedzialność władz państwowych. "Dlaczego nie mielibyśmy udostępniać danych, które już posiadamy lub które obecnie gromadzimy?", mówi Pollock. Istnieje jednak szereg wyzwań, zarówno prawnych, jak i technicznych, społecznych oraz rynkowych, którym musimy stawić czoła zanim obywatele będą mogli czerpać liczne korzyści z dostępu do otwartych danych (rządowych). Tędy droga… Według raportów opracowanych na podstawie Zgromadzenia na rzecz Internetu Przyszłości ('Future Internet Assembly' - FIA), które odbyło się niedawno w Aalborg (Dania), "Inicjatywy takie jak "duże dane" ('big data') oraz "Internet przedmiotów" ('Internet of things' - IoT), w których występuje pojęcie "obywateli jako czujników" ilustrują sposób, w jaki obywatele/przedsiębiorcy/innowatorzy mogą tworzyć nowe usługi i aplikacje, z korzyścią dla mieszkańców inteligentnych miast". Przedstawiciel FIA Reinhard Scholl, członek Międzynarodowego Związku Telekomunikacyjnego ('International Telecommunication Union' - ITU) jako przykłady podał Inicjatywę na rzecz Otwartych Danych ('Open Data Initiative'), realizowaną w Nowym Jorku, program Inteligentne Miasta ('Smart Cities'), prowadzony w Amsterdamie, realizowane w Katalonii działanie Otwarte Dane Gencat ('Open Data Gencat'), a także odbywający się pod egidą Komisji Europejskiej konkurs Otwarte Miasta ('Open Cities'). Według Scholla wśród najlepszych przykładów z USA należy wymienić realizowany przez MIT eksperyment "Śledzenie Odpadów" ('Track Trash'), w którym zastosowano czujniki pozwalające śledzić odpady aż do ich miejsca docelowego. Z kolei wdrożona w Oakland, oparta na danych, usługa o nazwie "wykrywanie zbrodni" ('crime spotting') pozwoliła, jak twierdzi Scholl, zwiększyć poziom bezpieczeństwa w tym mieście. Według stworzonej przez Komisję Europejską organizacji DG Connect, informacje pochodzące z sektora publicznego ('public-sector information' - PSI) stanowią największe pojedyncze źródło informacji w Europie, obejmując mapy cyfrowe, a także, między innymi, dane meteorologiczne, prawne, finansowe, gospodarcze oraz dane na temat ruchu drogowego. Większość powyższych danych nadaje się do ponownego wykorzystania lub do zastosowania w nowych produktach i usługach używanych na co dzień, takich jak samochodowe systemy nawigacji, prognozowanie pogody oraz usługi finansowe i ubezpieczeniowe. "Ponowne wykorzystanie informacji pochodzących z sektora publicznego polega na znajdowaniu nowych zastosowań dla tych informacji i nadawaniu im nowej wartości, łączenie informacji pochodzących z różnych źródeł, mieszanie ich oraz tworzenie nowych aplikacji przeznaczonych zarówno dla celów komercyjnych, jak i niekomercyjnych. Informacje pochodzące z sektora publicznego mają ogromny potencjał gospodarczy", tłumaczy Komisja Europejska na stronie poświęconej PSI . Europejskie badania naukowe - dostosowywanie się do zmian Krajobraz badań naukowych uległ zmianie, dostosowując się do szybkiego tempa ewolucji sposobów gromadzenia danych, przetwarzania ich oraz posługiwania się nimi. Przykładowo, projekty finansowane w ramach działania "Technologie zarządzania informacjami" ('Technologies for information management'), będącego częścią Siódmego Programu Ramowego UE (7PR), podobnie jak działania z zakresu "Treści i wiedzy" ('Content and knowledge') dotyczyły wielu dziedzin nauki, obejmując zagadnienia takie jak treści internetowe, media społeczne i interaktywne, wnioskowanie i wykorzystywanie informacji, a także odkrywanie wiedzy i zarządzanie nią. Uczestnicy finansowanego przez UE projektu "Nowa, kolektywna inteligencja, opracowywana z myślą o pojedynczych obywatelach, organizacjach i społeczeństwie" ('Emerging, collective intelligence for personal, organisational and social use' Weknowit) stworzyli platformę, która przemienia ogromne ilości danych generowanych przez użytkowników (tak zwany "nadmiar informacji" - 'information overload') w "kolektywną inteligencję" ('collective intelligence'), posiadającą szeroką gamę zastosowań, począwszy od reagowania w sytuacjach kryzysowych, aż po wspieranie turystyki miejskiej. Efektem prac projektowych jest kilka wniosków patentowych oraz szereg produktów i wyników, które znajdą zastosowanie komercyjne lub publiczne. "W oparciu o szeroką gamę narzędzi platforma Weknowit przemienia ogromne ilości informacji pozbawionych struktury w zbiory tematyczne, elementy, interesujące obiekty, powiązania społeczne oraz zdarzenia", twierdzi koordynator projektu Yiannis Kompatsiaris, pracownik Instytutu Informatyki i Telematyki ('Informatics and Telematics Institute' - CERTH-ITI), będącego częścią greckiego Laboratorium Wiedzy Multimedialnej ('Multimedia Knowledge Lab'). By osiągnąć powyższy cel uczestnicy projektu stworzyli oprogramowanie pośredniczące ('middleware'), które można uruchamiać na serwerze, w celu skutecznego przetwarzania i trasowania danych wejściowych. Zespół projektowy opracował ponadto szereg narzędzi bazujących na studiach przypadku badanych podczas projektu, obejmujących scenariusz działań ratunkowych oraz scenariusz dotyczący grup społecznych, natomiast partnerzy projektu stworzyli zestaw dodatkowych narzędzi, pozwalających realizować konkretne zadania. Tymczasem CERTH-ITI, Yahoo! oraz Uniwersytet w Koblenz badają aspekty przetwarzania w czasie rzeczywistym w kontekście ekstrakcji informacji z sieci społecznościowych, a także analizują potencjalne zastosowania dla poczynionych przez siebie odkryć w branży informacyjnej oraz podczas dużych wydarzeń, takich jak festiwale filmowe. Otwarte dane również dla naukowców Dzięki postępom w dziedzinie chmur obliczeniowych ('cloud computing') i przetwarzaniu sieciowym ('grid computing') oraz dzięki rozwojowi superkomputerów, lepsze wykorzystanie ustrukturyzowanych danych przyniesie bezpośrednie korzyści także badaniom naukowym. Dzięki europejskim inwestycjom w e-infrastrukturę, która wykorzystuje "niezagospodarowane" zasoby komputerowe, rozproszone na całym świecie, naukowcy mogą przetwarzać i analizować większe zbiory danych, niż było to kiedykolwiek możliwe, odkrywając rozwiązania niektórych fundamentalnych problemów badawczych, począwszy od fizyki kwantowej, aż po modelowanie zmian klimatycznych. Przykładowo, biolodzy badający konkretny problem mogą stworzyć "wirtualne środowisko badawcze" ('virtual research environment' - VRE), pozwalające im współpracować za pośrednictwem sieci, przetwarzać informacje pochodzące na przykład ze źródła w Estonii i analizować je w oparciu o oprogramowanie służące do eksploracji danych ('data mining'), pochodzące np. z Portugalii. Idąc o krok dalej zespół zaangażowany w finansowany przez UE projekt o nazwie "Ekosystem infrastruktur dla celów naukowych" ('Data infrastructures ecosystem for science' D4Science-II) stworzył platformę wspierającą współpracę pomiędzy e-infrastrukturami w postaci ekosystemu e-infrastruktur, w którym dane oraz zasoby aplikacyjne i obliczeniowe, stanowiące część odrębnych e-infrastruktur mogą być współdzielone w sposób niezależny od lokalizacji, technologii, formatu, języka, protokołu czy też schematu przepływu danych. Ekosystem ten wykorzystano do wspierania VRE w tak urozmaiconych dziedzinach, jak fizyka wysokich energii, bioróżnorodności, łowiska oraz zasoby akwakultury. Powyższe prace pozwoliły otworzyć wrota do nowych obszarów badawczych, a obecnie wysiłki te są kontynuowane, w celu uwzględnienia nowych dziedzin wiedzy. Przykładowo, prace zrealizowane podczas projektu D4Science-II stanowiły wsparcie dla naukowców uczestniczących w projekcie Aquamaps, badających rozkład geograficzny gatunków żyjących w środowisku morskim. Inicjatywa Aquamaps pomaga naukowcom tworzyć powiązania pomiędzy mapami bioróżnorodności morskiej a danymi dotyczącymi połowów ryb, w celu uzyskania klarownego obrazu obszarów, na których zasoby rybne są najbardziej zagrożone. Jest to ogromne wyzwanie obliczeniowe, wymagające przetworzenia wielkiej ilości danych, którego realizacja jest możliwa wyłącznie dzięki wsparciu finansowemu ze strony UE w dziedzinie e-infrastruktur oraz dzięki otwartej polityce dostępu do danych, a także za sprawą inicjatyw badawczych. "Współpraca pomiędzy e-infrastrukturami otwiera całkowicie nowe możliwości oraz obszary badań. Umożliwia na przykład analizowanie danych naukowych w odniesieniu do statystyk ekonomicznych, w celu uzyskania całkowicie nowego, niedostępnego wcześniej obrazu", twierdzi Donatella Castelli, uczestnik projektu D4Science-II oraz pracownik Instytutu Informatyki i Technologii ('Institute of Information Science and Technology' - Alessandro Faedo), będącego częścią włoskiej Krajowej Rady Naukowej ('National Research Council'). Ogólnodostępne publikacje Chociaż organizacje publiczne udostępniają posiadane przez siebie dane naukowcom, ironia sytuacji polega na tym, że wyniki badań naukowych są często publikowane w niedostępnych i drogich czasopismach. Pragnąc wspierać otwarty dostęp do materiałów i publikowanie ich w Internecie, zwłaszcza opracowań powstałych dzięki publicznemu wsparciu finansowemu, Komisja Europejska narzuciła otwarty dostęp do nich w przypadku około 20% projektów realizowanych w ramach 7PR. Często jednak wyniki projektów publikowane są zarówno w kilku tradycyjnych czasopismach naukowych, jak i udostępniane są w darmowych periodykach, co skutkuje fragmentaryzacją wiedzy oraz utrudnia ocenę jakości danego projektu. Celem finansowanego przez UE projektu o nazwie "Infrastruktura otwartego dostępu do europejskich badań naukowych" ('Open access infrastructure for research in Europe' Openaire) jest przeciwdziałanie powyższej sytuacji i udostępnienie każdej osobie dowolnych materiałów. Uczestnicy inicjatywy Openaire szybko zdali sobie sprawę, że lepsze technologie jedynie częściowo pozwalają stawić czoła wyzwaniu, jakim jest fragmentacja danych: "Liczne projekty realizowane w ramach 7PR wspierają otwarty dostęp do informacji", twierdzi Natalia Manola, kierownik projektu Openaire, "promując ogólnodostępne publikacje, które pozwalają wnosić pełny wkład na rzecz europejskiej infrastruktury wiedzy". Dzięki projektom takim jak Openaire, czy jego następca Openaireplus, ogólnodostępne publikacje mogą pomóc wzmocnić europejską gospodarkę i wspierać innowacje, twierdzi Manola. Dla pracowników niewielkich firm lub nauczycieli prenumerata najlepszych czasopism naukowych może być zbyt droga, co oznacza, że cenne badania naukowe są dla nich niedostępne. "Ogólnodostępne publikacje sprawiają, że każdy może uzyskać dostęp do wiedzy i wykorzystywać ją w dowolny sposób - to najlepsza metoda czerpania możliwie największych korzyści z badań naukowych finansowanych ze środków publicznych", podsumowuje Manola. Idąc podobnym tropem międzynarodowa organizacja ds. badań naukowych CERN stanęła na czele finansowanego ze środków unijnych projektu o nazwie "Analiza ogólnodostępnego podejścia do publikacji naukowych" ('Study of open access publishing' SOAP), którego celem było odnalezienie trwałych modeli biznesowych, pozwalających promować publikacje akademickie. Uczestnicy projektu zaindeksowali ponad 4 000 czasopism, a następnie, po dokonaniu analizy, odkryli, że około 8% wszystkich opracowywanych na świecie każdego roku artykułów (czyli 120 000 z 1 500 000 sztuk) jest obecnie publikowana w ogólnodostępnej formie. Badacze stwierdzili, że "hybrydowy, otwarty model dostępu" ('hybrid open access model'), polegający na częściowej prenumeracie, jest najlepszym wyjściem, szczególnie w przypadku publikacji naukowo-badawczych. "Jeżeli uda nam się ulepszyć sprawdzone modele otwartego dostępu do informacji, to zarówno europejscy naukowcy, jak i obywatele całego świata, będą mogli czerpać korzyści z wymiany wiedzy i uzyskają dostęp do ogromnych ilości materiałów", zauważono w raporcie CORDIS, "Otwarty dostęp do ogromu badań naukowych" - 'Open access to mountains of research' na temat SOAP. Dane mówią same za siebie Chociaż udostępnianie danych będących własnością publiczną, łączenie zbiorów informacji oraz publikowanie wyników badań w ogólnodostępny sposób ma swoje zalety i przyczynia się do rozwoju nauki, dużo większym wyzwaniem jest czerpanie korzyści komercyjnych z ustrukturyzowanych informacji. Powyższe wyzwanie stanowi przedmiot badań realizowanych w ramach niektórych projektów finansowanych przez Unię Europejską. Przykładem może być unijny projekt o nazwie "Oparte na potrzebach komercyjnych, wzajemnie powiązane, otwarte ekosystemy danych w kontekście badań naukowych" ('Commercially empowered linked open data ecosystems in research', CODE), stanowiący prowadzoną przez przedsiębiorstwa MŚP inicjatywę, której celem jest zbadanie aspektów danych dotyczących treści cyfrowych oraz języków. "Wzajemnie powiązane, otwarte dane" ('Linked open data' - LOD) posiadają ogromny potencjał i mogą być kolejnym krokiem na drodze ewolucji Internetu, uważają uczestnicy projektu CODE. Jednak powyższy potencjał jest w dużej mierze zaprzepaszczany, ze względu na brak strategii w zakresie jego wykorzystania i komercjalizacji. Dlatego uczestnicy projektu CODE, który jest realizowany zaledwie od początku tego roku, pragną stworzyć trwały ekosystem, który pozwoli komercjalizować rozwiązania typu LOD. Ekosystem ten będzie bazował na łańcuchu wytwarzania wartości dodanej, obejmującym tradycyjne (np. dostawca i konsument) oraz nietradycyjne (np. analityk) role na rynku danych. Wstępne wyniki wyglądają obiecująco Zdając sobie sprawę z tego, że w coraz większym stopniu spędzamy życie w Internecie, naukowcy zaangażowani w finansowany przez UE projekt "Wspierane lingwistycznie mechanizmy agregacji semantycznej" ('Linguistically motivated semantic aggregation engines' Limosine) badają sposoby wykorzystania technologii wyszukiwania językowego i semantycznego, w celu poprawienia wrażeń płynących z korzystania z Internetu. Jak zauważyli uczestnicy projektu "gromadzone informacje dotyczą szerokiej gamy działań realizowanych przez ludzi, począwszy od nauki i faktów, aż po treści osobiste, opinie i trendy". Stworzony w ramach projektu Limosine wielojęzykowy, internetowy system wyszukiwania opinii być może sprawi, że Internet przemieni się ze środowiska, w którym wyszukiwanie oparte jest na dokumentach, w środowisko charakteryzujące się rozbudowaną agregacją semantyczną. Innymi słowy możliwe będzie szybsze uzyskiwanie bardziej precyzyjnych wyników wyszukiwania, dzięki bardziej inteligentnym narzędziom, które będą lepiej rozumiały czego szukamy, a nawet będą potrafiły to przewidywać. Przykładowo, wyszukując przy użyciu współczesnych narzędzi frazę "śniadanie dla psa" ('dog's breakfast') otrzymamy informacje na temat angielskiego idiomu lub kanadyjskiego teatru, podczas gdy osoba, dla której język angielski nie jest językiem ojczystym, może poszukiwać dosłownego znaczenia tego zwrotu, w celu zapewniania swojemu pupilowi zdrowej diety, niekoniecznie w postaci płatków śniadaniowych. Narzędzia służące do wyszukiwania semantycznego mogą nadać odpowiedni kontekst zapytaniu, w oparciu o wcześniejsze wyszukiwania lub w oparciu o zgromadzone uprzednio informacje. Tymczasem uczestnicy projektów pokroju LIVE+GOV łączą "wyczuwanie rzeczywistości, eksplorację oraz augmentację, w celu wspierania mobilnego dialogu pomiędzy obywatelami a władzami państwowymi" ('Reality sensing, mining and augmentation for mobile citizen-government dialogue'). W ramach projektu LIVE+GOV budowana jest platform o nazwie 'm-government', która pozwoli obywatelom wyrażać swe potrzeby za pośrednictwem mobilnych technologii wyczuwania, dostępnych w nowoczesnych smartfonach oraz w oparciu o istniejące rozwiązania z zakresu e-partycypacji. Usprawnianie europejskiej gospodarki Docelowo publiczne dane wytwarzane przez wszystkie europejskie organy administracyjne powinny być automatycznie możliwe do ponownego wykorzystania, wspierając innowacyjność i przedsiębiorczość, a tym samym umożliwiając opracowywanie nowych programów komputerowych i usług przeznaczonych dla urządzeń stacjonarnych i mobilnych. "Podobnie jak ropa naftowa uzyskała status czarnego złota, w dobie cyfryzacji dane stają się coraz cenniejsze i rośnie ich znaczenie", zauważyła w grudniu, podczas inauguracji Europejskiej Strategii ds. Otwartych Danych ('Open Data Strategy') Neelie Kroes, Vice Przewodnicząca Komisji Europejskiej odpowiedzialna za Strategię Cyfrową. Pakiet roboczy ds. otwartych danych ('open data package') stanowi podstawę Dyrektywy PSI, którą obecnie opracowuje Rada Europy oraz Parlament Europejski. Już teraz informacje pochodzące z sektora publicznego generują aktywność gospodarczą wycenianą na 32 miliardy euro rocznie. Nowy pakiet roboczy pozwoli ponad dwukrotnie zwiększyć tę wartość, do około 70 miliardów euro co, jak twierdzi Komisarz Kroes, "dostarczy naszej gospodarce bardzo potrzebny impuls". Neelie Kroes doceniła wysiłki Wielkiej Brytanii, Danii oraz Francji w zakresie inicjatyw na rzecz otwartego dostępu do danych, a także stwierdziła, że nowa strategia "radykalnie zmieni" podejście instytucji unijnych oraz większości europejskich organów państwowych do dzielenia się danymi. Komisarz Kroes zaapelowała do władz państwowych, by nie czekały, aż powyższy pakiet roboczy przemieni się w obowiązujące przepisy prawa. "Już teraz możecie udostępniać posiadane przez siebie dane, przyczyniając się do generowania zysków oraz tworzenia miejsc pracy, a także do oszczędności finansowych, dzięki usprawnieniowemu przepływowi informacji i procesowi podejmowania decyzji". Neelie Kroes zachęcała sektor prywatny do otwarcia dostępu do posiadanych przez siebie informacji, w celu umożliwienia powstawania nowych usług. "Dane to złoto… zacznijmy je wydobywać!", ponagliła. --- Wszystkie projekty opisane w niniejszym artykule sfinansowano w ramach Siódmego Programu Ramowego UE (7PR) lub w ramach innych inicjatyw europejskich. Użyteczne odnośniki: - Europa 2020 - FIA - Program 7PR TIK - Informacje na temat 7PR w bazie danych CORDIS - Strona internetowa portalu Europa, dotycząca informacji pochodzących z sektora publicznego - Otwarte dane rządowe - 'Open Government Data' - Otwarte dane NTC - 'NTC Open Data' - Inteligentne miasto Amsterdam - 'Amsterdam Smart City' - Otwarte dane Gencat - 'Open Data Gencat' - Otwarte miasta - 'Open Cities' - Społeczność naukowa - 'Science Commons' - Weknowit - CODE - Limosine - Openaire - SOAP - D4Science-II - LIVE+Gov Odnośne publikacje: - Eksploracja danych 3.0: od informacji po "inteligencję kolektywną" ('Data mining 3.0: from info to 'collective intelligence') - Otwarty dostęp: upublicznianie wyników projektów europejskich ('Open access: EU project results go public) - Otwarty dostęp do ogromu badań naukowych ('Open access to mountains of research') - Ochrona ekosystemów oferujących otwarty dostęp do danych oraz ekosystemów e-infrastruktur ('Saving ecosystems with open data and e-infrastructure ecosystems') - Dane to nowe złoto - 'Data is new gold', Przemówienie Komisarz Neelie Kroes na temat Strategii na rzecz Otwartych Danych - 'Open Data Strategy', Grudzień 2011