Poruszanie się po możliwościach strumieniowania dużych zbiorów danych
Technologie przetwarzania big data są zwykle tworzone w celu reagowania na generowane przez ludzi dane pochodzące z systemów internetowych, takich jak Facebook. Standardową metodą jest przechowywanie danych w trybie wsadowym w rozproszonych systemach plików. Jednakże dzięki inteligentnym technologiom, takim jak komunikacja między samochodami, ilości danych generowanych przez interakcje Machine-to-Machine (M2M), znacznie przewyższają ilości danych generowanych przez ludzi. Istnieje potrzeba opracowania nowych metod zapewniających skalowalność na poziomie globalnym, szybkość, użyteczność dla osób niebędących ekspertami i możliwość realizacji złożonych zadań analitycznych w czasie rzeczywistym w odniesieniu do rozproszonych baz danych. Celem finansowanego przez UE projektu FERARI było zapewnienie odpowiedniego systemu dopasowanego do tych potrzeb. Tworzenie potężnej, modułowej i elastycznej architektury. Jednym z największych wyzwań dotyczących przetwarzania danych M2M jest ciągłe generowanie strumienia dużej ilości danych, co uniemożliwia ich przechowywanie. Oznacza to, że przejściowe dane są często przetwarzane „w locie” i nie są nigdzie przechowywane. Nawet jeśli dane mogłyby być wysyłane do centralnej lokalizacji (lub do systemu w chmurze), nadal występowałyby zatory w sieci (tzw. „wąskie gardła”), co zwiększyłoby koszty i opóźnienia. Te przeszkody mogą stać się jeszcze wyraźniejsze, ponieważ zwiększa się również wielkość lokalnych czujników służących do gromadzenia danych. W ramach projektu wyodrębniono szereg powiązanych celów. Pierwszym z nich było „przetwarzanie in situ”, określone przez koordynatora projektu, dra Michaela Mocka, jako „przetwarzanie strumienia danych, które odbywa się blisko miejsca generowania danych, dzięki czemu można uniknąć przeciążenia sieci i opóźnień”. W tym celu projekt przyjął metodę złożonego przetwarzania zdarzeń (Complex Event Processing, CEP). Zestawiając dane z wielu źródeł, wykryto wzorce, za pomocą których zidentyfikowano wstępnie określone sytuacje (zdarzenia), które następnie natychmiast wywołały zaprogramowane reakcje. Jednakże połączenie tych dwóch celów, technologii CEP z przetwarzaniem in situ, okazało się jednym z największych wyzwań projektu. „Istniejąca technologia CEP nie jest przystosowana do pracy na rozproszonych systemach big data, ale jest przeznaczona do użytku w przypadku pojedynczych, bardzo wydajnych komputerów” – wyjaśnia dr Mock. Rozwiązaniem było uruchomienie silnika CEP (przetwarzanie z wykorzystaniem technologii Proton – PROactive Technology Online firmy IBM) na platformie strumieniowania dużych zbiorów danych, Apache Storm. Ponadto stworzono optymalizator zapytań (Query Planner), który umożliwia przetworzenie przez silnik CEP pojedynczego, globalnego „wyrażenia” CEP na zestaw wyrażeń CEP, które można rozdystrybuować w całym systemie FERARI w celu oceny. Aby zapewnić elastyczność, architektura FERARI jest modułowa, a jej składniki są oddzielone od bazowej platformy strumieniowania dużych zbiorów danych. Dzięki temu konstrukcję można dopasować do każdej bazowej platformy. Od testowania scenariuszy do uczenia maszynowego Metoda FERARI została zastosowana w dwóch wymagających scenariuszach testowych: do analizy oszustw dotyczących telefonów komórkowych w sieciach telekomunikacyjnych oraz monitorowania stanu zdrowia w czasie rzeczywistym w chmurze i dużych centrach danych. „Scenariusze zostały pozytywnie ocenione na podstawie rzeczywistych danych” – podsumowuje dr Mock. „Po przeprowadzeniu testu z wykorzystaniem anonimowych rejestrów z telefonu komórkowego dostarczonych przez partnera projektu, operatora HT Croatian Telekom, wykazano, że dzięki systemowi FERARI można wykryć nadużycia w czasie krótszym niż sekunda. Osiągnięcia te umożliwią europejskiemu przemysłowi tworzenie wiodących produktów w różnych dziedzinach, w których istotne jest dokonywanie oceny i monitorowanie ogromnych ilości danych produkowanych w sposób ciągły, takich jak Internet rzeczy lub przemysł 4.0” – kontynuuje dr Mock. Ramowa metoda opracowana przez zespół FERARI została udostępniona jako otwarte oprogramowanie z dokerem umożliwiającym łatwą instalację na dowolnym urządzeniu, od komputera osobistego do klastra komputerowego lub chmury, dzięki czemu może być badana i wykorzystywana przez środowiska naukowe i biznesowe. Zespół opracował również przewodnik, w którym zamieszczono instrukcje dotyczące instalacji i użytkowania oraz przykładowe działanie. Pomimo przewagi tego systemu nad innymi technologiami, nadal opiera się on na ręcznym wprowadzaniu informacji przez ekspertów w tej dziedzinie w celu stworzenia zasad algorytmicznych. Dr Mock uważa, że „kolejnym krokiem byłoby wyodrębnienie z danych odpowiednich zasad za pomocą technik uczenia maszynowego oraz konfiguracja metod przetwarzania in situ. To właśnie tam chcemy skierować nasze działania”.
Słowa kluczowe
FERARI, strumienie big data, inteligentna technologia, systemy rozproszone, Internet rzeczy, przemysł 4.0, duża ilość danych