Platforma łącząca funkcje operacyjnej i analitycznej bazy danych
Celem realizowanego w Hiszpanii projektu jest umożliwienie firmom bardziej efektywnego korzystania ze zbiorów big data przy wykorzystaniu mniejszej ilości zasobów. Uczestnicy inicjatywy LEANBIGDATA stworzyli wysoce wydajną i skalowalną platformę służącą do zarządzania zbiorami big data. Duże firmy i organizacje przetwarzają coraz większe ilości danych. Jednak stosowane w tym celu metody często cechują się niską wydajnością i wymagają dużych nakładów finansowych. W obrębie przedsiębiorstw najczęściej używa się dwóch baz danych: jedną przechowującą dane operacyjne i jedną pełniącą funkcję hurtowni danych. W celu analizy zbiór danych musi zostać skopiowany z pierwszej bazy do drugiej, a ponieważ dane szybko stają się nieaktualne, konieczne jest regularne powtarzanie tej czynności – zazwyczaj codziennie. Zarówno stworzenie, jak i utrzymanie wspomnianego procesu, który znany jest pod nazwą ETL (Extraction-Transform-Load), generuje wysokie koszty. „Odpowiada on za 75% do 80% kosztów analizy danych” – twierdzi Ricardo Jiménez, koordynator techniczny projektu LEANBIGDATA oraz dyrektor generalny i współzałożyciel spółki spin-off o nazwie LeanXcale, której zadaniem jest komercjalizacja najważniejszych osiągnięć projektu. Co więcej, analiza zbiorów big data jest prowadzona w trybie wsadowym, a nie w czasie rzeczywistym, co uniemożliwia użytkownikom szybkie reagowanie na bieżące wydarzenia. Dwie w cenie jednej Zespół projektu LEANBIGDATA zaprojektował rozwiązanie strukturalne, które jest w stanie pełnić obie funkcje – operacyjną i analityczną – znacznie zwiększając tym samym wydajność procesu. Opracowano transakcyjny system zarządzania, który skalowany jest liniowo do bardzo dużych wartości, co pozwala operacyjnemu sektorowi bazy udźwignąć dużą ilość danych analitycznych. Powstały trzy nowe systemy zarządzania. Pierwszym jest magazyn danych klucz-wartość, rodzaj technologii NoSQL wykorzystywany w celu przechowywania danych bazy łączonej. Drugi z nich, system złożonego przetwarzania zdarzeń, pozwala użytkownikom przesyłać strumienie danych ze zdarzeń w czasie rzeczywistym. Z kolei trzeci system to rozproszony silnik zapytań SQL, który jest w stanie korzystać z wielu komputerów do obsługi pojedynczego zapytania. „Oznacza to, że możemy udzielać odpowiedzi w takim czasie oczekiwania, na jaki przygotowany jest typowy użytkownik online” – uważa dr Jiménez. Zespół przetestował opracowaną technologię w oparciu o studia przypadków. Objęły one badanie nastrojów wyborców podczas wyborów w Stanach Zjednoczonych i Hiszpanii poprzez analizę publikowanych przez nich tweetów w czasie rzeczywistym. Nie tylko pokazało to zmiany nastrojów wyborczych, lecz także pozwoliło analitykom dogłębniej im się przyjrzeć – przykładowo sprawdzając, które słowa były najczęściej używane. „Po wybuchu skandalu z pocztą elektroniczną można było wykorzystać nasz system w celu sprawdzenia, ile tweetów dotyczyło reputacji pani Clinton” – zauważa dr Jiménez. „Wprawdzie naszym celem nie było przewidywanie wyników wyborów, jednak zgromadzone informacje z pewnością okazałyby się przydatne dla analityków”. Podczas drugiego testu, który przeprowadzono we Włoszech, system wykorzystał aktywność osób w mediach społecznościowych, aby stworzyć profile klientów i pomóc bankom w wykrywaniu przypadków kradzieży tożsamości. Analityka biznesowa w czasie rzeczywistym Zespół biorący udział w projekcie LEANBIGDATA nie ma wątpliwości, że zintegrowana platforma stanowi odpowiedź na różnorodne potrzeby dużych firm w zakresie zbiorów danych. Mogłaby ona aż o połowę zmniejszyć koszty związane z analizą danych, znosząc konieczność stworzenia i utrzymania procesu ETL. „Dzięki możliwości prowadzenia analityki biznesowej w czasie rzeczywistym przedsiębiorstwa mogą osiągnąć dużo większą sprawność operacyjną” – uważa dr Jiménez. Spółka LeanXcale założona przez Uniwersytet Techniczny w Madrycie, który jest główną instytucją odpowiedzialną za projekt LEANBIGDATA, planuje komercyjny debiut rozwiązania jesienią 2017 roku. Już teraz opracowane koncepcje testowane są przy udziale banków, przedsiębiorstw telekomunikacyjnych, dużych sprzedawców detalicznych i zaawansowanych technologicznie firm z branży turystycznej.
Słowa kluczowe
LEANBIGDATA, bazy danych SQL, zarządzanie zbiorami big data, big data, magazyn danych klucz-wartość, złożone przetwarzanie zdarzeń, operacyjna baza danych, hurtownia danych, analiza w czasie rzeczywistym