Riunire database operativi e analitici in un’unica piattaforma
Un’iniziativa promossa dalla Spagna mira a incentivare le aziende a sfruttare ulteriormente i propri database di megadati attraverso l’utilizzo di un minor numero di risorse. LEANBIGDATA ha sviluppato una piattaforma per la gestione dei megadati estremamente efficiente e altamente scalabile. Aziende e organizzazioni di grandi dimensioni elaborano quantità di dati in continua crescita. Tuttavia, queste operazioni si basano sull’adozione di tecniche spesso inefficienti e che implicano un enorme quantitativo di risorse. Le organizzazioni utilizzano tipicamente due database, uno per la parte operativa e uno per l’archiviazione dei dati. Ai fini dell’analisi, i dati devono essere copiati dal primo al secondo e, data la loro tendenza a diventare obsoleti con una certa rapidità, tale operazione deve essere eseguita regolarmente, solitamente con cadenza quotidiana. Tale processo, che prende il nome di “estrazione-trasformazione-caricamento” (Extraction-Transform-Load, ETL) richiede molte risorse economiche per le operazioni di configurazione e di manutenzione. “L’ETL rappresenta il 75-80 % del costo delle analisi dei dati,” dice Ricardo Jiménez, coordinatore tecnico di LEANBIGDATA e direttore generale e co-fondatore di LeanXcale, una spin-off che si occupa della commercializzazione dei principali risultati dell’iniziativa. Per di più, l’esecuzione delle analisi dei megadati tende ad avvenire in modalità batch anziché in tempo reale, impedendo di conseguenza agli utenti di reagire prontamente agli eventi. Due al prezzo di uno Il team LEANBIGDATA ha progettato un’unica architettura in grado di offrire nel contempo capacità operative e analitiche, garantendo, in tal modo, un significativo aumento del livello di efficienza. È stato creato un sistema di gestione transazionale in grado di adattarsi in maniera lineare a volumi estremamente ampi e di consentire, conseguentemente, alla parte operativa del database di sostenere il carico analitico. I ricercatori hanno ideato tre nuovi sistemi di gestione. Il primo consiste in un archivio di dati fondamentali, una sorta di tecnologia NoSQL destinata all’immagazzinamento di dati ricavati da database combinati. Il secondo, che offre un sistema di elaborazione di eventi complessi, consente agli utenti di usufruire di flussi di dati ricavati da eventi in tempo reale. Il terzo rappresenta un motore di ricerca SQL distribuito che consente a computer multipli di gestire una singola interrogazione (“query”). “In altre parole, il sistema ci aiuta a rispondere a una query in base ai tempi di risposta online, vale a dire i tempi a cui è abituato un tipico utente della rete”, afferma il dott. Jiménez. La tecnologia è stata testata attraverso la conduzione di una serie di studi di casi, basati sull’analisi dei sentimenti degli elettori durante le elezioni statunitensi e spagnole attraverso l’osservazione in tempo reale dei tweet. L’esame di questi dati ha consentito agli analisti non solo di monitorare l’evoluzione dei sentimenti, ma anche di scoprire ciò che si nascondeva dietro queste sensazioni, osservando attentamente le parole utilizzate con maggiore frequenza. “Quando è scoppiato lo scandalo delle e-mail, il sistema ci ha consentito di avere una chiara indicazione del numero di tweet che riguardavano la reputazione della Clinton – spiega il dott. Jiménez –, il nostro obiettivo in quella occasione non consisteva nel prevedere i risultati ma nel fornire informazioni utili agli analisti.” Una seconda prova condotta in Italia ha analizzato la presenza degli utenti sui social media per delineare i profili dei clienti e aiutare le banche a identificare casi di furti di identità. Analisi dei dati aziendali in tempo reale Il team LEANBIGDATA crede fermamente nella capacità della piattaforma unificata di soddisfare i bisogni diversificati delle grandi organizzazioni relativamente alla gestione dei dati. Il sistema è in grado di dimezzare i costi sostenuti per l’analisi dei dati senza la necessità di eseguire operazioni di configurazione e di manutenzione dell’ETL. “La possibilità di eseguire analisi di dati in tempo reale consente alle aziende di acquisire un certo livello di dinamicità,” afferma il dott. Jiménez. Secondo le previsioni, il lancio commerciale della piattaforma LeanXcale, creata dalla principale istituzione coinvolta nel progetto LEANBIGDATA, vale a dire l’Università tecnica di Madrid, avverrà nell’autunno del 2017. È già in corso lo sviluppo di prove di concetto con la collaborazione di banche, aziende specializzate nel campo delle telecomunicazioni e delle tecnologie per il settore dei viaggi e grande distribuzione.
Parole chiave
LEANBIGDATA, database SQL, gestione dei megadati, megadati, archivio di dati fondamentali, elaborazione di eventi complessi, database operativo, magazzino dati, analisi in tempo reale