Navigare le rapide delle opportunità offerte dai flussi di megadati
Di solito le tecnologie per l’elaborazione dei megadati sono concepite per trattare dati di produzione umana derivati da sistemi basati sul web, come ad esempio Facebook. Di conseguenza, l’approccio standard è quello di creare batch di dati attraverso sistemi di archiviazione distribuiti. Tuttavia, con le tecnologie intelligenti, come ad esempio la comunicazione car-to-car, il volume di dati generati dalle interazioni M2M (Machine-to-Machine) supera ampiamente quello prodotto dalle persone. Occorre un nuovo approccio con scalabilità globale, velocità, fruibilità da non esperti e in grado di svolgere compiti analitici complessi in tempo reale attraverso fonti di dati distribuite. Il progetto FERARI, finanziato dall’UE, è stato avviato per fornire un tale sistema adatto allo scopo. Sviluppare un’architettura potente, modulare ed elastica. Una delle maggiori sfide dell’elaborazione dei dati M2M è la generazione continua di enormi flussi di dati, impedendone l’archiviazione. Ciò significa che i dati in transito vengono spesso elaborati in tempo reale, senza essere archiviati. Persino se i dati venissero inviati a un sito centrale (o a un sistema cloud), si creerebbero comunque delle strozzature lungo la rete, producendo ulteriori costi e ritardi. Questi ostacoli potrebbero complicarsi ulteriormente con l’aumento di sensori locali per la raccolta dei dati. La soluzione proposta dal progetto era di suddividere il suo approccio in una serie di obiettivi correlati. In primo luogo, di seguire l’“elaborazione In-Situ” che il coordinatore del progetto, il dott. Michael Mock, descrive come “l’elaborazione dei flussi di dati che avviene in prossimità del sito dove i dati sono prodotti, quindi evitando congestioni di rete e ritardi.” Insieme a questo, il progetto ha adottato l’elaborazione dell’evento complessa (Complex Event Processing, CEP). Attraverso il collegamento di dati provenienti da fonti multiple sono stati rilevati schemi che hanno consentito l’identificazione di situazioni predeterminate (eventi), che poi producevano un’immediata risposta programmata. La combinazione di questi due elementi – la tecnologia CEP e l’elaborazione in situ – è stata una delle maggiori difficoltà del progetto. Come spiega il dott. Mock, “La tecnologia CEP esistente non è adatta per i sistemi distribuiti di megadati, in quanto è concepita per l’utilizzo su computer singoli e di solito molto potenti.” Il progetto ha quindi proposto di usare il motore CEP (elaborazione con Proton - PROactive Technology Online di IBM) sulla piattaforma di flussi di megadati Apache Storm. Inoltre, ha sviluppato un Query Planner che ha ottimizzato il motore CEP, consentendogli di tradurre una singola “espressione” CEP globale in una serie di espressioni CEP che possono essere distribuite in tutto il sistema FERARI per la valutazione. Per permettere la flessibilità, l’architettura FERARI è modulare, con componenti strutturali separati dalla sottostante piattaforma di flussi di megadati. La struttura può quindi essere adattata a qualsiasi tipo di piattaforma. Dagli scenari di prova all’apprendimento automatico L’approccio di FERARI è stato applicato in due scenari di prova impegnativi: l’analisi delle frodi relative ai telefoni cellulari nelle reti di telecomunicazione e il monitoraggio sanitario in tempo reale nei cloud e nei grandi centri di elaborazione dati. Il dott. Mock conclude: “Siamo riusciti a valutare gli scenari usando dati reali. Ad esempio, abbiamo mostrato su registri telefonici anonimizzati – forniti dal partner del progetto HT Croatian Telekom – che il rilevamento delle frodi con il sistema FERARI è possibile con un ritardo inferiore al secondo.” Egli continua: “Questi risultati permetteranno all’industria europea di creare prodotti interessanti in vari campi di applicazione in cui è fondamentale la valutazione e il monitoraggio di enormi quantità di dati prodotti in continuità, come ad esempio per l’internet delle cose o per industria 4.0.” La struttura FERARI è resa disponibile come open source, con contenitori di docker software per agevolarne l’installazione su qualsiasi macchina, dai personal computer fino ai cluster o ai sistemi cloud, consentendo alle comunità scientifiche e industriali di esplorarla e usarla. Il team ha anche messo a disposizione una guida che ne spiega l’intallazione e l’utilizzo, nonché un istruttivo esempio di esecuzione. Nonostante la superiorità di questo sistema rispetto ad altre tecnologie, esso richiede ancora l’intervento manuale di esperti per creare le regole algoritmiche. Guardando al futuro, il dott. Mock dichiara che “Un altro passo in avanti sarebbe quello di imparare le regole pertinenti tramite tecniche di apprendimento automatico dai dati. In modo simile, per configurare i metodi di elaborazione in situ. È a questo che ora vogliamo dedicare tutte le nostre energie.”
Parole chiave
FERARI, flussi di megadati, tecnologia intelligente, sistemi distribuiti, internet delle cose, industria 4.0, grande volume di dati