L’analisi comparativa dei Big Link Data guadagna terreno nell’industria

Per rendere i «Big Linked Data», o megadati collegati, una soluzione industriale finanziabile dalle banche sono necessari idonei strumenti di analisi comparativa per garantire che le soluzioni sviluppate soddisfino i requisiti dei casi d’uso. Tali strumenti sono ora disponibili grazie al lavoro effettuato nell’ambito del progetto HOBBIT.

Economia digitale

Mai sentito parlare di dati collegati? Se la risposta è no, probabilmente avreste dovuto o lo farete ben presto. Proprio come i megadati sono un’evoluzione del data mining, i dati collegati sono un’evoluzione del web semantico che è esso stesso la pietra angolare del Web 3.0; un Internet dove tutte le informazioni sono categorizzate in modo tale che computer ed esseri umani sono resi uguali nella loro capacità di comprenderlo. In poche parole, i dati collegati consistono nell’usare la rete per collegare dati tra loro in relazione che prima non erano collegati. L’industria già utilizza i dati collegati, ma la loro integrazione con i megadati era stata finora ostacolata dal costo e dalla difficoltà di utilizzare questi ultimi in una catena del valore. I «megadati collegati» stanno fronteggiando gli ostacoli connessi alla carenza di implementazioni standardizzate di indicatori di prestazioni, che rende difficile decidere quale strumento utilizzare e quando farlo, e il fatto che alcune delle dimensioni dei megadati (velocità, volume, varietà, veridicità, valore) sono supportate inadeguatamente dagli strumenti esistenti. «Per esempio, la gestione di miliardi di triple RDF (nota del redattore: una serie di tre entità che codifica un’affermazione riguardo a dati semantici sotto forma di espressioni soggetto–predicato–oggetto, come “John Doe ama CORDIS”) è ancora un notevole problema in termini di volume», spiega il prof. dott. Axel Ngonga dell’Università di Paderborn e dell’Istituto di informatica applicata a Lipsia. «Inoltre, la differente semantica di streaming e la mancanza di scalabilità delle soluzioni esistenti rendono l’elaborazione del flusso semantico su larga scala piuttosto impegnativa (problema di velocità). Infine, gli attuali approcci di apprendimento per i dati strutturati spesso non si adattano alle grandi basi di conoscenza, rendendo difficile la localizzazione di intuizioni (valore)». Il prof. dott. Ngonga ha guidato un consorzio forte di nove elementi nell’ambito del progetto HOBBIT (Holistic Benchmarking of Big Linked Data) per affrontare questi problemi. Concentrandosi su Industria 4.0 gestione di dati geospaziali, città intelligenti e gestione IT, la squadra ha effettuato dei sondaggi con oltre 100 partecipanti, prima e durante il progetto, al fine di determinare le aree chiave per l’analisi comparativa dei dati collegati. «I nostri sondaggi suggeriscono che le famiglie di riferimento che abbiamo creato affrontano alcuni dei settori chiave di interesse per le aziende e i ricercatori europei», egli spiega. HOBBIT ha creato un totale di cinque famiglie per l’analisi comparativa al fine di valutare l’attuale software: estrazione, memorizzazione, versionamento e collegamento della conoscenza, apprendimento automatico e question-answering. Riguardo alla memorizzazione, hanno scoperto che alcune delle soluzioni che avevano le migliori prestazioni ottenevano in realtà questo rendimento perché i risultati che fornivano erano parzialmente incompleti. Questo elemento da solo prova che l’analisi comparativa di HOBBIT copre aspetti in precedenza non presi in considerazione, e che servono riferimenti ovunque nei dati collegati. Altre scoperte includono il fatto che sono ancora necessarie soluzioni facilmente distribuibili per l’estrazione della conoscenza; che il versionamento è supportato inadeguatamente e richiede uno standard; che le piattaforme per il question-answering aperte hanno ancora prestazioni scarse in natura; e che gli algoritmi per l’apprendimento automatico specifici per i dati collegati non adattano le proprie dimensioni in modo appropriato. In questo contesto, HOBBIT fornisce la prima analisi comparativa aperta, scalabile e FAIR (acronimo inglese per findable, achievable, interoperable and retrievable results, ovvero risultati trovabili, accessibili, interoperabili e riutilizzabili) per i dati collegati: «La piattaforma di HOBBIT rappresenta il primo riferimento generico scalabile per i megadati collegati. I suoi aspetti più innovativi includono: analisi comparativa distribuita di sistemi distribuiti; la sua natura portabile per l’analisi comparativa sia a livello locale che in ambienti distribuiti; un’installazione con comando unico sia a livello locale che su Amazon Web Services; il riutilizzo di standard per la massima interoperabilità e flessibilità; e interfacce chiaramente definite per un facile adattamento ad altri tipi di dati e casi d’uso», afferma il dott. Ngonga. La piattaforma è stata accolta con favore dall’industria, con circa 40 cloni che vengono creati ogni mese e alcuni partner industriali disponibili a prendere internamente i servizi di analisi comparativa per migliorare la qualità dei loro strumenti. Il progetto HOBBIT si concluderà a novembre, mentre un secondo giro di prove comparative è attualmente in corso di svolgimento. L’associazione creata nell’ambito del progetto poi subentrerà, fungendo da centro per l’analisi comparativa in Europa, supportando l’ulteriore sviluppo della piattaforma di HOBBIT e di simili strutture per l’analisi comparativa, e fornendo servizi di analisi comparativa ai soggetti interessati europei.