Ridurre le incertezze sui dati
Vari applicativi software gestiscono e prendono decisioni basandosi su una serie di dati caratterizzati da livelli di incertezza elevati. Diversamente da altre risorse, che sono in grado di sopperire a questa mancanza di precisione, tali strumenti risultano generalmente semplicistici e limitati. Il progetto HEISENDATA (“Heisendata - towards a next-generation uncertain-data management system”), finanziato dall’UE, è stato concepito allo scopo di potenziare tale aspetto. Il gruppo di esperti ha progettato e creato nuovi sistemi di basi di dati probabilistiche (PDBS) che integrano modelli statistici e ragionamenti di tipo probabilistico all’interno di strutture di database tradizionali. L’iniziativa intendeva sostenere questa nuova fusione attraverso la riprogettazione dei principali componenti di sistema. Il progetto HEISENDATA, della durata di quattro anni, si è concluso nel mese di febbraio del 2014. I lavori sono stati suddivisi in tre principali ambiti di attività: nuove sinossi di dati probabilistici finalizzate a un’ottimizzazione delle interrogazioni, nuovi algoritmi e architetture PDBS e algoritmi e strumenti scalabili. Il primo ambito di applicazione è stato incentrato sulla definizione e sulla creazione di algoritmi per la realizzazione di istogrammi. Quanto alle varie metriche di errore, i nuovi algoritmi sono stati in grado di costruire istogrammi ottimali o quasi ottimali e analisi wavelet. Sono stati inoltre introdotti istogrammi probabilistici in grado di offrire una rappresentazione più fedele del livello di incertezza dei dati. Il gruppo di lavoro si è anche interessato ai problemi legati ai testi non strutturati contenenti unità di informazioni strutturate, le cui soluzioni hanno condotto all’estensione di un importante modello di estrazione di informazioni (IE) attraverso lo sviluppo di due diversi approcci all’interrogazione dei database. Il livello di efficacia e di efficienza dei metodi proposti è stato messo a confronto mediante l’utilizzo di set di dati reali. Le ricerche sono sfociate nella definizione di una serie di regole per la scelta degli algoritmi di inferenza appropriati in varie condizioni, che hanno condotto a un aumento di ben dieci volte della velocità di interrogazione. Nell’ambito dell’iniziativa, è stata inoltre creata e convalidata un’infrastruttura che consente di adattare qualsiasi tipo di algoritmo di risoluzione di entità generiche. I lavori futuri prevedono l’integrazione dei metodi di estrazione delle informazioni in sistemi di elaborazione delle interrogazioni probabilistiche. Gli scienziati di HEISENDATA sono stati in grado di individuare e di integrare nelle basi di dati tradizionali nuovi metodi statistici finalizzati all’elaborazione di informazioni con livelli di incertezza elevati. Il progetto è stato di grande interesse per il mondo accademico e i settori commerciali.
Parole chiave
Incertezza dei dati, sistemi di dati, gestione dei dati, sistemi di basi di dati probabilistici