Dai dati alla conoscenza
Forse "esplosione di dati" è la caratteristica più tipica della scienza all'inizio del terzo millennio. Dalla fisica delle particelle alla biologia molecolare, dalla neurologia all'astronomia, quasi tutte le scienze sperimentali stanno assistendo a un aumento senza precedenti della quantità e della complessità dei dati disponibili. All'interno di questi database vi è una grande quantità di conoscenze scientifiche accumulate tramite strumentazioni sofisticate e tramite una tecnologia dell'informazione ancora più potente. Nell'ambito del progetto CINQ è stato adottato un approccio innovativo per analizzare un volume di dati così vasto, che non costituisce informazioni di per sé e non consente nessun tipo di gestione facile. Per supportare il processo di scoperta di conoscenza, gli algoritmi intelligenti di data mining sono stati sviluppati per estrarre artefatti di conoscenza fornendo una rappresentazione compatta e semanticamente ricca di dati grezzi eterogenei. Per ottenere un'integrazione maggiore tra dati e artefatti di conoscenza che trattengono i dati, i partner del progetto CINQ hanno utilizzato il concetto dei database induttivi. Nei database induttivi, le interrogazioni ordinarie si possono usare per accedere e manipolare i dati, mentre le interrogazioni induttive consentono l'estrazione di modelli come gli elementi che compaiono insieme di frequente e le regole di associazione. La scoperta di conoscenza nei database induttivi diventa quindi un processo di interrogazione esteso, che gli analisti possono controllare specificando i dati o i modelli di interesse. La scoperta del linguaggio di interrogazione appropriato era uno degli obiettivi del progetto CINQ, obiettivo che si sta cercando di raggiungere con l'attuale progetto IQ, finanziato dal Sesto programma quadro. Anche se molti sforzi sono stati dedicati all'applicazione di interrogazioni modello per estrarre le informazioni disponibili nelle pagine web, le sfide scientifiche nella genomica funzionale hanno ricevuto l'attenzione del progetto CINQ. La maggior parte delle tecniche di analisi dei dati dell'espressione genica si basano su algoritmi di aggregazione che cercano di stabilire gruppi di geni la cui espressione è correlata in diverse situazioni biologiche. Dato che la loro validità biologica si può mettere in discussione, sono stati proposti algoritmi esplorativi di data mining che cercano regole descrittive nei dati raccolti dall'analisi seriale dell'espressione genica (SAGE) o dai microarray a DNA.