Una nuova tecnica contribuisce al controllo del diluvio di dati genomici
Il sequenziamento ad alto rendimento, una tecnica in grado di eseguire in parallelo milioni di processi di sequenziamento, rende possibile sequenziare l’intero genoma umano in circa un giorno. Questa tecnologia non ha solo tagliato i costi di sequenziamento ma ha anche avvicinato decisamente la possibilità della medicina personalizzata. La capacità di accedere al profilo molecolare e genetico unico di una persona potrebbe aiutare gli scienziati a prevedere le probabilità di contrarre una determinata malattia. Inoltre, potrebbe aiutare i medici a scegliere il trattamento migliore nel caso di sviluppo di una malattia. Ma il sequenziamento del genoma genera un’enorme quantità di dati. «Per il sequenziamento dell’intero genoma di un solo paziente, si parla di circa 3 miliardi di coppie di base. Se si vuole sequenziare una molecola per cercare alcune varianti, si dovrà farlo varie volte e così tale quantità finirà per essere di 30 volte superiore», afferma Jennifer Del Giudice, amministratrice delegata di Enancio e coordinatrice del progetto ORIGAMI, finanziato dall’UE.
Modalità di archiviazione dei dati
«Quindi la vera domanda è: come archiviare e trasferire questi dati personali sensibili? L’archiviazione potrebbe dover essere mantenuta per 10 o 15 anni. Si tratta di una grande opportunità per trattare la malattia in modo diverso, ma come si possono gestire le informazioni?» In base a un’idea di Guillaume Rizk, direttore tecnico dell’azienda, Enancio ha sviluppato un algoritmo chiamato Lena, concepito per servire il settore dei dati genomici, che offre una forte compressione senza perdite di dati. Lena dimostra un elevato rapporto di compressione, comprime ed estrae i dati velocemente e senza perdite di dati, oltre a richiedere minori risorse informatiche per l’esecuzione rispetto ad altre soluzioni presenti sul mercato. Tramite ORIGAMI, il team di Enancio ha testato le prestazioni di Lena per queste metriche nella versione più recente della piattaforma Illumina, il fornitore di sequenziamento ad alto rendimento più utilizzato al mondo. I risultati hanno dimostrato che Lena può ridurre di cinque volte la dimensione dei dati rispetto ai software di compressione dati attualmente utilizzati. Questo offre risparmi considerevoli in termini di tempo necessario per il trasferimento dei dati e di costi per la loro archiviazione.
Di cinque volte inferiore
«Chi già utilizza tecniche di compressione ridurrà un file da 500 GB a 100 GB. Con Lena è possibile ridurre di cinque volte le dimensioni, quindi fino a 20 GB, ma è anche possibile farlo tre volte più velocemente rispetto alle semplici tecniche di compressione», aggiunge Del Giudice. Lo studio di mercato di ORIGAMI ha consentito a Enancio di raggruppare in segmenti i potenziali clienti ed esaminare le possibili differenze nelle loro esigenze di compressione dei dati. Una spiccata esigenza è risultata quella di poter integrare la compressione nei processi esistenti in modo trasparente e senza interruzioni del flusso di lavoro. La domanda di sequenziamento è in crescita. Dal 2005 al 2015, i dati genomici sono cresciuti a un ritmo sorprendente, raddoppiando una volta ogni 7 mesi, in base a uno studio di «PLOS Biology», ed è prevista un’accelerazione di questo tasso di crescita. Enancio ha scoperto che molti utilizzatori di dati non hanno ancora raggiunto il punto di non ritorno, quello in cui i flussi di dati diventano ingestibili. «Il volume dei dati non rappresenta ancora un problema collettivo, ma lo sarà presto», osserva Del Giudice.
Parole chiave
ORIGAMI, compressione dei dati, compressione, dati genomici, genoma umano, sequenziamento, sequenziamento ad alto rendimento, medicina personalizzata