Il Bio-text mining fa progressi

“Stiamo passando da una economia con scarsità di dati, a un’economia di abbondanza, che sta per cambiare il volto della sanità” – Mike Olson, esperto di internet delle cose. In linea con queste previsioni, i ricercatori dell’UE hanno compiuto notevoli progressi nell’ottenere le informazioni contestuali desiderate da enormi blocchi di dati biomedici.

Economia digitale

Il solo Pubmed vanta informazioni su più di 21 milioni di pubblicazioni scientifiche con oltre 2 000 nuove voci aggiunte ogni giorno. Il progetto BIOLITCONTEXTMINING (Contextual text mining from the biomedical scientific literature) ha riprogettato i metodi basati sull’elaborazione del linguaggio natural e l’apprendimento automatico per consentire agli scienziati di estrarre e usare efficacemente le informazioni pertinenti. I ricercatori del progetto hanno prodotto avanzamenti in fatto di bio-text mining mediante nuovi metodi relativi a estrazione di modelli di relazione, estrazione di informazioni in contesto locale e non locale e scoperta di conoscenze. Per esempio, l’Interaction Network Ontology (INO) raccoglie e classifica oltre 800 parole chiave di interazione e può riguardare anche tipi di interazione complessi. L’estrazione di informazioni in letteratura mediante INO aiuta a identificare e caratterizzare le interazioni tra ospiti e geni Brucella. Attraverso una tecnica per la relazione e l’estrazione di informazioni in contesto locale, è ora possibile identificare le relazioni tra regioni del cervello. In un ulteriore sviluppo chiave, i ricercatori hanno ottenuto dei metodi per identificare un importante contesto non locale, come per esempio i metodi sperimentali utilizzati per individuare le interazioni proteina-proteina all’interno di testi integrali. Per comprendere i meccanismi di interazione batterica a livello molecolare, la conoscenza della loro posizione ambiente naturale è di vitale importanza. Sorprendentemente, non esiste nessun database completo in grado di trasportare queste informazioni, nonostante l’abbondanza della letteratura sull’ecologia dei batteri. I ricercatori hanno sviluppato dei metodi di ontologia per ottenere informazioni sui batteri, in un contesto come il loro habitat. Per l’accesso alle informazioni biomediche contestuali, i membri del progetto hanno contribuito allo sviluppo di due sistemi web – IGNET e PHISTO. Insieme a un approccio improntato sulle nuove conoscenze integrato con IGNET, è stato possibile identificare la febbre e le reti di interazione dei geni associate ai vaccini, in un caso di studio. Progressi significativi sono stati svolti anche per quanto riguarda le metodologie relative all’analisi delle interazioni gene-gene e alla previsione dell’interazione farmaco-bersaglio. I nuovi strumenti di text mining del progetto BIOLITCONTEXTMINING produrranno avanzamenti in diverse aree biomediche, tra cui biologia sperimentale, bioinformatica e biologia dei sistemi. I risultati del progetto hanno portato a pubblicazioni in otto riviste specializzate, sei testi di conferenze, documenti per workshop, e alcuni articoli sono attualmente in fase di revisione.