Il Bio-text mining fa progressi
Il solo Pubmed vanta informazioni su più di 21 milioni di pubblicazioni scientifiche con oltre 2 000 nuove voci aggiunte ogni giorno. Il progetto BIOLITCONTEXTMINING (Contextual text mining from the biomedical scientific literature) ha riprogettato i metodi basati sull’elaborazione del linguaggio natural e l’apprendimento automatico per consentire agli scienziati di estrarre e usare efficacemente le informazioni pertinenti. I ricercatori del progetto hanno prodotto avanzamenti in fatto di bio-text mining mediante nuovi metodi relativi a estrazione di modelli di relazione, estrazione di informazioni in contesto locale e non locale e scoperta di conoscenze. Per esempio, l’Interaction Network Ontology (INO) raccoglie e classifica oltre 800 parole chiave di interazione e può riguardare anche tipi di interazione complessi. L’estrazione di informazioni in letteratura mediante INO aiuta a identificare e caratterizzare le interazioni tra ospiti e geni Brucella. Attraverso una tecnica per la relazione e l’estrazione di informazioni in contesto locale, è ora possibile identificare le relazioni tra regioni del cervello. In un ulteriore sviluppo chiave, i ricercatori hanno ottenuto dei metodi per identificare un importante contesto non locale, come per esempio i metodi sperimentali utilizzati per individuare le interazioni proteina-proteina all’interno di testi integrali. Per comprendere i meccanismi di interazione batterica a livello molecolare, la conoscenza della loro posizione ambiente naturale è di vitale importanza. Sorprendentemente, non esiste nessun database completo in grado di trasportare queste informazioni, nonostante l’abbondanza della letteratura sull’ecologia dei batteri. I ricercatori hanno sviluppato dei metodi di ontologia per ottenere informazioni sui batteri, in un contesto come il loro habitat. Per l’accesso alle informazioni biomediche contestuali, i membri del progetto hanno contribuito allo sviluppo di due sistemi web – IGNET e PHISTO. Insieme a un approccio improntato sulle nuove conoscenze integrato con IGNET, è stato possibile identificare la febbre e le reti di interazione dei geni associate ai vaccini, in un caso di studio. Progressi significativi sono stati svolti anche per quanto riguarda le metodologie relative all’analisi delle interazioni gene-gene e alla previsione dell’interazione farmaco-bersaglio. I nuovi strumenti di text mining del progetto BIOLITCONTEXTMINING produrranno avanzamenti in diverse aree biomediche, tra cui biologia sperimentale, bioinformatica e biologia dei sistemi. I risultati del progetto hanno portato a pubblicazioni in otto riviste specializzate, sei testi di conferenze, documenti per workshop, e alcuni articoli sono attualmente in fase di revisione.
Parole chiave
Bio-text mining, informazioni contestuali, pubblicazioni, BIOLITCONTEXTMINING, elaborazione del linguaggio naturale, apprendimento automatico