Avances en la minería de datos biomédicos

«Estamos pasando de una economía caracterizada por la escasez de datos a una economía de la abundancia que va a revolucionar los servicios sanitarios», según Mike Olson, una autoridad en el sector del Internet de las Cosas. Conforme a esta predicción, un equipo de investigadores financiado por la Unión Europea ha registrado importantes avances en el ámbito de la extracción de información contextual útil de grandes volúmenes de datos biomédicos.

Economía digital

Pubmed, por ejemplo, recoge información sobre más de veintiún millones de publicaciones científicas y recibe más de dos mil entradas nuevas cada día. El proyecto BIOLITCONTEXTMINING (Contextual text mining from the biomedical scientific literature) diseñó métodos basados en el procesamiento de lenguajes naturales y el aprendizaje automático para ayudar a extraer eficazmente información pertinente. Los investigadores desarrollaron la minería de textos biomédicos gracias a nuevos métodos de extracción de relaciones y de información contextual local y no local y al descubrimiento de conocimientos. La herramienta Interaction Network Ontology (INO), creada por el consorcio, recoge y clasifica más de ochocientas palabras clave descriptivas de interacciones y contempla tipos complejos de interacciones. Aplicando INO a la minería de datos científicos es posible definir y clasificar las interacciones entre los genes del hospedador y los de bacterias del género Brucella. Una técnica de extracción de relaciones e información contextual local permite identificar interacciones entre regiones del cerebro. Otra de las principales aportaciones del equipo consiste en un conjunto de métodos de identificación de contextos no locales importantes, como las técnicas experimentales empleadas para detectar interacciones entre proteínas en el texto íntegro de artículos. Para caracterizar los mecanismos bacterianos de interacción a nivel molecular es esencial conocer su localización dentro de su entorno natural. Sorprendentemente, no existe ninguna base de datos exhaustiva que recoja este tipo de información, a pesar de la extensa literatura sobre ecología bacteriana. Los investigadores desarrollaron métodos ontológicos para obtener información contextual sobre las bacterias, como su hábitat. A fin de facilitar el acceso a la información biomédica contextual, los socios participaron en el desarrollo de dos plataformas en línea: IGNET y PHISTO. Ayudándose de una metodología de descubrimiento de conocimientos integrada en IGNET, lograron identificar redes de interacciones entre genes asociados a la fiebre y a las vacunas en un estudio de caso. Asimismo, se registraron importantes avances en lo que respecta a los sistemas de análisis predictivo de interacciones gen-gen y fármaco-diana. Las innovadoras herramientas de minería de textos creadas por BIOLITCONTEXTMINING contribuirán a varios ámbitos biomédicos, como la biología experimental, la bioinformática y la biología de sistemas. Los resultados del proyecto se han publicado en ocho revistas con comité de lectura y también en seis ponencias revisadas inter pares para congresos y seminarios, a lo que hay que añadir varios artículos que se encuentran pendientes de publicación en distintas revistas.

Palabras clave

Minería de textos biomédicos, información contextual, publicaciones, BIOLITCONTEXTMINING, procesamiento de lenguajes naturales, aprendizaje automático