Bio-Textmining macht Fortschritte

„Wir bewegen uns von einer Datenmangelwirtschaft zu einer Überflusswirtschaft, die das Gesicht der Gesundheitsversorgung verändern wird“ - so Mike Olson. EU-Forscher haben beträchtliche Fortschritte bei der Gewinnung gewünschter kontextbezogener Informationen aus gewaltigen Mengen biomedizinischer Daten zu verzeichnen.

Digitale Wirtschaft

Pubmed alleine verfügt über Informationen aus mehr als 21 Millionen wissenschaftlichen Veröffentlichungen, denen täglich mehr als 2 000 Einträge hinzugefügt werden. Das Projekt BIOLITCONTEXTMINING (Contextual text mining from the biomedical scientific literature) hat auf Grundlage der natürlichen Sprachverarbeitung und des maschinellen Lernens Methoden entworfen, die es den Wissenschaftlern ermöglichen, auf effektive Weise relevante Informationen zu extrahieren und zu nutzen. Die Projektforscher erweiterten das dem neuesten Stand der Technik entsprechende Bio-Textmining um neue Methoden zur Relationsextraktion, Gewinnung lokaler und nichtlokaler Kontextinformationen und Wissensentdeckung. So sammelten und klassifizierten sie innerhalb ihrer Interaction Network Ontology (INO) mehr als 800 Interaktionsschlüsselwörter und können überdies komplexe Interaktionsarten abdecken. INO-basiertes Durchforsten von Literatur gibt Hilfestellung bei der Identifizierung und Charakterisierung der Interaktionen zwischen Host- und Brucella-Genen. Mittels eines Verfahrens zur Gewinnung von Informationen über Relationen und lokale Kontexte können sie nun die Zusammenhänge zwischen den Gehirnregionen ermitteln. Im Rahmen einer weiteren wichtigen Entwicklung erarbeiteten die Forscher Methoden zur Identifizierung wesentlicher nichtlokaler Kontexte wie etwa die experimentellen Methoden, die zum Herausfinden von Protein-Protein-Wechselwirkungen aus Volltextartikeln verwendet werden. Um die bakteriellen Wechselwirkungsmechanismen auf molekularer Ebene verstehen zu können, ist es hochwichtig, deren natürliche Umgebung zu kennen. Erstaunlicherweise gibt es trotz der Fülle an Literatur über Bakterienökologie keine umfassende Datenbank, die diese Informationen beinhaltet. Die Forscher entwickelten ontologiezentrierte Methoden, um Informationen im Zusammenhang mit Bakterien wie etwa über ihren Lebensraum zu erhalten. Für den Zugang zu kontextuellen biomedizinischen Informationen leisteten die Projektmitglieder Beiträge zur Entwicklung zweier internetgestützter Systeme – IGNET und PHISTO. Zusammen mit einem mit IGNET integrierten Wissensentdeckungsansatz gelang ihnen die Identifizierung von Fieber- und Impfstoff-assoziierten Geninteraktionsnetzwerken in einer Fallstudie. Signifikante Fortschritte wurden gleichermaßen in Bezug auf Methoden zur Analyse der Gen-Gen-Interaktion und zur Prognose der Wirkstoff-Ziel-Interaktion erreicht. Die neuen BIOLITCONTEXTMINING-Textmining-Werkzeuge werden dazu beitragen, mehrere biomedizinische Bereiche einschließlich der experimentellen Biologie, Bioinformatik und Systembiologie voranzubringen. Die Projektergebnisse führten zu Veröffentlichungen in acht von Experten begutachteten Zeitschriften sowie wissenschaftlichen Konferenz- und Workshopbeiträgen, wobei sich einige Zeitschriftenartikel derzeit in der Prüfung befinden.

Schlüsselbegriffe

Bio-Textmining, Kontextinformation, kontextbezogene Information, Publikationen, BIOLITCONTEXTMINING, natürliche Sprachverarbeitung, Maschinenlernen, maschinelles Lernen