Postępy w eksploracji danych z publikacji biologicznych

"Pod względem danych przechodzimy obecnie z gospodarki o ograniczonej ilości danych ku gospodarce obfitości, która odmieni oblicze ochrony zdrowia" — Mike Olson, specjalista w dziedzinie internetu rzeczy. W kontekście tych przewidywań badacze europejscy poczynili znaczne postępy w pozyskiwaniu potrzebnych informacji kontekstowych z obszernych zbiorów danych biomedycznych.

Gospodarka cyfrowa

Sama tylko wyszukiwarka PubMed indeksuje obecnie ponad 21 milionów publikacji naukowych, a codziennie dodawanych jest przeszło 2000 nowych pozycji. W ramach projektu BIOLITCONTEXTMINING (Contextual text mining from the biomedical scientific literature) zaprojektowano metody umożliwiające naukowcom efektywne wyodrębnianie i wykorzystywanie potrzebnych informacji, stosując techniki przetwarzania języka naturalnego i uczenia maszynowego. Badacze zajęli się rozwijaniem nowoczesnych technik eksploracji danych tekstowych z publikacji biologicznych, opracowując nowe metody wyodrębniania relacji oraz informacji o kontekście lokalnym i nielokalnym, jak również odkrywania danych. Stworzono na przykład ontologię sieci interakcji (INO), która gromadzi i klasyfikuje ponad 800 słów kluczowych dotyczących interakcji, umożliwiając również przetwarzanie złożonych typów interakcji. Ekstrakcja danych z wykorzystaniem INO umożliwiła na przykład zidentyfikowanie i scharakteryzowanie interakcji między genami bakterii Brucella a genami ich nosicieli. Zastosowanie techniki wyodrębniania relacji i lokalnych informacji o kontekście pozwala obecnie identyfikować relacje między różnymi obszarami mózgu. Innym ważnym osiągnięciem było opracowanie metod identyfikowania w pełnych artykułach ważnego kontekstu nielokalnego, na przykład metod doświadczalnych użytych do wykrywania interakcji między białkami. Kluczowe znaczenie dla zrozumienia mechanizmów interakcji między bakteriami na poziomie komórkowym ma znajomość miejsc ich występowania w przyrodzie. Choć to zaskakujące, pomimo bogactwa piśmiennictwa poświęconego ekologii bakterii nie istnieje żadna zbiorcza baza danych mieszcząca takie informacje. Badacze opracowali metody ontologiczne umożliwiające pozyskiwanie informacji kontekstowych o bakteriach, na przykład o ich środowisku występowania. W zakresie dostępu do kontekstowych informacji biomedycznych partnerzy projektu uczestniczyli w rozwijaniu dwóch systemów internetowych: IGNET i PHISTO. Wykorzystując metodę odkrywania wiedzy zintegrowaną z systemem IGNET, udało się w ramach analizy przypadku zidentyfikować sieci interakcji genów powiązanych z gorączką i szczepionką. Poczyniono też znaczne postępy w metodologiach analizy interakcji między genami oraz prognozowania interakcji między lekiem a jego celem biologicznym. Nowatorskie narzędzia do ekstrakcji danych opracowane w ramach projektu BIOLITCONTEXTMINING wspomogą rozwój kilku obszarów biomedycyny, w tym biologii doświadczalnej, bioinformatyki i biologii systemowej. Wyniki projektu zaowocowały publikacjami w ośmiu czasopismach naukowych oraz sześcioma recenzowanymi artykułami z konferencji i warsztatów, a kilka artykułów do czasopism jest jeszcze recenzowanych.

Słowa kluczowe

Eksploracja danych tekstowych w publikacjach biologicznych, informacje kontekstowe, publikacje, BIOLITCONTEXTMINING, przetwarzanie języka naturalnego, uczenie maszynowe