Od danych do wiedzy
Być może „eksplozja danych” jest najbardziej charakterystyczną cechą nauki na początku trzeciego milenium. Od fizyki cząsteczkowej po biologię molekularną, od neurologii po astronomię, w prawie wszystkich naukach doświadczalnych następuje niespotykany do tej pory wzrost ilości i złożoności dostępnych danych. Bazy danych zawierają przeogromną ilość wiedzy naukowej, która jest gromadzona za pomocą wyrafinowanego sprzętu i coraz potężniejszych technologii informacyjnych. W ramach projektu CINQ zastosowano innowacyjne podejście do analizy tak dużej ilości danych, które same w sobie nie stanowią informacji i nie pozwalają na żaden rodzaj łatwego zarządzania. Aby wesprzeć proces odkrywania wiedzy, opracowano inteligentne algorytmy eksploracji danych (ang. data mining) w celu wyciągnięcia artefaktów wiedzy, zapewniając zwięzłą i bogatą semantycznie reprezentację niejednorodnych surowych danych. Szukając ściślejszej integracji między danymi i artefaktami wiedzy zawierającymi dane, partnerzy projektu CINQ zastosowali koncepcję indukcyjnych baz danych. W indukcyjnych bazach danych zwykłe zapytania mogłyby zostać zastosowane do uzyskania dostępu i manipulacji danymi, podczas gdy indukcyjne zapytania umożliwiły ekstrakcję wzorców, takich jak elementy często występujące razem i zasady powiązania. Dlatego odkrywanie wiedzy w indukcyjnych bazach danych staje się rozbudowanym procesem odpytywania, który analityk może kontrolować, określając pożądane dane lub wzorce. Poszukiwanie odpowiedniego języka odpytywania było jednym z celów projektu CINQ, który jest kontynuowany w ramach aktualnego projektu IQ, finansowanego w ramach Szóstego Programu Ramowego. Mimo że dużo wysiłku poświęcono na zastosowanie zapytań o wzorce w celu ekstrakcji informacji dostępnych w witrynach internetowych, w ramach projektu CINQ skupiono uwagę na wyzwaniach naukowych w genomice funkcjonalnej. Większość dostępnych technik analitycznych danych dotyczących ekspresji genów jest oparta na algorytmach klastrujących, próbujących ustalić grupy genów, których ekspresja została skorelowana w różnych sytuacjach biologicznych. Ich poprawność biologiczną można poddać w wątpliwość, dlatego zaproponowano eksploracyjne algorytmy procesu data mining, które wyszukują zasady opisowe w danych zebranych analizą seryjną ekspresji genów (SAGE, Serial Analysis of Gene Expression) lub z mikromacierzy DNA.