Nowa technologia pomaga w poskromieniu ogromnej ilości danych genomicznych
Metoda wysokoprzepustowa – technika, która pozwala na równoległe prowadzenie milionów procesów sekwencjonowania – umożliwia zsekwencjonowanie całego genomu ludzkiego w ciągu około 1 dnia. To nie tylko przyczynia się do obniżenia kosztów sekwencjonowania, ale zbliża nas do medycyny spersonalizowanej. Poznanie wyjątkowego profilu molekularnego i genetycznego dałoby naukowcom możliwość oceny prawdopodobieństwa wystąpienia u danej osoby konkretnych chorób i pomogłoby w wyborze najlepszej metody leczenia, gdy choroba już się pojawi. Jednak sekwencjonowanie genomu wiąże się z generowaniem olbrzymich ilości danych. „Sekwencjonowanie całego genomu tylko jednego pacjenta generuje około 3 miliardów par zasad. Jeśli chcemy zsekwencjonować cząsteczkę w celu odnalezienia pewnych wariantów, czynność tę musimy powtórzyć kilkukrotnie, otrzymując nawet 30 razy więcej danych”, mówi Jennifer del Giudice, prezeska firmy Enancio i koordynatorka finansowanego ze środków UE projektu ORIGAMI.
Jak przechowywać dane
„To rodzi poważne pytanie: w jaki sposób przechowywać i przesyłać te krytyczne dane osobowe? Ich przechowywanie może przecież trwać nawet 10 do 15 lat. Stoimy przed wielką szansą na dokonanie zmiany dotychczasowego sposobu leczenia chorób, tymczasem wciąż nie wiemy, jak poradzić sobie z taką ilością informacji”. Firma Enancio opracowała algorytm zwany Lena, który opiera się na pomyśle Guillaume’a Rizka, dyrektora ds. technologii w Enancio. Powstał on z myślą o sektorze danych genomowych i służy do bezstratnej kompresji dużych ilości danych. Algorytm Lena oferuje wysoki stopień kompresji. Operacje kompresji i ekstrakcji danych odbywają się szybko i bez straty danych przy mniejszym zaangażowaniu zasobów obliczeniowych w porównaniu do innych rozwiązań dostępnych na rynku. W ramach projektu ORIGAMI zespół Enancio przetestował wydajność algorytmu Lena, posługując się najnowszą wersją platformy Illumina pochodzącej od najpopularniejszego dostawcy usług sekwencjonowania wysokoprzepustowego na świecie. Wyniki pokazały, że Lena potrafi pięciokrotnie zmniejszyć rozmiar danych w porównaniu do popularnych dzisiaj generycznych programów do kompresji danych. Wiąże się to z dużą oszczędnością czasu transferu danych, a także kosztów ich przechowywania.
Pięciokrotnie mniejszy
„Osoby zajmujące się kompresją danych na co dzień mogą zmniejszać pliki z 500 GB do 100 GB. Dzięki algorytmowi Lena możliwe jest uzyskanie pliku pięciokrotnie mniejszego, tj. o rozmiarze 20 GB. Ale to nie wszystko, bo otrzymamy go trzy razy szybciej w porównaniu do prostych technik kompresji”, dodaje del Giudice. Badanie rynku przeprowadzone w ramach projektu ORIGAMI umożliwiło firmie Enancio pogrupowanie potencjalnych klientów na segmenty i sprawdzenie, jak bardzo różnią się ich potrzeby dotyczące kompresji danych. Jedną z takich wyróżniających się potrzeb była możliwość transparentnego zintegrowania funkcji kompresji z istniejącymi procesami bez konieczności zmiany przepływu pracy. Zapotrzebowanie na sekwencjonowanie wciąż rośnie. Jak wynika z badania opublikowanego w czasopiśmie „PLOS Biology”, w latach 2005-2015 ilość danych genomowych rosła w zawrotnym tempie, dwukrotnie zwiększając swoją objętość co 7 miesięcy. Naukowcy spodziewają się, że tempo tego wzrostu będzie jeszcze większe. Zespół projektu ustalił, że wielu użytkowników danych nie dotarło jeszcze do punktu krytycznego, po przekroczeniu którego zarządzanie przepływem danych stanie się niemożliwe. „Moment, w którym objętość danych staje się problemem jeszcze nie nastąpił, ale to ma się już wkrótce zmienić”, zauważa del Giudice.
Słowa kluczowe
ORIGAMI, kompresja danych, kompresja, dane genomowe, ludzki genom, sekwencjonowanie, sekwencjonowanie wysokoprzepustowe, medycyna spersonalizowana