Zarys naszego niepowtarzalnego drzewa życia
Karol Darwin postawił fundamenty współczesnej biologii ewolucyjnej za pomocą dwóch zasadniczych koncepcji — wszystkie gatunki są ze sobą spokrewnione poprzez wspólnych przodków, a naturalna selekcja odzwierciedla wzajemną zależność między informacjami dziedzicznymi (współcześnie zwanych genami) a środowiskiem, w jakim gatunki ewoluują. Drogi pochodzenia gatunków od wspólnych przodków są najczęściej przedstawiane w formie drzewa filogenetycznego. Podobnie, historie genów mogą być przedstawione w formie drzew, jednak będą się one zdecydowanie różnić od historii gatunków, ponieważ na geny oddziaływuje cała masa zdarzeń ewolucyjnych, takich jak duplikacja, utrata czy transfer lateralny. Naukowcy postanowili opracować metody filogenetyczne w celu zrekonstruowania wielorakich drzew genetycznych w kontekście drzewa gatunkowego, w ramach finansowanego ze środków UE projektu GENEFOREST. Ich celem było dostarczenie modeli mających zastosowanie w bardzo dużych zestawach danych poprzez wielkoskalowe rekonstrukcje procesów genomicznych, takich jak duplikacja, transfer czy utrata genów (DTL). Tego typu metody, choć intensywne obliczeniowo, umożliwiają badanie całych genomów, nie zaś garstki genów, przez co pozwalają na pełną rekonstrukcję historii tych genomów. Co interesujące, metody te dostarczają również informacji na temat czasu dywersyfikacji gatunków, nawet przy braku danych uzyskanych na podstawie skamielin. W ramach weryfikacji koncepcji, do zrekonstruowania datowanej filogenezy 36 gatunków cyjanobakterii przy użyciu ponad 8 tys. rodzin genów wykorzystano model probabilistyczny zwany ODT (określający pochodzenie, duplikację, transfer i utratę genów). Naukowcy rozszerzyli swój model ODT, aby otrzymać pierwszy model nabywania i utraty genów na przykładzie wymarłych lub niezbadanych linii (exODT). Rozszerzenie to może umożliwić zbadanie ogromnej różnorodności form życia, które wyginęły, a być może przyczyniły się do powstania licznych genomów poprzez pradawny lateralny transfer genów. Naukowcy opracowali także pierwszą probabilistyczną metodę jednoczesnego określania drzew gatunkowych i wszystkich drzew genetycznych, które razem tworzą historię genomów, znacząco poprawiając w ten sposób jakość obu typów drzew. Ten program, o nazwie PHYLDOG, został wykorzystany do zrekonstruowania historii ewolucyjnej 36 genomów ssaków. W ostatnim etapie badacze połączyli model exODT z innymi modelami probabilistycznymi dla uzyskania modelu przybliżonego szacowania prawdopodobieństwa (ALE). Dzięki modelowi ALE można uzyskać drzewo genetyczne o niezwykłej dokładności z danego drzewa gatunkowego. Ponadto model ten ma możliwość przyjęcia aż do 100 genomów. Wszechstronne wielkoskalowe modele ewolucji genomu opracowane w ramach projektu GENEFOREST będą miały duży wpływ na badanie filogenetycznych drzew gatunkowych, drzew genetycznych i ich wzajemnych zależności.