Descrizione del nostro unico albero della vita
Charles Darwin ha stabilito le basi della moderna biologia evoluzionistica mediante due concetti fondamentali: tutte le specie sono imparentate tra loro tramite un antenato comune e la selezione naturale riflette l'interazione tra le informazioni ereditarie (oggi denominate geni) e l'ambiente in cui le specie si evolvono. I percorsi di discendenza delle specie da un antenato comune sono tradizionalmente raffigurati come un albero filogenetico. Analogamente, le storie dei geni possono essere raffigurate come alberi, che però possono differire notevolmente dalla storia di specie, perché i geni sono influenzati da vari eventi evolutivi, quali la duplicazione, la perdita o il trasferimento laterale. Avvalendosi del finanziamento dell'UE del progetto GENEFOREST, alcuni scienziati si sono proposti di sviluppare metodi filogenetici per ricostruire più alberi di geni nel quadro di un albero di specie, con l'obiettivo di fornire modelli applicabili a dataset di grandissime dimensioni, attraverso ricostruzioni su larga scala di processi genomici come la duplicazione, il trasferimento e la perdita (DTL) di geni. Tali metodi, anche se richiedono un'intensa elaborazione computazionale, consentono di studiare genomi completi invece dei una piccola quantità di geni e, di conseguenza, di ricostruire interamente la storia di tali genomi. Risulta particolarmente interessante che tali metodi forniscano anche informazioni sulle tempistiche di diversificazione delle specie, anche in assenza di dati fossili. Come prova di concetto, è stato adottato il modello probabilistico denominato ODT (sigla di Origine, Duplicazione, Trasferimento e perdita di geni) per ricostruire la filogenesi di 36 specie cianobatteriche utilizzando oltre 8 000 famiglie di geni. Gli scienziati hanno esteso il loro modello ODT per trarne il primo modello di acquisizione e perdita di geni lungo linee estinte o non campionate (exODT). Tramite tale estensione si profila la possibilità di esplorare l'enorme diversità della vita ormai estinta, che potrebbe però aver contribuito a estendere genomi attraverso antichi trasferimenti laterali di geni. Gli scienziati hanno anche sviluppato il primo metodo probabilistico per determinare simultaneamente l'albero di specie e tutti gli alberi di geni che, insieme, formano la storia dei genomi, migliorando di conseguenza in modo significativo la qualità di entrambi i tipi di alberi. Questo programma, denominato PHYLDOG, è stato utilizzato per ricostruire la storia evolutiva di 36 genomi di mammiferi. Nella fase finale, i ricercatori hanno combinato il modello exODT con altri modelli probabilistici, al fine di ottenere un modello di stima di verosimiglianza approssimativa (ALE). ALE può desumere con notevole accuratezza da un dato albero di specie un albero di geni ed è in grado di accogliere fino a 100 genomi. I modelli evolutivi completi su larga scala di evoluzione del genoma sviluppati nel progetto GENEFOREST incideranno in modo molto rilevante sullo studio degli alberi di specie filogenetici, sugli alberi di geni e sulla loro interrelazione.