Mieux connaître l'arbre généalogique de la vie
Charles Darwin a fondé le concept moderne de l'évolution moderne sur deux principes fondamentaux: toutes les espèces ont un ancêtre commun, et la sélection naturelle est le fruit de l'interaction entre les informations héréditaires (ce que nous appelons maintenant les gènes) et l'environnement où vivent les espèces. L'évolution des espèces depuis l'ancêtre commun est présentée classiquement sous forme d'un arbre phylogénétique. De même, l'histoire des gènes peut être décrite sous forme d'un arbre, mais elle peut différer notamment de l'histoire des espèces car les gènes sont affectés par d'autres événements évolutifs comme la duplication, la perte ou le transfert latéral. Dans le cadre du projet GENEFOREST financé par l'UE, des scientifiques se sont attachés à concevoir des méthodes de phylogénétique pour reconstituer plusieurs arbres de gènes dans le contexte d'un arbre des espèces. Le but était de proposer des modèles utilisables pour de très grands ensembles de données, via la reconstitution à grande échelle de processus génomiques comme la duplication, le transfert ou la perte de gènes. Ces modèles exigent beaucoup de calculs mais permettent d'étudier des génomes complets au lieu de se limiter à une poignée de gènes, donc de reconstituer l'histoire de ces génomes. Ils apportent aussi des informations sur la chronologie de la diversification des espèces, même en l'absence de fossiles. Comme preuve de concept, les chercheurs ont appliqué le modèle probabiliste ODT (Origine, Duplication, Transfert et perte de gènes) à plus de 8000 familles de gènes pour reconstituer la phylogénie datée de 36 espèces de cyanobactéries. Les scientifiques ont élargi leur modèle ODT pour obtenir le premier modèle d'acquisition et de perte de gènes pour des lignées éteintes ou non échantillonnées (exODT). Ce modèle promet d'explorer l'énorme diversité de la vie qui a disparu mais qui a pu contribuer à enrichir les génomes par des transferts latéraux de gènes. Les scientifiques ont aussi mis au point la première méthode probabiliste capable de déterminer simultanément l'arbre des espèces et tous les arbres des gènes qui représentent ensemble l'histoire de génomes, améliorant notablement la qualité des deux types d'arbres. Nommée PHYLDOG, cette méthode a servi pour reconstruire l'histoire évolutive de 36 génomes de mammifères. Durant l'étape finale, les chercheurs ont associé le modèle exODT avec d'autres modèles probabilistes pour obtenir le modèle ALE (approximation de l'estimation du maximum de vraisemblance). Ce modèle peut déduire un arbre de gènes à partir d'un arbre d'espèce, avec une exactitude remarquable et en gérant jusqu'à 100 génomes. Le modèle complet et à grande échelle de l'évolution du génome, mis au point par le projet GENEFOREST, aura un impact majeur sur l'étude des arbres phylogénétiques des espèces, des arbres de gènes associés et de leurs relations.