Un petit débat scientifique pour #DarwinDay : fossiles contre ADN chez les mammifères

pterobear

Cliquez sur le dessin. Darwin Day plus St Valentin d’un coup.

Le 12 février c’est Darwin Day. Youpii !

Chaque fois qu’un groupement d’intérêts bizarre oppose de la pseudo-science aux résultats scientifiques, ils disent qu’il y a « débat ». Genre débat créationisme – évolution, débat homéopathie – traitement avec des médicaments qui contiennent quelque chose. Quand nous les scientifiques disons qu’il n’y a pas débat en l’occurence, nous avons l’air de vouloir supprimer un débat à l’apparence légitime. Et comme les vrais débats scientifiques sont souvent abscons et se produisent entre spécialistes qui se balancent des détails méthodologiques à la figure sur des questions qui n’intéressent personne, bin la plupart des gens n’ont aucune référence pour voir à quoi ça devrait ressembler un débat scientifique légitime.

On peut proposer une heuristique (une solution imparfaite mais qui marche souvent ; la page Wikipedia francophone est bizarre, voyez plutôt l’anglophone) : un débat scientifique légitime est chiant. ;-) Mais ça n’est pas vraiment une solution.

Donc parlons d’un vrai débat, qui entre bien dans le cadre du Darwin Day. Molécules contre morphologie !

Il y a de cela plus d’un an j’avais publié un ralage contre la phylogénie obsolète des mammifères présentée au Musée d’histoire naturelle de Paris. Dans un commentaire long et bien argumenté, Nicobola avait défendu l’approche du Musée, haut lieu de la phylogénie à base morphologique. J’avais promis de répondre un jour. Ze Day ‘Az Come!

Mais de quoi il cause phylogénie morphologique moléculaire ? Pourquoi ça nous intéresse maintenant ? Il n’y a pas longtemps j‘ai parlé d’un article que je trouvais très cool, dans lequel les auteurs ont reconstruit l’état ancestral du génome des mammifères placentaires (nous, et les baleines gentilles, et les chiens mignons, mais pas les kangourous qui puent ni les ornithorynques qui piquent), et en ont déduit que notre ancêtre à tous qui vivait du temps des dinosaures était nettement plus gros qu’on ne le pensait habituellement. On le pense habituellement sur la base de fossiles. Cette étude-ci était basée sur les données moléculaires (analyse de l’ADN).

Et cette semaine vient de sortir avec grand tintamarre un article dans Science qui montre que l’ancêtre commun des placentaires a vécu beaucoup plus récemment que l’on ne le pensait ces dernières années, en fait après la disparition des dinosaures, et ils ont reconstruit l’ancêtre, et il est tout petit et très conforme à l’idée qu’on se fait habituellement d’un genre d’insectivore discret à doigts de souris. Dans cette étude-ci, ils ont combiné de l’information morphologique d’espèces vivantes (40), d’espèces fossiles (46), et de l’information moléculaire (mais pas trop : 27 gènes, soit 1/1000ème du génome codant, qui est 1% du génome).

Donc deux articles sérieux, par de bons chercheurs, appuyés sur des données solides, qui obtiennent des résultats contradictoires. La dernière manche en date d’un combat qui se livre depuis le début des années 1990 ; avantage aux morphologistes (à savoir qu’ils ont publié dans une plus grosse revue et ils ont eu davantage de couverture dans la presse).

Déclaration de conflit d’intérêts : je fais de l’évolution moléculaire ; je connais le chef de l’article moléculaire cité ci-dessus depuis plus de 20 ans ; j’ai travaillé sur la phylogénie moléculaire des mammifères dans ma thèse et postdoc. Mais j’ai des arguments !

Qu’ont-ils fait dans l’article morphologique récent ? Y a plus de 100 pages de matériel supplémentaire que je n’ai pas lu, donc je n’irais pas dans le détail, mais en gros ils ont rassemblé la plus énorme collection de caractères morphologiques jamais analysée à ma connaissance : 4541 caractères. Pour comprendre de quoi il retourne, il faut savoir qu’en analyse morphologique on ne peut pas mettre des cranes et des poils direcement dans le logiciel, donc il faut recoder la morphologie. Etape super importante, avec plusieurs problèmes potentiels : le risque de subjectivité, si vous codez plutôt ce qui vous arrange ; le risque de ne pas suffisamment détailler, et donc perdre de l’information ; le risque de trop détailler, et donc faire apparaître comme plusieurs caractères ce qui n’est en fait que plusieurs aspects du même. Kesako caractère ? Par exemple le poids de la bête, ou la forme du sperme (si si c’est dans le papier). Ensuite ils ont construit une phylogénie, à savoir les relations évolutives entre les espèces (vache plus proche de mouton que de chien etc). Permettez-moi de persifler un peu : j’ai l’impression que les 27 gènes sont là pour empécher que les données morphologiques toutes seules échouent trop fort à récuperer ce que l’on connaît très bien maintenant de l’arbre des mammifères, et que l’on connaît grace au signal des données moléculaires. 40% des branchements seulement sont cohérents quand ils séparent les données.

Etape suivante et c’est ce qui fait le scoop du papier, ils ont reconstruit l’age et la tronche de l’ancêtre. Pour l’age, vous vous rappelez que des fossiles étaient inclus dans l’analyse ? Les fossiles ça a cela de bien que c’est ancien, et on connaît son âge (avec une certaine précision). Or ces fossiles pas très vieux se placent tout en bas de l’arbre. Donc l’origine de l’arbre n’est pas très vieille. Donc les mammifères placentaires modernes se seraient diversifiés après la disparition des dinosaures. Ensuite pour reconstruire l’ancêtre ils utilisent la parcimonie, à savoir que si deux espèces partagent un trait, leur ancêtre l’avait (en gros).

Un reproche fait même dans le commentaire par ailleurs normalement positif dans Science, c’est qu’ils n’ont pas pris en compte la quantité d’évolution mesurée par les gènes dans l’analyse. Alors là je suis ambigu, parce que je n’ai jamais eu trop confiance dans les mesures dites « d’horloge moléculaire », qui comptent le nombre de changements dans l’ADN et divisent par le taux de mutations fixées dans l’évolution pour trouver la date. Il y a tellement de facteurs qui peuvent faire varier ces taux de mutation ou de fixation. Ceci dit, je doit bien reconnaître que les méthodes pour faire cela ont énormément progressé, et il est probablement en effet abusif de ne pas prendre en compte cette information du tout.

Un problème un peu plus grave à mon sens est que toute cette analyse morphologique se base sur une analyse de parcimonie de caractères morphologique. Or la parcimonie est une approche relativement simple qui n’inclut pas d’étape de modélisation de l’évolution. Quelque part la modélisation est implicite dans le choix des caractères à coder. Mais tout-de-même, il a été montré plusieurs fois que la parcimonie peut se tromper très fortement lorsque l’évolution suit des chemins biscornus, par exemple avec certaines espèces qui évoluent beaucoup plus vite que d’autres, ou une divergence très forte dans les fréquences des caractères entre espèces, ou des changements dans l’état d’équilibre (vers quoi tend le système évolutif) dans le temps. Et donc avec plein plein de données mais une méthode que je qualifierais quand même de naive au sens méthodologique (je ne veux pas dire que les collègues soient naifs, mais plutôt que la méthode ne peut pas être élaborée de par sa nature même), j’ai peur qu’on trouve un résultat quelque part évident, un espèce d’image moyenne de tous les mammifères, qui est donc ce petit insectivore déjà prédit intuitivement par Simpson dans les années 1940.

Alors que les données moléculaires, qui ont le désavantage de ne pas avoir de fossiles, ont deux avantages pas utilisés du tout ici, mais dans l’étude discutée précédemment si : il y en a beaucoup beaucoup, donc puissance statistique même avec modèle complexe, et comme l’ADN c’est relativement simple et répétitif (les 4541 caractères morphologiques incluent des tailles, des formes, des présence-absence, etc ; l’ADN inclut quatre variants chimiques : A, C, G, T), on peut légitimement construire des modèles basés sur une abstraction du nucléotide. Avec ces modèles, on peut prendre en compte les vitesses d’évolution très différentes ou les changements d’état d’équilibre, et donc par exemple trouver que l’ancêtre commun était différent de la moyenne des espèces modernes (jolie démonstration ici).

Donc si l’évolution a inclus un ancêtre common gros rustre, puis une évolution générale vers le plus petit avec perte des caractères morphologiques correspondant (genre survivire au monde Mad Maxien post-météorite géante), puis des opportunités pour re-grossir, un modèle suffisamment complexe nourri de suffisamment de données pourra retrouver cela avec du bol, mais une reconstuction parcimonieuse, non.

Et l’age pas si ancien ? Comme je le disais, je n’ai pas tout regardé en détail, mais il semble qu’ils utilisent les fossiles comme dates absolues, alors qu’un fossile ne donne que l’age minimum d’une espèce : s’il y a un fossile de 50 millions d’années, l’espèce devait exister il y a 50 millions d’années, mais elle pouvait exister plus tôt et on n’a pas de fossiles. Si je me trompe corrigez-moi (discussion intéressante en anglais sur le blog WhyEvolutionIsTrue; voir aussi ce commentaire). Mais surtout, ces fossiles ont été placés dans l’arbre (de parcimonie) par parcimonie. Ergo, tous les problèmes ci-dessus s’appliquent.

Ne me faites pas dire ce que je n’ai pas dit : j’adore les fossiles et les paléontologues. C’est uniquement de cette manière que l’on peut connaître énormément de points du passé. Mais il me semble que parfois les morphologistes ont tendance à se comporter comme les personnes du mythe de la caverne : ils commentent à l’envi les formes qui sont des produits du matériel héréditaire, quand ils veulent connaître l’histoire du matériel héréditaire. Ouvrez les yeux ! Sortez ! Depuis plus de 20 ans, on a accès directement au matériel héréditaire ! Donc quand on veut connaître cette histoire-là, faisons-le directement. Je maintiens que la phylogénie moléculaire est largement supérieure à la phylogénie morphologique, pour les raisons méthodologiqus citées ci-dessus, et parce que l’on mesure directement ce qui nous intéresse. Maintenant pour ce qui est de l’évolution de la forme, c’est l’inverse. Dans les gènes on ne voit que des indices, et c’est la forme des fossiles qui nous informe réellement sur à quoi qu’ils ressemblaient nos beaux ancêtres. Pas beau ça ?

11 comments for “Un petit débat scientifique pour #DarwinDay : fossiles contre ADN chez les mammifères

  1. 12 février 2013 at 17:38

    En tant que collègue de blog de Nicobola, et « muséumien » invétéré, je vais aussi défendre la phylogénie basée sur les caractères morphologiques. De plus, ça me concerne directement, puisque mon sujet de thèse consiste à utiliser en parallèle les données anatomiques (dont les fossiles) et moléculaires en phylogénie.

    Pour commencer, je te rejoins quant à l’indispensable nécessité d’utiliser les données moléculaires quand on en a la possibilité. Dans de nombreux groupes, on aurait eu aucun moyen de dégrossir les relations de parenté uniquement avec l’aide de l’anatomie.

    Sur la critique de la parcimonie déjà, je ne suis pas d’accord avec toi. Il y a des modèles en parcimonie, comme la pondération des caractères ou les caractères ordonnés. La parcimonie elle-même est un modèle assez fort. Et il existe maintenant des méthodes qui permettent d’inclure des données anat à des analyses probabilistes comme le bayésien.

    Contrairement à toi, je pense que l’anatomie n’est pas inférieure au moléculaire pour reconstruire les relations de parenté, mais en plus qu’elle est indispensable et ce pour plusieurs raisons.

    La première ce sont les fossiles. Pour ces derniers, on a la plupart du temps pas accès au matériel génétique et la reconstitution phylogénétique passe par l’anatomie. Or, les fossiles apportent des données qui sont par définition absentes dans l’actuel : ils ont des combinaisons uniques de caractères et ils permettent de calibrer dans le temps l’histoire évolutive. Certaines relations de parenté, qui en utilisant uniquement les actuels seraient « brouillées » par l’homoplasie (la convergence de formes par exemple) peuvent être évidentes grâce aux fossiles (la relation étroite entre les oiseaux et les crocodiles, par exemple).

    Deuxièmement, les fossiles permettent, comme tu l’as dit, de calibrer les arbres dans le temps. Personnellement (et indépendamment de la méthodo utilisée, qui est toujours critiquable pour une raison ou pour une autre), je ferai plus confiance aux résultats de l’étude de Science au niveau du timing de l’évolution des mammifères, car elle est plus cohérente avec le registre fossile. Certes, les fossiles ne donnent qu’un âge minimal et le registre est incomplet. Mais toujours évoquer cette incomplétude pour justifier n’importe quelle datation pose des problèmes de scientificité selon moi (on peut tout expliquer avec ça !).

    Ensuite, et indépendamment de la présence ou non des fossiles, un clade a un soutien d’autant plus fort qu’il est retrouvé par des jeux de données indépendants (car un seul jeu de données peut être plombé par un biais très fort pas évident à détecter – cf. les articles de Lecointre à ce sujet). Or, la morphologie est un jeu de données indépendant de la séquence d’ADN : un clade qui va être soutenu séparément par l’anatomie et le moléculaire va être bien plus soutenu qu’un clade soutenu uniquement par l’une ou l’autre de ces méthodes.

    Enfin, mais c’est plus personnel, je pense qu’un clade qui n’est soutenu que par des données de séquences moléculaires n’a pas le même statut qu’un clade qui possède des synapomorphies (qui ne sont pas forcément anatomiques, par exemple une duplication de gènes ou l’apparition d’un élément mobile). Or, pour avoir des synapomorphies, il faut une analyse des caractères…on tourne un peu en rond !

    Voilà pourquoi je pense que l’anatomie a encore de beaux jours devant elle en phylogénie ;)

    • MRR
      12 février 2013 at 21:33

      Merci pour cet excellent commentaire !

      Quelques éléments de réponse (de mon point de vue) :

      « indispensable nécessité d’utiliser les données moléculaires quand on en a la possibilité »
      -> Mais doit-on en utiliser autant que possible ? Avec les génomes complets, en gros les données morphologiques vont toujours être ultra-minoritaires sauf à créer une pondération arbitraire pour les renforcer.

      « des modèles en parcimonie »
      Tiens pendant les années 1990 les cladistes (y compris Lecointre !) n’ont pas arrêté de nous les br…r parce que la parcimonie était supérieure parce qu’il n’y avait pas de modèle. Sinon, oui je suis d’accord en principe que la parcimonie a un modèle, mais il n’est pas explicite et ne peut pas être améliorer pour prendre en compte des biais connus.

      « méthodes qui permettent d’inclure des données anat à des analyses probabilistes comme le bayésien »
      Oui mais à nouveau ces modèles doivent rester très simples, tout simplement parce que les données morphologiques ne représentent pas autant de réalisations d’une même loi de probabilité, mais autant d’évènements complexes très différents.

      « les fossiles apportent des données qui sont par définition absentes dans l’actuel : ils ont des combinaisons uniques de caractères »… « brouillées par l’homoplasie ».
      Ces combinaisons ne sont pertinentes que si on pense qu’on doit utiliser les données anatomiques pour reconstruire la phylogénie. Sinon, peu me chaut. L’homoplasie n’est un problème que parce qu’on n’a pas de bons modèles évolutif dirais-je méchamment.
      Par exemple retrouver la relation oiseaux-crocodiles avec les données moléculaires, facile et sans douleur.

      « et ils permettent de calibrer dans le temps l’histoire évolutive. »
      Oui !

      « Mais toujours évoquer cette incomplétude pour justifier n’importe quelle datation pose des problèmes de scientificité selon moi (on peut tout expliquer avec ça !). »
      D’accord, et d’ailleurs ce n’est pas mon problème principal. Je l’ai cité parce que je l’ai vu discuté ailleurs (lien vers whyevolutionistrue).

      « un clade a un soutien d’autant plus fort qu’il est retrouvé par des jeux de données indépendants (car un seul jeu de données peut être plombé par un biais très fort pas évident à détecter – cf. les articles de Lecointre à ce sujet). »
      Oui (et d’ailleurs voir cet effort de mon labo sur un autre sujet http://wiki.isb-sib.ch/biocuration/Confidence_information_draft#Introduction).
      Mais (il y a toujours un mais) il faut d’une part définir ce que l’on entend par « jeux de données indépendants ». Est-ce que différents gènes sont indépendants ? Différents caractères morphologiques ? Les gènes mitochondriaux par rapport aux nucléaires ? Les codant pour des protéines par rapport ARN ribosomaux ? (Désolé pour le public, je deviens un peu technique, mais il a commencé.) D’autre part on peut démontrer que si un ensemble données + méthode est biaisé et un autre non biaisé, alors on a un meilleur résultat, plus fiable, en n’utilisant que le non biaisé. Je reviens au mythe de la caverne : on veut retracer l’histoire évolutive par les traces transmises génétiquement entre espèces, on a de bons modèles (en constante amélioration) de l’évolution du matériel génétique, on a beaucoup de données génétiques (aussi en constante augmentation), je ne vois pas de raison d’utiliser un signal très indirect de ce matériel, le phénotype. Et de plus, le phénotype a de fortes chances d’être influencé par la sélection naturelle, ce qui augmente les risques de convergence (homoplasie et tout ça), alors que la vraie convergence est rare en moléculaire, et qu’à nouveau on sait souvent la modéliser et donc la maîtriser.

      « Enfin, mais c’est plus personnel »
      En effet ! Moi ce qui m’intéresse c’est l’évolution, c’est pas de nommer des clades en leur associant des caractères. En tout état de cause, ceci n’influe pas sur la pertinence ou non des résultats dont nous parlons.

      • 13 février 2013 at 10:24

        « Moi ce qui m’intéresse c’est l’évolution, c’est pas de nommer des clades en leur associant des caractères.  »

        Je peux tout à fait concevoir que ce ne soit pas ta tasse de thé, mais c’est la base de la systématique. A partir de là que doivent faire les systématiciens ? Il est indispensable de disposer de synapomorphies pour que les taxons soient des unités opérationnelles selon moi.
        Et tout de même, pour étudier l’évolution, comme tu dis, il est important au préalable de savoir de quoi on parle, non ?
        Bref, il y a plusieurs façons de voir les choses, c’est ce qui rend ce débat intéressant :)

        • MRR
          13 février 2013 at 12:37

          Les systématiciens font de la systématique. ;-) A savoir définir et nommer des espèces et des groupes d’espèces.

          Mais les deux articles dont on parle ici ne font pas de la systématique, mais de la reconstruction de l’ancêtre. Donc dans ce cadre l’argument que l’anatomie permet de rattacher un caractère à un clade ne me paraît pas très pertinent.

          Groovy?

    • MRR
      12 février 2013 at 21:35

      Un dernier petit point : votre opinion et celle des autres blogueurs « les poissons n’existent pas » sur les résultats présentés dans le billet sur un gros ancêtre mammifère seraient très appréciés.

  2. 13 février 2013 at 00:49

    Personnellement j’ai jusqu’ici toujours fait confiance aux données génétiques déterminant un ancêtre commun des placentaires, précédent l’extinction Crétacé/Tertiaire et «instinctivement» ainsi que pour les raisons que tu exposes ici Marc, je continue à privilégier les analyses moléculaires par-apport à celles de la présente étude de la revue «Science». Cependant je laisse également une chance à l’hypothèse d’un ancêtre commun plus récent.

    Car il y a aussi une critique ou un questionnement qui peut-être fait à la biologie moléculaire, il s’agit bien entendu de l’estimation de dates et du rythme de l’évolution du génome. Mais bon je me doute bien Marc que tu en sais de loin davantage que moi sur le sujet et qu’il existe donc toujours d’excellentes raison de penser ici à une origine plus ancienne que l’extinction Crétacé/Tertiaire. Seulement je met en parallèle tout cela avec de récentes études sur le taux de mutation chez l’être humain et des possibles implications pour les dates qui ont marqué l’évolution de notre espèce, notamment l’expansion de celle-ci hors d’Afrique ou même les derniers ancêtres commun que nous partageons avec l’homme et le chimpanzé.

    http://du-cote-de-chez-elysia-chlorotica.blogspot.ch/2012/09/taux-de-mutation-et-evolution-humaine.html

    Comme mentionné dans cet article récemment et sur la base de nouvelle étude le taux de mutation a été revue à la baisse et donc certains suggère que notre ancêtre commun avec le chimpanzé ne remonterait peut-être pas à 7 millions d’années mais à plus de 10 millions d’années. Bien évidemment à ce niveau-là rien n’est encore définitivement tranché. Cet exemple soulignant les incertitudes qui entourent peut-être encore la question du taux de mutation et peut-être même les éventuelles variations de celui-ci d’une lignée à l’autre avec toutes les implications que cela pourrait avoir. Aussi ma question, probablement naïve, serait de savoir si il n’est pas possible que les estimations moléculaires de la décennie précédente sur l’ancêtre commun des placentaire ne pourrait pas être remise en question si l’on devait remettre en question de manière importante la régularité du taux de mutation d’une espèce à une autre voir même à travers le temps.

    Bref désolé si mes présentes questions sont naïves car encore une fois je ne suis pas spécialiste mais donc j’espère que l’avenir nous permettra de voir plus clair sur cette question! ;-)

    • MRR
      14 février 2013 at 09:03

      Comme je l’ai mentionné dans le billet, je n’ai pas trop trop confiance dans les datations moléculaires moi-même. J’ai trop vu de cas de variation de vitesse d’évolution ou de mode évolutif, et puis les barres d’erreur sont généralement énormes. Quand à l’impact de ces ré-évaluations des taux de mutation, je ne suis pas encore trop confiant dans les méthodes utilisées. Ce qui ne veut pas dire que je pense que ça soit faux, juste que je manque de recul et peut-être d’expérience directe.

      Sur les datations fossiles, il y a d’autres problèmes, comme la fossilisation préférentielle de caractères ancestraux évoquée par Tom Roud (http://tomroud.cafe-sciences.org/2010/02/16/pourri-de-chorde/) qui peut conduire à classer comme ancestral un fossile qui ne l’est pas. Sans compter les problèmes de convergence évolutive et dévelopmentale dans les dents, qui constituent le gros des fossiles de mammifères (et environ 1/3 des caractères étudiés ici je crois).

Comments are closed.