Archives pour la catégorie évolution

CRISPR-Cas est-il larmarckien ?

Suite à un tweet de Sacha Schutz (bloggeur cafe-sciences aussi), j’ai eu une petite discussion Twitter sur CRISPR-Cas et le larmarckisme. Cela me donne une bonne excuse pour reprendre ce blog.

Le point de départ est un article dans Médecine/Sciences sur le CRISPR « et évolution lamarckienne d’un système immunitaire adaptatif ». Il y a eu toute une discussion sur Twitter, que vous pouvez aller lire, y compris avec l’un des auteurs, Patrick Laurenti. Et vous pouvez suivre les liens de l’article Médecine/Sciences pour les explications sur CRISPR-Cas.

Qu’est-ce qui me gène dans cet article ? Il utilise une définition courante du lamarckisme, à savoir l’hérédité des caractères acquis. Mais l’hérédité des caractères acquis était la théorie dominante en génétique, avec l’hérédité par mélange, avant pendant après Lamarck, ça ne lui était pas spécifique. C’était d’ailleurs explicitement défendu par Darwin. A tel point que lorsque les lois de Mendel ont été redécouvertes, il a fallu pas mal d’efforts pour convaincre les biologistes que Mendel et Darwin étaient compatibles (Wikipedia en anglais est bien là-dessus). (Si on veut être pédant, on peut aussi noter que la fameuse séparation lignée germinale – lignée somatique n’existe pas chez les plantes, qui pourtant ont joyeusement de l’évolution darwinienne.)

On peut rappeler en passant que la théorie de Lamarck n’a eu aucun impact sur la recherche en biologie, et n’est donc pas une erreur féconde ou importante. Je pense qu’on ne s’en rappelle que parce que c’est un outil pédagogique pour enseigner l’évolution darwinienne.

Ceci dit, si on veut discuter du lamarckisme, il faut noter qu’il est basé sur deux forces, ou tendances, supposées du vivant :

  • une tendance à se complexifier (qui est fausse mais expliquerait pourquoi on voit des animaux et plantes complexes) ;
  • une tendance à l’adaptation (qui expliquerait que les organismes soient adaptés à leur environnement – ce qu’explique la sélection naturelle au final).

CRISPR-Cas présente un cas intéressant où, pour une adaptation très spécifique et limitée, il peut y avoir des mutations héréditaires qui sont préférentiellement celles qui sont utiles, ce qui penche en effet un peu dans le sens de la deuxième force de Lamarck. Toutefois, il reste que même lorsque de l’ADN externe est incorporé en priorité à l’ADN de la bactérie que dont on cause de son CRISPR, il n’y a pas biais à ma connaissance vers de l’ADN de pathogènes dangeureux pour la bactérie. La probabilité de la mutation ne dépend pas de son effet sur la bactérie.

Et puis il n’y a toujours pas tendance à la complexification.

Donc je pense qu’appeler le CRISPR-Cas lamarckien, en invocant une théorie qui n’a jamais été utile, ne rend pas service ni ne permet de clarifier les choses.

Voilà pourquoi je râlais sur Twitter.

La prochaine fois j’essayerais de bloguer quelque chose de plus constructif. 😉

Plus loin de l’Afrique, plus de mutations délétères mais moins de variabilité génétique humaine

L’humanité (Homo sapiens) vient d’Afrique sub-saharienne. Il y a environ 50’000 ans certains humains sont sortis d’Afrique et leurs descendants se sont dispersés un peu partout dans le monde, voir carte ci-dessous.

Dispersion de Homo sapiens ces dernières 50'000 ans. Points colorés : échantillons utilisés dans l'article que dont il est question plus bas.

Dispersion de Homo sapiens ces dernières 50’000 ans. Points colorés : échantillons utilisés dans l’article que dont il est question plus bas.

Une question intéressante, et qui nous ramène à la question de la pertinence de la classification des humains en « races », est l’effet de cette histoire sur la diversité génétique humaine.

Pour bien comprendre ce qui va suivre, quelques éléments de génétique des populations :

Premièrement, une mutation peut avoir un effet bénéfique (super rare, améliorer un truc en le modifiant au hasard), négatif (casser un truc qui marche c’est facile), ou neutre (aucun effet, très fréquent dans les génomes d’animaux ou de plantes). Voir ce billet pour les types de sélection naturelle correspondant aux deux premiers ; les mutations neutres ne sont pas soumises à la sélection naturelle.

Deuxièmement, plus une population est grande, plus la sélection naturelle est puissante. Cette observation simple a de grandes conséquences. Lorsque la population est plus petite, la sélection naturelle est moins puissante. Alors une mutation qui a un effet faiblement négatif ne sera pas éliminée, et se comportera comme si elle était neutre. Il s’agit d’un effet continu : plus la population est petite, plus une mutation devra être grave pour être éliminée, plus de mutations se comporteront comme si elles étaient neutres.

Ca se corse et ça devient intéressant : lorsqu’il y a expansion par migration (comme lors de la sortie de certains humains d’Afrique), le groupe qui part est un sous-ensemble de la population globale. Donc déjà du départ il n’emporte pas toute la variabilité génétique. Si je prends 100 parisiens au hasard j’aurais moins de diversité (génétique, de noms de famille, de goûts vestimentaires) que dans tout Paris. Si quelques milliers d’humains sont partis d’Afrique, ils avaient moins de diversité qu’il n’y en avait dans l’humanité en Afrique. Et ces migrants, étant peu nombreux, formaient une petite population. Donc sélection naturelle faible, faible élimination de mutations délétères. Et ce phénomène se reproduit au fur et à mesure des étapes suivantes d’expansion de l’espèce : ceux qui vont plus loin sont toujours un sous-ensemble ayant perdu de la diversité de départ et ayant du mal à éviter les mutations délétères.

Est-ce que l’on observe bien cela ? C’est l’objet d’un article publié en janvier 2016 :

Henn et al 2016 Distance from sub-Saharan Africa predicts mutational load in diverse human genomes PNAS 113: E440-E449

Première figure : le taux de variabilité génétique dans les 7 populations échantillonnées sur la carte ci-dessus (les couleurs correspondent) :

Hétérozygotie de 7 populations humaines, classées selon leur distance à l'origine africaine de l'espèce

Hétérozygotie de 7 populations humaines, classées selon leur distance à l’origine africaine de l’espèce

Que voit-on ? Le plus de variabilité génétique dans les populations descendantes des humains jamais partis du lieu d’origine de l’espèce. Et de moins en moins de variabilité génétique lorsque l’on s’éloigne de l’Afrique, pour arriver à un minimum en Amérique (il s’agit de descendants des amérindiens arrivés par le détroit de Béring), au plus loin de l’Afrique en marche à pied.

Deuxième figure, pareil mais en ne montrant que les mutations qui sont probablement délétères (ici on suppose que de l’ADN généralement conservé entre primates est probablement important, donc le modifier est probablement délétère) :

Fréquence des mutations délétères dans 7 populations humaines

Fréquence des mutations délétères dans 7 populations humaines, classées selon leur distance à l’origine africaine de l’espèce

Que voit-on ? Plus on s’éloigne de l’Afrique, plus on a de mutations délétères accumulées, comme attendu. Plus en détail, on a :

Pareil que la figure précédente, mais en trois catégories : peu délétères, moyennement, et très délétères.

Pareil que la figure précédente, mais en trois catégories : peu délétères, moyennement, et très délétères.

On voit que pour les mutations un peu mauvaises (à gauche et au milieu), l’effet de la distance à l’Afrique est très fort, avec un de plus un saut entre africains et les autres. Alors que pour les mutations très mauvaises (à droite), il y a un effet de la sortie d’Afrique, mais faible, et pas d’effet mesurable des migrations suivantes. On peut penser que la plupart de ces mutations très mauvaises sont éliminées même avec une population assez petite.

Conclusions : (1) la diversité de l’espèce humaine est en Afrique sub-saharienne ; (2) ce qui distingue le plus les humains hors d’Afrique sub-saharienne (y inclut tous les blancs et asiatiques) des africains (donc la plupart des noirs), ce sont des mutations à effet négatif, qui font que nous sommes moins aptes génétiquement (je dis nous parce que c’est mon cas, ne vous sentez pas visé si vous avez la chance d’être africain).

A propos de races humaines et de tolérance au lactose

Nous parlions récemment (avant d’être déraillé par le débat OGM, comme d’hab) de tolérance au lactose chez certains humains : mutations au hasard ? et état normal = maladie.

Dans ce dernier billet, je m’étonnai de ce qu’un résultat de génétique de quelques populations humaines soit labellisé « African » et un autre « Finnish » (finois) sur un site d’information officiel américan, alors que dans l’étude originale les groupes ethniques africains concernés étaient bien spécifiés. Je pense que cela se rattache en partie à la réification (croire qu’un concept est réel) du concept de « races humaines ». Pour rappel, j’avais écrit mon premier billet sur ce blog à ce sujet.

Concernant la tolérance au lactose, voici une carte de l’ancien monde avec la fréquence de la tolérance :

Figure de Itan et al 2010 (cliquez pour l'article)

Figure de Itan et al 2010 (cliquez pour l’article)

Sur cette carte vous voyez des zones rouge-orange, qui correspondent aux origines des mutations permettant la digestion du lactose chez l’adulte (il y en a plusieurs, indépendantes, à différents endroits). A ces endroit la sélection naturelle a eu le temps d’augmenter la fréquence de la mutation dans la population jusque presque tout le monde (rouge = plus de 90% de la population tolérante). En bleu, les endroits où la mutation n’a pas encore eu le temps d’acquérir une fréquence élevée, car elle doit d’abord arriver par le jeu des migrations et des mariages / reproduction, et elle ne présente un avantage que depuis la domestication des vaches veaux cochons couvées (surtout les premiers), donc pas très longtemps en termes évolutifs.

Voici maintenant une carte des « races humaines » traditionnelles (j’ai pris le premier résultat Wikipedia, mais l’idée générale serait la même avec n’importe quelle carte) :

meyers_b11_s0476a

Est-ce qu’en louchant bien vous arrivez à faire correspondre les couleurs sur ces deux cartes ? Parce que moi, non. Et pourtant.

Le site d’information cité précédemment est une collection d’articles médicaux sur l’intolérance au lactose, et ils classifient tout le temps les gens en groupes raciaux socialement reconnus, dont « African Americans », pour lesquels on attribue les différences à l’origine génétique « africaine ». Par exemple :

Frequency of Lactose Intolerance in Adults in Various Populations

Location % Lactose Intolerant Adults
Asians, US 90–100
Ibo, Yoruba, Africa 90
Inuits, Greenland 85
Southern Italians 71
African Americans 65
Caucasians, US 21
British, UK 6
Danes 3

ou encore :

Lactose intolerance is estimated to affect 25% of the American population.
Group prevalence is as follows:
—  15% (6% to 19%) – whites
—  53% – Mexican Americans
—  62% to 100% – Native Americans
—  80% –  African Americans
—  90% –  Asian Americans

et :

Within the United States, 80–90% of African Americans, 95–100% of Native Americans, 80–90% of Asian Americans, and 50–55% of Latinos may be lactose intolerant.

En regardant ces chiffres, il est naturel de penser que les différences de tolérance au lactose sont structurées selon les « races » traditionnelles, et que notamment les africains / africains-américains ne digèrent pas le lactose. Pourtant ce n’est pas ce que l’on voit sur la première carte, qui représente les vraies données.

Plusieurs choses contribuent à cette incohérence. Premièrement, et la génétique de la lactase, et la classification en « races », suivent la géographie. On a donc un problème classique de corrélation erronée due à un facteur confondant : si A est corrélé à la géographie et que B est corrélé à la géographie, alors A et B apparaîtront corrélés. C’est pour ça que le choix de la carte des « races » n’est pas important : toute division arbitraire mais géographiquement organisée arrivera à ce type de résultat. Je suis sur qu’on trouverait des différences de tolérance au lactose entre religions, entre groupes linguistiques, etc.

Deuxièmement, on échantillonne souvent très mal la diversité humaine. Donc si je ne mesure la tolérance au lactose que dans une petite partie de l’Afrique, je peux tomber sur une région avec forte tolérance, ou forte intolérance, au lactose. Et c’est là où ça devient raciste, c’est à quelle région ou groupe humain allez-vous généraliser votre résultat. Si vous êtes d’origine européenne, vous êtes probablement sensible à la différence entre régions et pays, peut-être même savez-vous que les finnois ne sont pas scandinaves. Mais il est probable que vous ayez une idée assez vague de la diversité africaine, et qu’il soit tentant de labelliser un résultat d’une région africaine en « Afrique ». C’est compliqué dans le cas des africains-américains par le fait que les traites négrières ont préférentiellement pris les gens de certaines régions (et même ethnies) pour les emmener de force en Amérique (excellente visualisation ici) ; donc les africains-américains ne portent pas la diversité génétique africaine.

Pourquoi est-ce important ? D’un point de vue pratique, la recherche et la pratique médicales américaines sont très organisées autour de ces catégories, et cela peut mener à mal estimer les risques pour des groupes en fait très hétérogènes, même si dans le cas du lactose ce n’est pas très grave probablement. Mais la recherche médicale américaine étant très influente (en gros ils sont les meilleurs, on peut être plus nuancés mais ce n’est pas le lieu), ces catégories se retrouvent reprises par plein d’études où elles ne sont pas pertinentes. (Entre parenthèses, les races sociologiquement définies sont pertinentes aux aspects sociologiques de la pratique médicale, à savoir qui a accès aux soins, à l’instruction, à l’alimentation, etc. Donc bébé, eau du bain, pas jeter.)

Et d’un point de vue plus fondamental, on retrouve régulièrement des arguments du type « les noirs courent plus vite, c’est bien la preuve » (voir ce billet de Curieux2 savoir), ou plus subtils comme les différences de tolérance au lactose, qui utilisent la corrélation entre des différences génétiques géographiquement structurées, et les « races » traditionnellement définies, pour soutenir finalement le bon gros racisme à l’ancienne. Qui n’est pas parti bien loin d’après l’actualité. 🙁

En conclusion, ce n’est pas parce qu’en groupant les humains en classes grossières qu’on trouve des différences entre ces paquets, que les paquets sont « vrais » ni même utiles. Quand vous pensez diversité humaine, pensez gradients sur une carte, c’est plus joli et plus vrai que des noms dans un tableau.

(Juste après que j’ai publié ce billet, je vois un billet intéressant sur le blog du statisticien Nate Silver, connu pour ses prédictions concernant les élections américaines :  In An Election Defined By Race, How Do We Define Race?)

Intolérance au lactose : l’état normal peut-il être appelé une maladie ?

En préparant le billet précédent sur les mutations, j’ai remarqué que l’intolérance au lactose était noté dans Wikipedia francophone comme une pathologie. Je trouve que cela pose la question de ce que l’on classifie comme « pathologie » ou « maladie ». L’état commun à tous les mammifères est d’exprimer la lactase (qui digère le lactose) comme bébés, et d’arrêter de l’exprimer quand ils sont sevrés et ne consomment donc plus de lait.

La plupart des humains ont conservé cet état, normal chez les mammifères : 65%  de la population humaine d’après le NIH (institut américain de la recherche médicale ; lien). Il y a deux mutations principales expliquant l’état minoritaire, dans lequel on continue à digérer le lactose du lait après le sevrage.

Parenthèse sur les gènes : parmi les gènes, beaucoup codent pour des protéines. En ce cas, une partie de l’ADN contient l’information codant pour la protéine elle-même, on appelle cela l’ADN « codant ». Autour de cet ADN codant, de l’ADN non codant, dont une part ne fait rien (en première approximation), mais aussi une part qui régule le gène. Cet ADN « régulateur » dirige quand et où (dans quels types de cellules – cerveau, intestin, muscle) la protéine est exprimée. Il le fait en permettant de fixer d’autres protéines, régulatrices, mais n’entrons pas dans les détails. Ce qui est important c’est que des mutations peuvent affecter un gène soit en changeant la partie codante, soit la partie régulatrice. Complexité supplémentaire, chez les eucaryotes, dont les humains, la partie codante est souvent découpée en morceaux (exons) interrompus par du non codant (introns), lequel peut être régulateur ou non. Dé plous en plous difficile, une séquence régulatrice d’un gène peut être dans l’intron d’un autre gène.

(Accessoirement, ce genre de bazar c’est ce qu’on attend d’un système fruit de milliards d’années de mutations au hasard, pas d’une intelligence créatrice ; je dis ça pour ceux qui s’émerveillent comme le vivant est bien fait.)

Avec tous ces outils conceptuels, voici les mutations courantes du gène lactase humain :

Mutations du gène de lactase (cliquez pour la source)

Mutations du gène de lactase (cliquez pour la source)

Le gène LPH code pour la lactase, les petites boîtes en c sont les exons, le gène voisin MCM6 (que de poésie) a aussi des petites boîtes exons et des introns les séparant, et en d on voit les mutations (« SNP » = single nucleotide polymorphism prononcé « snip » (SNP happens est un de mes t-shirt scientifiques favoris)). A gauche, les mutations dans des introns de MCM6 qui modifient la régulation de la lactase chez des soudanais, kényans ou tanzaniens, à droite celles qui le modifient chez des européens du nord (c’est pas un peu raciste d’écrire « finnois » mais « africains » ci-dessus ? j’espère y revenir dans un prochain billet [c’est fait]).

Donc on a un état à la fois ancestral et majoritaire, et un état minoritaire, mutant disons-le, du à l’une ou l’autre mutation relativement récente (on estime dans les 10’000 ans, pour une échelle la séparation avec Néanderthal c’est environ 600’000 ans).

Et pourtant c’est cet état majoritaire ancestral qui est qualifié de pathologie. Par exemple ici au NIH, ici au Mayo Clinic (gros centre hospitalier privé américain), ici un autre institut du NIH, et en français (rien de l’INSERM, homologue du NIH ?) je trouve AXA prévention ici ou le Figaro Santé ici.

Il me semble que ceci pose des questions intéressantes de ce qui doit être considéré une pathologie. Un collègue à la fois médecin et bioinformaticien me disait récemment avoir soulevé le problème pour la classification informatique des pathologies, en prenant l’exemple de sa calvitie : est-ce simplement un aspect de son apparence, ou une pathologie ? Une partie du problème est que si l’on veut classifier quelque chose dans un cadre médical, alors le concept de pathologie est simple et déjà présent. Un autre aspect est de savoir si un phénotype est gênant : être chauve peut gêner certaines personnes, surtout si cela se déclare dès l’adolescence. Mais pas d’autres. Ne pas digérer le lactose à l’état adulte pose problème si vous êtes dans une société où la plupart des gens le digèrent, et donc il est un composant normal de l’alimentation. Mais si l’absence d’une mutation avantageuse est une maladie, alors toute apparition d’une maladie mutation avantageuse créé-t-elle une maladie correspondante chez ceux qui ne l’ont pas ? Ceux d’entre nous qui ne sont ni tibétains ni andins et ne sommes pas adaptés aux hautes altitudes souffrons-nous de sensibilité à l’altitude ? Est-ce une pathologie touchant 99% des humains ?

Je pose ces questions là, je n’ai pas de réponses.

En évolution, les mutations sont au hasard, ça veut dire quoi au hasard ?

peruvian_corn

Un des fondements de la théorie néo-darwinienne de l’évolution par sélection naturelle est que les mutations sont au hasard. L’adaptation des êtres vivants à leur organisme, les yeux qui voient et les enzymes qui digèrent et les ailes qui volent, sont permis par la sélection naturelle qui vient après les mutations.

Ce sont le hasard et la nécessité de Monod : le hasard des mutations, la nécessité de la sélection naturelle.

Que veut dire « les mutations sont au hasard » ?

L’ADN est constitué de 4 bases : A, G, T et A. Au hasard, ça pourrait vouloir dire 1 chance sur 3 d’obtenir chacune des 3 bases possibles lors d’une mutation (pas 1 sur 4 parce que muter de A vers A ce n’est pas muter). Mais si à partir de A on a 1 chance sur 2 de muter vers G et 1 sur 4 pour C et T, n’est-ce plus du hasard ? Si je tire 2 dés et que je fais la somme, je n’ai pas 1 chance sur 11 d’obtenir chacun des nombres possibles (1+1=2 à 6+6=12), mais 1 chance sur 6 d’obtenir 7 et seulement 1 sur 36 d’obtenir 2 ou 12. La somme de deux dés n’est-elle pas du hasard ? Si, elle l’est, simplement la distribution parmi laquelle le résultat est obtenu au hasard n’est pas uniforme (toutes les possibilités ne sont pas égales). De même, les 4 bases n’ont pas la même probabilité d’être obtenues par mutation. Par exemple A et G sont de même type chimique, ce sont des purines, et une mutation A vers G (et réciproquement) est donc plus fréquente qu’une mutation de A vers C ou T.

Un génome humain fait 3,2 milliard de bases. Au hasard, ça pourrait aussi vouloir dire que toutes ces bases ont la même chance de muter à chaque génération. Mais ce n’est à nouveau pas le cas. Par exemple si beaucoup de bases identiques se suivent il y a davantage de chances d’avoir une erreur de rajout ou de perte d’une des bases (AAAAAAA devient AAAAAA ou AAAAAAAA) que pour une séquence plus complexe. Ah oui parce que les mutations ce n’est pas que des remplacements d’une base par une autre, il peut aussi y avoir des gains ou pertes de bases, ou de blocs de millers de bases, des inversions de blocs de bases, etc. Et chacun de ces types de mutation a des probabilités de se produire spécifiques.

Donc, les mutations ne sont pas uniformes.

De plus, strictement parlant, rien n’est au hasard dès que l’on sort de la physique quantique. Le résultat d’un dé est déterminé par la vitesse et l’angle auquel on l’a lancé, sa forme exacte, la surface où il atterri, etc etc. Pourtant non seulement on accepte généralement le résultat d’un dé comme « au hasard », mais un grand nombre de lancés de dés va bien suivre les attentes probabilistes. Sans entrer dans le détail des raisonnements probabilistes ici (notons juste que l’on doit raisonner en probabilités en fonction de notre ignorance de la situation – par exemple des forces agissant sur le dé), une analogie pertinente à l’évolution est que la somme des forces agissant sur le dé, et amenant un résultats ou un autre, ne doit rien aux intentions du joueur qui voudrait obtenir le chiffre le plus élevé possible.

Alors, venons-en au fait. Que veut dire au hasard dans le cadre de la théorie de l’évolution ?

Et bien c’est très simple. Au hasard, ça veut dire que les mutations se produisent indépendamment de leurs effets sur les organismes. Quand un A mute vers un G, la probabilité de cette mutation est indépendante de l’effet de la mutation sur l’organisme. La mutation se produit plus ou moins probablement selon que ce sont toutes deux des purines ou pas, selon que c’est une zone de l’ADN plus ou moins complexe, etc. Elle ne se produit pas plus ou moins probablement selon que l’organisme a besoin de cette mutation ou pas à ce moment. La somme des forces chimiques et physiques agissant sur les mutations est indépendante de l’avantage ou du désavantage sélectif de la mutation.

En termes plus formels, de connaître l’un n’apprend rien sur l’autre : de savoir quelles mutations sont probables ne me dit pas lesquelles sont avantageuses, de savoir quelles mutations sont avantageuses ne me dit pas lesquelles sont probables. Corrélation nulle.

Pourquoi est-ce important ? On ne comprend pas l’évolution du vivant si on ne comprend pas ce rôle central du hasard, et donc en quoi il consiste. On n’a pas une mutation de régulation de lactase permettant de digérer le lait chez les adultes parce qu’on en a besoin quand on élève des vaches. Lorsque l’on élève des vaches, cette mutation devient avantageuses, mais elle se produisait avant l’élevage avec la même fréquence.

Types de sélection naturelle, avec emojis ????

Hé bin, ça fait un moment que je n’ai pas blogué ! J’ai été un peu débordé, et après c’est difficile de reprendre le rythme.

On va redémarrer en douceur avec une illustration rigolote de la sélection naturelle que j’ai vu cet été sur Twitter :

La sélection naturelle, c’est le fait que les individus ont plus ou moins de succès de survie + reproduction et qu’une partie des différences sont dues à des différences génétiques entre eux. Les variants génétiques favorables à davantage de survie + reproduction sont favorisés.

Les émojis ci-dessus illustrent une différence souvent mal comprise entre types de sélection naturelle. Dans le détail :

  • La sélection positive (attention piège : le terme est utilisé dans un sens différent en immunologie) favorise un nouveau variant (généralement un nouveau mutant), donc accélère l’évolution. Dans le cas présenté ci-dessus, une mutation apparaît qui donne des souris aux poils foncés ; c’est avantageux par rapport aux poils clairs (peut-être sont-ils nocturnes) et la mutation s’impose dans l’espèce.
  • La sélection négative (même piège en immuno que ci-dessus) favorise ce qui établi. La même mutation donnant des poils foncés apparaît mais cette fois il est avantageux d’être clair (des souris diurnes dans les dunes de sable). Donc la sélection négative ralentit l’évolution.

Si vous avez pensé « mais comment ça se fait que les souris ne sont pas déjà sombres si elles sont nocturnes ? », vous avez raison. La plupart du temps, les organismes ont déjà fixé les variations fortement avantageuses dans leur environnement, car elles y sont depuis assez longtemps. De plus, la plupart des mutations (parmi celles qui ont un effet) affectent des aspects qui dépendent peu des détails de l’environnement (par exemple reconnaître une hormone comme l’œstrogène commune à tous les animaux vertébrés). Donc : la sélection négative est nettement plus fréquente que la sélection positive. C’est intuitif : modifiez au hasard un truc compliqué qui marche, y a nettement plus de chances de l’abîmer que de l’améliorer.

  • La sélection balancée correspond au cas plus spécial où la sélection naturelle maintien plusieurs variants génétiques en même temps. Alors attention la sélection naturelle n’agit pas pour le bien de l’espèce. Soulignez deux fois en rouge. La sélection naturelle ne peut pas maintenir de la variation du système immunitaire (par exemple) parce que c’est bon pour l’espèce, contrairement à un sélectionneur artificiel s’il était malin. La sélection naturelle agit au niveau des individus. Malgré tout il y a plusieurs mécanismes qui peuvent quand même maintenir cette diversité. Les deux les mieux compris sont (1) l’avantage hétérozygote, quand il est mieux d’avoir deux versions du gène dans un individu (exemple : mieux d’avoir des versions différentes du MHC pour se défendre contre plus de pathogènes), et (2) la sélection dépendant de la fréquence, quand c’est mieux d’être sombre quand il y a beaucoup de clairs, mais mieux d’être clair quand il y a beaucoup de sombres (exemple : mieux de manger une proie que moins de vos congénères mangent).
  • La sélection artificielle c’est grosso-modo de la sélection positive, mais avec un sélectionneur qui sait ce qu’il veut obtenir, et peut sélectionner contre l’intérêt de l’individu. En général ça peut aller très vite.
  • Le dernier point est une blague parce que la sélection disruptive favorise les phénotypes extrêmes, ce qui est généralement représenté comme une courbe bimodale, rappelée par les deux bosses du chameau (cf ici).

En résumé : sélection positive = révolution, sélection négative = conservatisme, sélection balancée = bipartisme. 😉 (Et oui parfois les révolutionnaires deviennent conservateurs, en évolution comme ailleurs…)

Vent de folie dans les journaux scientifiques: 1- la secte du Cladisme

Il y a eu récemment plusieurs éditoriaux ou billets d’opinion qui ont eu un certain, euh, écho sur les médias sociaux. Ils diffèrent par bien des points, mais ont en commun un certain aspect « what the fuck? » comme disent élégamment les américains.

Commençons par l’éditorial du journal Cladistics du 12 janvier (lien).  Je l’ai vu via ce tweet :

L’éditorial commence direct :

The epistemological paradigm of this journal is parsimony. There are strong philosophical arguments in support of parsimony versus other methods of phylogenetic inference (e.g. Farris, 1983).

Alors un peu de contexte. Il existe différentes méthodes pour reconstruire des arbres phylogénétiques, à savoir les relations évolutives entre espèces. Jusque dans les années 1960-70 la classification des espèces se faisait de manière très approximative, sans méthode formelle. Dans les années 1970 est apparu un mouvement appelé « cladistique », qui visait à réformer la classification des espèces en la rendant objective, suite à un livre de Willi Hennig (1966 pour l’édition anglaise). Les cladistes proposaient un critère de classification, les relations phylogénétiques. Et comme il n’existait pas de méthode objective pour reconstruire ces relations, et l’objectivité était leur objectif, ils ont aussi proposé une méthode formelle (programmable informatiquement même), dite de « parcimonie » (orthographe discutée ici 😉 ). Jusque là tout va bien. Mais dès la fin des années 1970 (1978 pour être précis) Joe Felsenstein a montré que dans certains cas identifiables la parcimonie pouvait se tromper de phylogénie de manière systématique. Ce sont ensuivies deux décénnies de débats entre d’un coté des bio-statisticiens (école dont je suis issu) qui cherchaient les limites des méthodes de phylogénie et les améliorations à y apporter, et de l’autre le groupe proclamant que seul l’usage de la parcimonie fait le vrai « cladiste », pour la plupart issues de musées d’histoire naturelle. Durant ma thèse cette dispute était encore vive, et je me rappelle de discours très agressifs de Guillaume Lecointre fustigeant les fausses phylogénies des statisticiens.

Depuis la plupart des phylogénéticiens sont passés du coté statistique de la force, notamment parce que l’amélioration conjointe des ordinateurs et du séquençage d’ADN fait que nous avons des données bien adaptées au traitement statistique. Et puis quand même une méthode dont on peut montrer qu’elle est juste a quelque chose de préférable à une méthode qu’on aime bien pour des raisons historiques (voir aussi débat dans ce billet).

Et donc l’éditorial de Cladistics, journal de la Hennig society, nous renvoie en arrière vers cette époque, et sans aucune nuance ni aucune leçon apprise. Il commence par dire que ce journal, c’est parcimonie et c’est tout. Il continue dans cette veine :

(…) we do not hold in special esteem any method solely because it is novel or purportedly sophisticated. Phylogenetic data sets submitted to this journal should be analysed using parsimony. If alternative methods are also used and there is no difference among the results, the author should defer to the principles of the Society and present the tree obtained by parsimony.

J’adore « because it is novel or purpotedly sophisticated ». Les éditeurs ne se laissent pas impressioner par une méthode juste parce qu’elle est nouvelle (plus récente que 1966) ou soit disant sophistiquée. Ca fait pas du tout vieux barbons.

Plus loin :

we do not consider the hypothetical problem of statistical inconsistency to constitute a philosophical argument for the rejection of parsimony

Les problèmes connus et documentés à répétition depuis 1978 ne les embêtent pas, puisqu’il ne s’agit pas d’un argument philosophique. Bin tiens. Une méthode d’estimation de phylogénie estime la mauvaise phylogénie, mais puisqu’elle est théologiquement philosophiquement pure, gardons-la.

Et une phrase qui a fait se gratter bien des têtes en biologie évolutive :

The absence of certain truth represents a philosophical limit of empirical science.

Euh… oui on ne sait pas toujours tout, mais est-ce une justification pour accepter des méthodes qui se plantent ?

Bref, cet édito a fait rire tout ce qu’internet a de biologistes évolutifs, avec un storify des tweets ici :

https://storify.com/phylogenomics/cladistics-journal-declares-long-live-parsimony

Il faut préciser que perso, faisant de la biologie évolutive, je n’ai plus rencontré ce genre d’attitudes depuis une vingtaine d’années, ce qui tend à indiquer que bien que des gens comme ça existent toujours, ils fréquentent peu les conférences habituelles de biologie évolutive. Je pense qu’ils vont entre eux à la conférence de la Hennig Society (voir à ce propos un compte-rendu rigolo de Dan Graur d’une de ces conférences ainsi que la discussion dans les commentaires).

Que penser de tout ceci ? Que le dogmatisme peut exister dans des sous-cultures de la communauté scientifique ; que ce dogmatisme est battu en brêche dans la communauté scientifique globale ; et qu’internet fait que ce genre d’attitudes s’attire le ridicule généralisé.

A bientôt pour une deuxième histoire d’éditorial étrange. Soyez sages.

Les datations fossiles disponibles librement sur le web

cliquez sur l'image

cliquez sur l’image

Je marche sur les plates bandes de Dinoblog aujourd’hui : une équipe internationale a publié (accès fermé, c’est vil) une base de données gratuitement et publiquement disponible sur internet, qui contient des datations de référence entièrement basées sur des fossiles reconnus et expertisés :

http://fossilcalibrations.org/

Par exemple si je cherche Hominidae, le groupe des grands singes (ourang-outang, nous, chimpanzées, gorilles), je trouve date minimum 11,6 million d’années, date maximum 33,9 millions d’années. Ah bin c’est pas toujours super précis, mais comme ça on sait où on en est.

Ce qui est super c’est qu’on voit aussi à quels fossiles et à quelles publications scientifiques la date se rattache.

On peut comparer les résultats à ceux de TimeTree, un autre site qui lui propose des dates basées sur « l’horloge moléculaire », l’hypothèse que la divergence entre protéines ou séquences d’ADN permet de dater les divergences évolutives. J’aime moins, mais c’est plus complet parce que les fossiles faut avoir du bol et l’ADN y en a toujours. Pour Hominidae on obtient une date moyenne de 15,7 millions d’années, ce qui est cohérent avec les fossiles, avec différentes études qui s’étalent entre 8 et 22 millions d’années, pas si différent des fossiles finalement :

pongohomo

Les hominidés, combien d’espèces ? Les humains, combien de races ? L’arc en ciel, combien de couleurs ?

cliquez pour voir une BD philosophique en anglais

cliquez pour voir une BD philosophique en anglais

Je suis tombé via Twitter sur un intéressant billet de blog d’un anthropologue (Andy White) qui commente la découverte d’une nouvelle espèce d’hominidé, Australopithecus deyiremeda, en Ethiopie (article dans Nature). Il fait remarquer que l’article en question utilise 17 fois le terme « espèce », mais sans jamais le définir. Or la notion d’espèces est ambigue, et dépend du contexte : type d’études, types d’êtres vivants, etc. (voir billet / podcast « Race, espèce, humanité« ). Et dans les étudies de fossiles humains (et aussi de dinosaures d’ailleurs) il y a un prestige particulier à découvrir de nouvelles espèces, encore plus si on arrive à les placer comme ancêtres d’Homo sapiens (homme de Cro Magnon, Angela Merkel, etc).

Pour montrer la difficulté de l’exercice, Andy White a dessiné la figure ci-dessous, qui m’a tellement plue que je fais ce billet de blog pour vous la montrer :

Figure tirée du billet de blog Andy White Anthropology

Figure tirée du billet de blog Andy White Anthropology

Si on suppose une seule espèce, avec forcément de la variabilité (pensez à la diversité des humains actuels), si on a juste quelques fossiles on a des chances d’observer des différences apparemment bien séparées et les distinguant, alors que ce ne sont que de petits bouts de la variabilité continue.

C’est très semblable aux arguments que l’on retrouve souvent sur les supposées races humaines (voir ce billet). La variation continue des humains peut apparaître comme formant des groupes bien séparés lorsque l’on étudie que quelques populations distinctes. Or typiquement les données de génomique ne concernent (pour le moment) que quelques échantillons de quelques populations, genre quelques français, quelques chinois, quelques yoruba. Avec ça, on voit des différences qui séparent bien ces groupes. Mais c’est juste parce qu’on a raté la variation continue qui les relie.

En ce qui concerne l’arc en ciel, je laisse la question aux philosophes.

Sans blogs, les erreurs dans les articles scientifiques restent masquées très longtemps

error

cliquez sur l’image

Une petite suite à mon billet récent sur les critiques Twitter d’un article prestigieux. Aujourd’hui Lior Pachter (dont on a déjà parlé sur ce blog : les méthodes comptent, rififi chez les bioinformaticiens, écrire un mauvais article) a publié un nouveau billet. Dedans, il part d’un article publié récemment en preprint (version publique non encore publiée officiellement, voir ici), pour critiquer un article de 2004, de Kellis et al dans Nature (depuis Manolis Kellis est devenu un des poids lourds de la génomique). Dans Kellis et al 2004, les auteurs donnent une proportion de 95% de gènes dupliqués où seul l’un des deux évolue rapidement, et disent que c’est frappant (« striking ») et que ça soutient une hypothèse classique d’évolution des gènes dupliqués.

Lior met au défi ses lecteurs de déterminer la probabilité d’observer ce résultat : est-ce réellement frappant, ou au contraire attendu même si l’hypothèse est fausse ?

Et ce qui me frappe, moi, c’est un commentaire où Lior publie un email qu’il vient de recevoir. Un collègue anonyme lui envoie la lettre qu’il avait écrite au journal Nature à l’époque, en 2004. Laquelle lettre détaille le calcul de la probabilié associée, et montre que loin d’être frappant, le résultat invalide même légèrement l’hypothèse classique. Lettre que Nature a refusé de publier. Donc que personne n’a vu entre 2004 et 2015.

Pourquoi est-ce que ça me frappe ? Parce que ça montre une fois de plus qu’en l’absence de la communication scientifique informelle par les blogs et Twitter, le système a été vérouillé par quelques-uns, qui n’ont pas permis à la discussion scientifique d’avancer comme elle le devrait. Cette discussion ouverte, à laquelle participe également la publication open access / libre accès, est essentielle. Nous vivons une révolution pacifique et très positive, et il faut en être conscient et la soutenir.

Mise à jour : grosse discussion générée sur Twitter, avec intervention de l’excellent Alan Drummond entre autres (cliquez sur le Tweet pour voir les réponses). Et vive les médias sociaux en science.