Archives pour la catégorie humain

Ne mélangez pas « il n’y a pas un gène pour ça » et « ce n’est pas génétique »

Carte des résultats les plus significatifs pour divers traits sur le génome humain. Cliquez pour l’original interactif.

Entre les années 1970 et 2000, il y a eu une mode de recherche de gènes « pour » des tas de caractères compliqués, du style l’obésité, l’intelligence, la réussite, l’homosexualité, la tendance à chercher des gènes, etc. Et en contre partie, les critiques de ces études mettaient en exergue le fait que ces traits ne soient pas déterminés par les gènes. Exceptionnellement, les deux extrêmes avaient tort, et la vérité est plus complexe.

Pour comprendre la discussion, prenons un exemple moins controversé : la taille. Qui plus est, c’est facile à mesurer sans ambiguïté, contrairement à l’intelligence ou l’orientation sexuelle.

  • La taille a une composante héréditaire : si les parents sont plus petits, les enfants sont plus petits.
  • Cette composante héréditaire n’est pas due juste à un environnement partagé, mais bien à une part génétique : mêmes adoptés, même dans un environnement très différent, des enfants auront une taille plus grande si leurs parents sont plus grands.
  • Mais il y a aussi une part environnementale : si des enfants grandissent avec plus ou moins à manger, une nourriture plus ou moins diversifiée, plus ou mois accès aux soins ou pas, etc, ils seront plus ou moins grands ; ce qui est illustré par l’augmentation de taille de la population de chaque pays lorsqu’il se modernise : ce n’est pas la composante génétique qui change.
  • Mais mais, il n’y a pas un gène de la taille ! La taille est le résultat de nombreux effets, interactions entre de nombreux gènes et de nombreux facteurs environnementaux.

Avec cet exemple, on voit que ce n’est pas un simple choix « il y a un gène qui détermine », ou « ce n’est pas génétique ». De nombreux gènes influencent la taille, et c’est le cas pour la plupart des caractéristiques complexes qui sont intéressantes. Chacun de ces gènes a une contribution individuelle très mineure : il n’y a même pas 5 ou 10 « gènes de la taille ».

En fait, tellement de gènes sont impliqués, avec de si faibles contributions, que lorsque l’on a commencé à faire des études grande échelle de recherche des gènes impliqués dans la taille, on n’a presque rien trouvé. Alors avec d’un coté une composante héréditaire claire, d’autre part pas de gènes détectés, on a parlé d’hérédité manquante. Il y a eu beaucoup de spéculations sur le rôle des interactions entre gènes ou autres phénomènes pouvant expliquer la différence entre rôle des gènes détectés (peu) et hérédité (élevée). En fait, c’est juste que les effets sont tellement faibles qu’il faut beaucoup de données pour les mesurer avec confiance, donc des études avec les génomes de beaucoup de personnes : 253’288 individus pour trouver 697 variants génétiques qui expliquent 1/5ème de la variation de taille dans Wood et al 2014 ; « seulement » 44’126 individus, mais avec de meilleures données génomiques (séquences complètes et non variants prédéfinis) et une meilleure méthode pour expliquer 56% de la variation de taille avec … 17 millions de variants génétiques dans Yang et al 2015.  Il y a bien un effet génétique fort (56%), mais qui n’est absolument pas attribuable à un ou quelques gènes (dix-sept millions de variations !).

Et c’est là qu’on peut revenir aux débats sur « le gène de l’intelligence ». Il est clair que des traits tels que l’intelligence, à supposer que l’on puisse les définir objectivement, sont le résultat de l’interaction de nombreux effets, et que certains seront génétiques et d’autres environnementaux. Il est donc illusoire de chercher « le gène ». Mais il est également illusoire de penser qu’il n’y a pas de part génétique.

Cette dernière phrase peut être surprenante pour beaucoup de gens, en tous cas dans mon expérience. Il y a l’idée que de reconnaître une part génétique de traits importants socialement serait inégalitaire ou déterministe. Et une résistance de certains en sciences humaines à l’idée que la biologie serait pertinente à comprendre le comportement humain.

Pour le déterminisme, reprenons l’exemple de la taille : face à l’héritabilité importante de la taille, serait-il justifié qu’il ne sert à rien de bien nourrir les enfants pour les aider à grandir ? Non, tout le monde grandira mieux s’il est bien nourri. Par exemple les français semblent avoir gagné 5 cm en moyenne entre 1960 et 1990 (Wikipedia) (à noter aussi pour tous les nostalgiques qui pensent qu’on était tellement plus sains avant). De même, ce n’est pas parce qu’il y a des facteurs génétiques pour des traits comportementaux complexes qu’il y a une fatalité. Et de toutes façons, s’il y a une composante génétique il y en a une, que ça fasse plaisir ou non.

Alors y a-t-il des éléments de preuve pour une composante génétique pour l’intelligence ? L’intelligence en soi c’est très difficile à définir objectivement, mais il commence à y avoir des éléments concernant des traits de ce type. C’est un domaine en évolution rapide, donc résultats à prendre avec des pincettes, surtout si vous tombez sur ce billet quelques temps après sa publication en janvier 2017.

Okbay et al 2016 ont étudié 293’723 personnes (avec réplication des résultats dans un autre groupe de 111’349 personnes). Ils ont trouvé  74 variations dans le génome qui sont associées au nombre d’années d’études. De manière intéressante, ces variations sont surtout dans des gènes actifs dans le développement embryonnaire du cerveau. Ce qui tend à conforter l’idée que ce soient des résultats pertinents et non dus au hasard.

Approche différente : des régions du génome peuvent être manquantes ou au contraire en double chez certaines personnes. On les appelle Copy Number Variants. Männik et al 2015 ont caractérisé chez 7877 estoniens en bonne santé ces Copy Number Variants et ont trouvé que les personnes ayant de gros morceaux d’ADN en trop ou pas assez avaient moins bien réussi leurs études que les autres personnes.

Enfin, Ganna et al 2016 ont cherché les variations génétiques très rares (observées une seule fois jusqu’ici), dans 14’133 personnes. Ils trouvent que les personnes ayant des mutations affectant la fonction d’un gène ont une réussite éducative plus faible, et ceci spécifiquement pour les gènes actifs dans le cerveau.

Au final, les humains sont des animaux, et il n’y a pas de raison de penser que notre comportement et nos capacités ne soient pas en partie génétiques. En acceptant cela, il faut garder à l’esprit que :

  1. nous sommes chacun le résultat d’une interaction génome x environnement ;
  2. ce n’est pas pour autant qu’il existe un « gène pour X » ;
  3. détecter ces composantes génétiques est très difficile, et nous n’en sommes qu’au début, donc prendre chaque résultat individuel avec des pincettes (y compris les exemples donnés ici) ;
  4. et donc ne pas croire tout titre provocateur « l’intelligence vient de la mère » ou je ne sais quoi ;
  5. la variation génétique ne correspond pas aux « races » traditionnelles (qui ne correspondent d’ailleurs à rien).

Plus loin de l’Afrique, plus de mutations délétères mais moins de variabilité génétique humaine

L’humanité (Homo sapiens) vient d’Afrique sub-saharienne. Il y a environ 50’000 ans certains humains sont sortis d’Afrique et leurs descendants se sont dispersés un peu partout dans le monde, voir carte ci-dessous.

Dispersion de Homo sapiens ces dernières 50'000 ans. Points colorés : échantillons utilisés dans l'article que dont il est question plus bas.

Dispersion de Homo sapiens ces dernières 50’000 ans. Points colorés : échantillons utilisés dans l’article que dont il est question plus bas.

Une question intéressante, et qui nous ramène à la question de la pertinence de la classification des humains en « races », est l’effet de cette histoire sur la diversité génétique humaine.

Pour bien comprendre ce qui va suivre, quelques éléments de génétique des populations :

Premièrement, une mutation peut avoir un effet bénéfique (super rare, améliorer un truc en le modifiant au hasard), négatif (casser un truc qui marche c’est facile), ou neutre (aucun effet, très fréquent dans les génomes d’animaux ou de plantes). Voir ce billet pour les types de sélection naturelle correspondant aux deux premiers ; les mutations neutres ne sont pas soumises à la sélection naturelle.

Deuxièmement, plus une population est grande, plus la sélection naturelle est puissante. Cette observation simple a de grandes conséquences. Lorsque la population est plus petite, la sélection naturelle est moins puissante. Alors une mutation qui a un effet faiblement négatif ne sera pas éliminée, et se comportera comme si elle était neutre. Il s’agit d’un effet continu : plus la population est petite, plus une mutation devra être grave pour être éliminée, plus de mutations se comporteront comme si elles étaient neutres.

Ca se corse et ça devient intéressant : lorsqu’il y a expansion par migration (comme lors de la sortie de certains humains d’Afrique), le groupe qui part est un sous-ensemble de la population globale. Donc déjà du départ il n’emporte pas toute la variabilité génétique. Si je prends 100 parisiens au hasard j’aurais moins de diversité (génétique, de noms de famille, de goûts vestimentaires) que dans tout Paris. Si quelques milliers d’humains sont partis d’Afrique, ils avaient moins de diversité qu’il n’y en avait dans l’humanité en Afrique. Et ces migrants, étant peu nombreux, formaient une petite population. Donc sélection naturelle faible, faible élimination de mutations délétères. Et ce phénomène se reproduit au fur et à mesure des étapes suivantes d’expansion de l’espèce : ceux qui vont plus loin sont toujours un sous-ensemble ayant perdu de la diversité de départ et ayant du mal à éviter les mutations délétères.

Est-ce que l’on observe bien cela ? C’est l’objet d’un article publié en janvier 2016 :

Henn et al 2016 Distance from sub-Saharan Africa predicts mutational load in diverse human genomes PNAS 113: E440-E449

Première figure : le taux de variabilité génétique dans les 7 populations échantillonnées sur la carte ci-dessus (les couleurs correspondent) :

Hétérozygotie de 7 populations humaines, classées selon leur distance à l'origine africaine de l'espèce

Hétérozygotie de 7 populations humaines, classées selon leur distance à l’origine africaine de l’espèce

Que voit-on ? Le plus de variabilité génétique dans les populations descendantes des humains jamais partis du lieu d’origine de l’espèce. Et de moins en moins de variabilité génétique lorsque l’on s’éloigne de l’Afrique, pour arriver à un minimum en Amérique (il s’agit de descendants des amérindiens arrivés par le détroit de Béring), au plus loin de l’Afrique en marche à pied.

Deuxième figure, pareil mais en ne montrant que les mutations qui sont probablement délétères (ici on suppose que de l’ADN généralement conservé entre primates est probablement important, donc le modifier est probablement délétère) :

Fréquence des mutations délétères dans 7 populations humaines

Fréquence des mutations délétères dans 7 populations humaines, classées selon leur distance à l’origine africaine de l’espèce

Que voit-on ? Plus on s’éloigne de l’Afrique, plus on a de mutations délétères accumulées, comme attendu. Plus en détail, on a :

Pareil que la figure précédente, mais en trois catégories : peu délétères, moyennement, et très délétères.

Pareil que la figure précédente, mais en trois catégories : peu délétères, moyennement, et très délétères.

On voit que pour les mutations un peu mauvaises (à gauche et au milieu), l’effet de la distance à l’Afrique est très fort, avec un de plus un saut entre africains et les autres. Alors que pour les mutations très mauvaises (à droite), il y a un effet de la sortie d’Afrique, mais faible, et pas d’effet mesurable des migrations suivantes. On peut penser que la plupart de ces mutations très mauvaises sont éliminées même avec une population assez petite.

Conclusions : (1) la diversité de l’espèce humaine est en Afrique sub-saharienne ; (2) ce qui distingue le plus les humains hors d’Afrique sub-saharienne (y inclut tous les blancs et asiatiques) des africains (donc la plupart des noirs), ce sont des mutations à effet négatif, qui font que nous sommes moins aptes génétiquement (je dis nous parce que c’est mon cas, ne vous sentez pas visé si vous avez la chance d’être africain).

A propos de races humaines et de tolérance au lactose

Nous parlions récemment (avant d’être déraillé par le débat OGM, comme d’hab) de tolérance au lactose chez certains humains : mutations au hasard ? et état normal = maladie.

Dans ce dernier billet, je m’étonnai de ce qu’un résultat de génétique de quelques populations humaines soit labellisé « African » et un autre « Finnish » (finois) sur un site d’information officiel américan, alors que dans l’étude originale les groupes ethniques africains concernés étaient bien spécifiés. Je pense que cela se rattache en partie à la réification (croire qu’un concept est réel) du concept de « races humaines ». Pour rappel, j’avais écrit mon premier billet sur ce blog à ce sujet.

Concernant la tolérance au lactose, voici une carte de l’ancien monde avec la fréquence de la tolérance :

Figure de Itan et al 2010 (cliquez pour l'article)

Figure de Itan et al 2010 (cliquez pour l’article)

Sur cette carte vous voyez des zones rouge-orange, qui correspondent aux origines des mutations permettant la digestion du lactose chez l’adulte (il y en a plusieurs, indépendantes, à différents endroits). A ces endroit la sélection naturelle a eu le temps d’augmenter la fréquence de la mutation dans la population jusque presque tout le monde (rouge = plus de 90% de la population tolérante). En bleu, les endroits où la mutation n’a pas encore eu le temps d’acquérir une fréquence élevée, car elle doit d’abord arriver par le jeu des migrations et des mariages / reproduction, et elle ne présente un avantage que depuis la domestication des vaches veaux cochons couvées (surtout les premiers), donc pas très longtemps en termes évolutifs.

Voici maintenant une carte des « races humaines » traditionnelles (j’ai pris le premier résultat Wikipedia, mais l’idée générale serait la même avec n’importe quelle carte) :

meyers_b11_s0476a

Est-ce qu’en louchant bien vous arrivez à faire correspondre les couleurs sur ces deux cartes ? Parce que moi, non. Et pourtant.

Le site d’information cité précédemment est une collection d’articles médicaux sur l’intolérance au lactose, et ils classifient tout le temps les gens en groupes raciaux socialement reconnus, dont « African Americans », pour lesquels on attribue les différences à l’origine génétique « africaine ». Par exemple :

Frequency of Lactose Intolerance in Adults in Various Populations

Location % Lactose Intolerant Adults
Asians, US 90–100
Ibo, Yoruba, Africa 90
Inuits, Greenland 85
Southern Italians 71
African Americans 65
Caucasians, US 21
British, UK 6
Danes 3

ou encore :

Lactose intolerance is estimated to affect 25% of the American population.
Group prevalence is as follows:
—  15% (6% to 19%) – whites
—  53% – Mexican Americans
—  62% to 100% – Native Americans
—  80% –  African Americans
—  90% –  Asian Americans

et :

Within the United States, 80–90% of African Americans, 95–100% of Native Americans, 80–90% of Asian Americans, and 50–55% of Latinos may be lactose intolerant.

En regardant ces chiffres, il est naturel de penser que les différences de tolérance au lactose sont structurées selon les « races » traditionnelles, et que notamment les africains / africains-américains ne digèrent pas le lactose. Pourtant ce n’est pas ce que l’on voit sur la première carte, qui représente les vraies données.

Plusieurs choses contribuent à cette incohérence. Premièrement, et la génétique de la lactase, et la classification en « races », suivent la géographie. On a donc un problème classique de corrélation erronée due à un facteur confondant : si A est corrélé à la géographie et que B est corrélé à la géographie, alors A et B apparaîtront corrélés. C’est pour ça que le choix de la carte des « races » n’est pas important : toute division arbitraire mais géographiquement organisée arrivera à ce type de résultat. Je suis sur qu’on trouverait des différences de tolérance au lactose entre religions, entre groupes linguistiques, etc.

Deuxièmement, on échantillonne souvent très mal la diversité humaine. Donc si je ne mesure la tolérance au lactose que dans une petite partie de l’Afrique, je peux tomber sur une région avec forte tolérance, ou forte intolérance, au lactose. Et c’est là où ça devient raciste, c’est à quelle région ou groupe humain allez-vous généraliser votre résultat. Si vous êtes d’origine européenne, vous êtes probablement sensible à la différence entre régions et pays, peut-être même savez-vous que les finnois ne sont pas scandinaves. Mais il est probable que vous ayez une idée assez vague de la diversité africaine, et qu’il soit tentant de labelliser un résultat d’une région africaine en « Afrique ». C’est compliqué dans le cas des africains-américains par le fait que les traites négrières ont préférentiellement pris les gens de certaines régions (et même ethnies) pour les emmener de force en Amérique (excellente visualisation ici) ; donc les africains-américains ne portent pas la diversité génétique africaine.

Pourquoi est-ce important ? D’un point de vue pratique, la recherche et la pratique médicales américaines sont très organisées autour de ces catégories, et cela peut mener à mal estimer les risques pour des groupes en fait très hétérogènes, même si dans le cas du lactose ce n’est pas très grave probablement. Mais la recherche médicale américaine étant très influente (en gros ils sont les meilleurs, on peut être plus nuancés mais ce n’est pas le lieu), ces catégories se retrouvent reprises par plein d’études où elles ne sont pas pertinentes. (Entre parenthèses, les races sociologiquement définies sont pertinentes aux aspects sociologiques de la pratique médicale, à savoir qui a accès aux soins, à l’instruction, à l’alimentation, etc. Donc bébé, eau du bain, pas jeter.)

Et d’un point de vue plus fondamental, on retrouve régulièrement des arguments du type « les noirs courent plus vite, c’est bien la preuve » (voir ce billet de Curieux2 savoir), ou plus subtils comme les différences de tolérance au lactose, qui utilisent la corrélation entre des différences génétiques géographiquement structurées, et les « races » traditionnellement définies, pour soutenir finalement le bon gros racisme à l’ancienne. Qui n’est pas parti bien loin d’après l’actualité. 🙁

En conclusion, ce n’est pas parce qu’en groupant les humains en classes grossières qu’on trouve des différences entre ces paquets, que les paquets sont « vrais » ni même utiles. Quand vous pensez diversité humaine, pensez gradients sur une carte, c’est plus joli et plus vrai que des noms dans un tableau.

(Juste après que j’ai publié ce billet, je vois un billet intéressant sur le blog du statisticien Nate Silver, connu pour ses prédictions concernant les élections américaines :  In An Election Defined By Race, How Do We Define Race?)

Intolérance au lactose : l’état normal peut-il être appelé une maladie ?

En préparant le billet précédent sur les mutations, j’ai remarqué que l’intolérance au lactose était noté dans Wikipedia francophone comme une pathologie. Je trouve que cela pose la question de ce que l’on classifie comme « pathologie » ou « maladie ». L’état commun à tous les mammifères est d’exprimer la lactase (qui digère le lactose) comme bébés, et d’arrêter de l’exprimer quand ils sont sevrés et ne consomment donc plus de lait.

La plupart des humains ont conservé cet état, normal chez les mammifères : 65%  de la population humaine d’après le NIH (institut américain de la recherche médicale ; lien). Il y a deux mutations principales expliquant l’état minoritaire, dans lequel on continue à digérer le lactose du lait après le sevrage.

Parenthèse sur les gènes : parmi les gènes, beaucoup codent pour des protéines. En ce cas, une partie de l’ADN contient l’information codant pour la protéine elle-même, on appelle cela l’ADN « codant ». Autour de cet ADN codant, de l’ADN non codant, dont une part ne fait rien (en première approximation), mais aussi une part qui régule le gène. Cet ADN « régulateur » dirige quand et où (dans quels types de cellules – cerveau, intestin, muscle) la protéine est exprimée. Il le fait en permettant de fixer d’autres protéines, régulatrices, mais n’entrons pas dans les détails. Ce qui est important c’est que des mutations peuvent affecter un gène soit en changeant la partie codante, soit la partie régulatrice. Complexité supplémentaire, chez les eucaryotes, dont les humains, la partie codante est souvent découpée en morceaux (exons) interrompus par du non codant (introns), lequel peut être régulateur ou non. Dé plous en plous difficile, une séquence régulatrice d’un gène peut être dans l’intron d’un autre gène.

(Accessoirement, ce genre de bazar c’est ce qu’on attend d’un système fruit de milliards d’années de mutations au hasard, pas d’une intelligence créatrice ; je dis ça pour ceux qui s’émerveillent comme le vivant est bien fait.)

Avec tous ces outils conceptuels, voici les mutations courantes du gène lactase humain :

Mutations du gène de lactase (cliquez pour la source)

Mutations du gène de lactase (cliquez pour la source)

Le gène LPH code pour la lactase, les petites boîtes en c sont les exons, le gène voisin MCM6 (que de poésie) a aussi des petites boîtes exons et des introns les séparant, et en d on voit les mutations (« SNP » = single nucleotide polymorphism prononcé « snip » (SNP happens est un de mes t-shirt scientifiques favoris)). A gauche, les mutations dans des introns de MCM6 qui modifient la régulation de la lactase chez des soudanais, kényans ou tanzaniens, à droite celles qui le modifient chez des européens du nord (c’est pas un peu raciste d’écrire « finnois » mais « africains » ci-dessus ? j’espère y revenir dans un prochain billet [c’est fait]).

Donc on a un état à la fois ancestral et majoritaire, et un état minoritaire, mutant disons-le, du à l’une ou l’autre mutation relativement récente (on estime dans les 10’000 ans, pour une échelle la séparation avec Néanderthal c’est environ 600’000 ans).

Et pourtant c’est cet état majoritaire ancestral qui est qualifié de pathologie. Par exemple ici au NIH, ici au Mayo Clinic (gros centre hospitalier privé américain), ici un autre institut du NIH, et en français (rien de l’INSERM, homologue du NIH ?) je trouve AXA prévention ici ou le Figaro Santé ici.

Il me semble que ceci pose des questions intéressantes de ce qui doit être considéré une pathologie. Un collègue à la fois médecin et bioinformaticien me disait récemment avoir soulevé le problème pour la classification informatique des pathologies, en prenant l’exemple de sa calvitie : est-ce simplement un aspect de son apparence, ou une pathologie ? Une partie du problème est que si l’on veut classifier quelque chose dans un cadre médical, alors le concept de pathologie est simple et déjà présent. Un autre aspect est de savoir si un phénotype est gênant : être chauve peut gêner certaines personnes, surtout si cela se déclare dès l’adolescence. Mais pas d’autres. Ne pas digérer le lactose à l’état adulte pose problème si vous êtes dans une société où la plupart des gens le digèrent, et donc il est un composant normal de l’alimentation. Mais si l’absence d’une mutation avantageuse est une maladie, alors toute apparition d’une maladie mutation avantageuse créé-t-elle une maladie correspondante chez ceux qui ne l’ont pas ? Ceux d’entre nous qui ne sont ni tibétains ni andins et ne sommes pas adaptés aux hautes altitudes souffrons-nous de sensibilité à l’altitude ? Est-ce une pathologie touchant 99% des humains ?

Je pose ces questions là, je n’ai pas de réponses.

Vent de folie dans les journaux scientifiques: 2- halte aux parasites qui osent analyser les données

Après le dogme cladiste issu du fond des ages, un nouvel épisode de « maman j’ai raté le 21ème siècle », avec l’éditorial du New England Journal of Medicine du 21 janvier. Contrairement au journal Cladistics (voir billet précédent), NEJM est très connu et reconnu, l’un des plus prestigieux de la recherche en médecine :

Dan L. Longo, M.D.*, and Jeffrey M. Drazen, M.D.* Data sharing N Engl J Med 2016; 374:276-277
* M.D. = medical doctor, parce que pour les chercheurs en médecine les titres sont souvent importants ; no comment.

Que dit l’éditorial (j’ai mis une version rapidement annotée sur Dropbox ici) ? Après avoir dit quelques mots sur la beauté théorique du partage des données, ça se gâte :

The first concern is that someone not involved in the generation and collection of the data may not understand the choices made in defining the parameters.

Les éditorialistes s’inquiètent de ce que des chercheurs n’ayant pas participé à la collecte des données ne comprennent pas les subtilités de ces données, et donc les interprètent mal. Donc ils pensent que le rapport des méthodes dans les articles, et les informations fournies avec les données, ne suffisent pas à comprendre ce qui a été fait ? C’est très inquiétant. En science, on doit rapporter les choses de manière reproductible (voir débat à propos du code scientifique).

Ca devient pire :

A second concern held by some is that a new class of research person will emerge — people who had nothing to do with the design and execution of the study but use another group’s data for their own ends, possibly stealing from the research productivity planned by the data gatherers, or even use the data to try to disprove what the original investigators had posited.

Et d’une, il risque d’émerger une classe de gens qui volent la productivité des collecteurs de données (noble occupation on le comprend). Enchanté, moi je suis prof de bioinformatique depuis 2005, et je fais ça depuis le milieu des années 1990. Margaret Dayhoff a publié le premier atlas de séquences et structures de protéines en 1965 (pas trouvé de version en ligne), et Grantham et al (conflit d’intérêts : j’ai cosigné des articles avec deux des « et al ») ont découvert que différentes espèces utilisaient le code génétique universel de manière subtilement différente en analysant toutes les séquences d’ADN alors disponibles en 1980.

Et de deux, les éditorialistes ont peur que « même » de vils chercheurs utilisent les données des gentils collecteurs de données pour tenter d’invalider les hypothèses de départ. Mais c’est que ça oserait faire de la science ces vauriens ! (Bon, conflit d’intérêt, c’est ce que je fais moi, voir ici en anglais par exemple.)

On arrive à la phrase qui a le plus enflammé les réseaux sociaux des scientifiques :

There is concern among some front-line researchers that the system will be taken over by what some researchers have characterized as “research parasites.”

Ah on est des parasites ? Hop, hashtags Twitter #Iamaresearchparasite, #researchparasites et #researchparasite. Alors, là ça a réagi de partout : le storify.

Soyons justes, l’éditorial propose une solution : quand on veut analyser des données, on doit concevoir une hypothèse non évidente, contacter les auteurs de l’étude d’origine, et établir une fructueuse collaboration entre gens bien nés. Ca n’arrive en effet jamais de manière légitime que l’on veuille analyser les données de centaines d’expériences, que l’on veuille remettre en cause les analyses telles que publiées, ou que l’on veuille analyser des données publiées il y a des années par des personnes parties à la retraite ou ayant arrété de faire de la recherche. Et bien entendu ceux qui génèrent des données intéressantes ont le temps de prendre en compte et répondre de manière appropriée à toutes les demandes qui pourraient leur être faites (génome humain : plus de 18000 citations). Le bioinformaticien Claus Wilke donne sur son blog l’histoire intéressante d’un cas où il a du promettre de co-signer un papier pour avoir les données sur un soit-disant effet du jaune d’oeuf qui serait aussi mauvais pour la santé que le tabac. Ayant eu les données, il a refait l’analyse, trouvé que l’analyse de départ était faussée, et que l’hypothèse ne tenait pas. Les chercheurs en médecine concernés l’ont traité avec mépris, et il n’y a jamais eu de publication. Comme il avait signé de ne pas publier tout seul, ça en est resté là. Voilà le problème de la seule approche « collaborative » bien illustré.

Quelques autres réactions en vrac : Une traduction rigolote en anglais ordinaire. Un point de vue qui contraste cet éditorial avec les déclarations du vice-président américain sur le partage de données pour combattre le cancer. Puis un point de vue d’écologie (la science) discutant comme le partage des données peut en effet être difficile. Et une interprétation de cet éditorial comme le dernier des dinosaures mourants de l’ancienne façon de faire de la recherche bio-médicale.

Et puis c’est pas comme si ce journal avait un problème de reproducibilité des résultats, par exemple s’il avait un taux élevé d’articles rétractés :

corrélation entre facteur d'impact et taux de rétraction, avec flèche vers le journal que dont il est question ici

corrélation entre facteur d’impact et indice de rétraction, avec flèche vers le journal que dont il est question ici

Bon 4 jours plus tard ils ont publié un correctif (ce qui montre une fois de plus l’impact des médias sociaux sur la façon de fonctionner de la science, y compris ceux qui se croient à l’abri en haut de la tour d’ivoire). Ils disent qu’ils sont gentils, parce qu’ils ont signé des accords de diffusion des données. D’ailleurs même s’ils trouvent que c’est de mauvais goût, ils vont les respecter. Mais ils réitèrent que c’est légitime de considérer ceux qui analysent les données avec suspicion pour le moins. Et dans un article dans Forbes, l’auteur principal de l’éditorial a refusé de condamner le terme « parasites ». Comme dit sur le blog de Mick Watson, ce n’est pas encore des excuses, et c’est insuffisant.

Finalement le mieux qui soit sorti de tout ceci sont les dessins de RedPenBlackPen, qui dessine sur la science :

Tout se qui est possible sera-t-il fait ? Brève sur l’édition de génomes humains #GeneEditSummit

cliquez pour des savant fous et solitaires

cliquez pour des savant fous et solitaires

Il y a une conférence en cours sur les aspects éthiques de l’édition de gènes et génomes humains. Ca a notamment été couvert par Le Monde (payant). La conférence a été organisée parce que la technique CRISPR/Cas9 (voir ici et ici) et ses dérivés permettent des modifications aisées des génomes. Et si c’est possible chez la souris ou le cochon, c’est possible chez l’humain (voir ici et ici).

Je ne vais pas écrire longuement sur le sujet maintenant, mais juste noter le tweet suivant de Paul Knoepfler, chercheur et blogueur sur les cellules souches (on a parlé de son blog ipscell ici) :

Philip Campbell est l’éditeur en chef de Nature, le journal scientifique le plus prestigieux de la planète. Et ce qu’il nous dit c’est que (1) des scientifiques font des expériences d’édition de lignée germinale (spermatozoïdes et ovules) humains, (2) ils soumettent les résults à Nature, (3) Nature refuse, (4) parce qu’ils n’ont pas suivi les règles éthiques du journal.

Il parait difficile d’en conclure autre chose que « si c’est faisable, ça sera fait ». Et que nos commentaires éthiques n’y changeront pas grand chose. Mais peut-être suis-je trop pessimiste. En tous cas, ça me parait un problème autrement plus urgent que les sempiternelles bisbilles autour des OGM en agriculture.

Voir aussi ce tweet par exemple, George Church étant un généticien très connu et favorable au laissez faire en la matière :

Je recommande de regarder les « top tweets » si vous êtes intéressés : https://twitter.com/hashtag/GeneEditSummit

Les hominidés, combien d’espèces ? Les humains, combien de races ? L’arc en ciel, combien de couleurs ?

cliquez pour voir une BD philosophique en anglais

cliquez pour voir une BD philosophique en anglais

Je suis tombé via Twitter sur un intéressant billet de blog d’un anthropologue (Andy White) qui commente la découverte d’une nouvelle espèce d’hominidé, Australopithecus deyiremeda, en Ethiopie (article dans Nature). Il fait remarquer que l’article en question utilise 17 fois le terme « espèce », mais sans jamais le définir. Or la notion d’espèces est ambigue, et dépend du contexte : type d’études, types d’êtres vivants, etc. (voir billet / podcast « Race, espèce, humanité« ). Et dans les étudies de fossiles humains (et aussi de dinosaures d’ailleurs) il y a un prestige particulier à découvrir de nouvelles espèces, encore plus si on arrive à les placer comme ancêtres d’Homo sapiens (homme de Cro Magnon, Angela Merkel, etc).

Pour montrer la difficulté de l’exercice, Andy White a dessiné la figure ci-dessous, qui m’a tellement plue que je fais ce billet de blog pour vous la montrer :

Figure tirée du billet de blog Andy White Anthropology

Figure tirée du billet de blog Andy White Anthropology

Si on suppose une seule espèce, avec forcément de la variabilité (pensez à la diversité des humains actuels), si on a juste quelques fossiles on a des chances d’observer des différences apparemment bien séparées et les distinguant, alors que ce ne sont que de petits bouts de la variabilité continue.

C’est très semblable aux arguments que l’on retrouve souvent sur les supposées races humaines (voir ce billet). La variation continue des humains peut apparaître comme formant des groupes bien séparés lorsque l’on étudie que quelques populations distinctes. Or typiquement les données de génomique ne concernent (pour le moment) que quelques échantillons de quelques populations, genre quelques français, quelques chinois, quelques yoruba. Avec ça, on voit des différences qui séparent bien ces groupes. Mais c’est juste parce qu’on a raté la variation continue qui les relie.

En ce qui concerne l’arc en ciel, je laisse la question aux philosophes.

Les généticiens ne sont pas d’accord pour être instrumentalisés par un raciste

Cliquez sur l'image

Cliquez sur l’image

Une fois de plus, un livre a été publié à grand fracas aux Etats-Unis, se proposant de montrer qu’il y a des différences entre races humaines, expliquées par la génétique. Dans ce cas précis, il prétend s’appuyer sur les travaux de ces dernières 15 années en génomique humaine, et en plus affirme apparemment que des différences même récentes, mêmes entre peuples proches, sont dues à des changements génétiques rapides. Par exemple la stabilité de la Grande Bretagne, et la révolution industrielle dans ce beau pays ? C’est parce que les enfants des riches survivaient mieux que ceux des pauvres, donc les gènes de stabilité de travail et d’intelligence des riches se sont répandus. Non vous ne rêvez pas.

L’auteur, Nicholas Wade, est un journaliste scientifique. Il affirme bien sur être purement conduit par le souci de la vérité scientifique, et n’avoir aucune intention politique. Par contre, tous ceux qui le critiquent n’ont forcément rien compris à la science de la génétique humaine moderne, et ne sont conduits que par des considérations politiques, et n’osent pas regarder la réalité en face. (Ca me rappelle un tout petit peu les réactions aux critiques de l’étude Séralini et al.)

Cet été, pendant que vous faisiez un trek en Mongolie extérieure sans réseau internet, les généticiens cités dans le livre, plus quelques autres généticiens connus pour leur travail sur les génomes et l’évolution humaine, ont écrit une lettre ouverte concernant le livre (lettre sur le site de Stanford ; la même au New York Times ; commentaire sur le site de Nature), qui dit en substance, premièrement que la principale critique publiée du livre est excellente (la critique, dans le New York Times) et qu’ils remercient son auteur, et deuxièment que la recherche en génétique des populations (l’étude des différences génétiques entre individus et entre populations) ne soutient aucunement les conclusions du livre. Je cite :

We are in full agreement that there is no support from the field of population genetics for Wade’s conjectures.

Parmi les signataires on trouve mes collègues Laurent Excoffier de Berne, Henrik Kaessmann de Lausanne, et Emmanouil Dermitzakis de Genève (tous membres de l’Institut suisse de bioinformatique). (Je n’ai pas signé parce que je ne travaille pas sur les populations humaines hors de ma collaboration avec Laurent Excoffier, voir ici.)

Je suis frappé par la fréquence des réactions du type « ce n’est pas des vrais scientifiques, ils ne disent ça que parce que c’est politiquement correct, d’ailleurs les noirs courent plus vite », par exemple sur le forum techno-geek Slashdot. Bin non, la génétique c’est compliqué et ça ne montre simplement pas les bétises de Wade en l’état de nos connaissances.

Pour finir, je renvoie à mon premier billet de blog au C@fé des sciences, sur l’existence ou non des races humaines. A ma connaissance, ce que j’y ai écrit reste valable.

Mieux on connait notre génome, moins il a de gènes pour des protéines, et plus il en a d’autres

cliquez sur l'image (stripscience !)

cliquez sur l’image (stripscience !)

Nouvelles de l’équipe qui annote les gènes humains : ils ont tout remis à plat, comme il le font périodiquement, à la lumière des nouvelles données et des nouvelles méthodes ; ceci est la 20ème version. On peut noter que malgré les progrès des outils informatiques, des étapes de vérification manuelle (curation ou annotation, voir aussi ce billet) restent essentielles et représentent une grosse part du travail, pour avoir la meilleure qualité possible des annotations. En d’autres termes, être aussi confiant que possible que l’on a trouvé tous les gènes, et que tout ce qu’on a trouvé est un gène.

Ce qui revient quand même à une question sempiternelle en génétique : qu’est-ce qu’un gène ? Comme une espèce, c’est mal défini, mais pour un travail donné il faut une définition pratique. Gencode annote de l’ADN qui produit un ARN (molécule qui contrairement à l’ADN quitte le noyau cellulaire), soit qui code pour une protéine, soit qui est fonctionnel en lui-même. Quand on dit « gène » d’habitude (genre « combien de gènes communs entre humain et souris ? »), on veut dire ceux qui codent pour des protéines, mais les autres peuvent aussi jouer des rôles importants, certains connus depuis longtemps (ARN ribosomaux ou de transfert), d’autres découverts plus récemment (micro ARN, long ARN non codants).

Qu’est-ce qui a changé ? Comme à chaque mise à jour du compte des gènes humains, le nombre de gènes codant pour des protéines diminue, de 20’345 à 19’942 (rappel : le nombre de 21’000 annoncé en 2003 a été estimé trop bas par beaucoup). L’équipe s’attend à ce que ce nombre descende encore un peu. Par contre, le nombre d’ARN long non codants (lncRNA) augmente, de 13’870 à 14’229. Ce n’est pas dans le billet de Gencode, mais je suis frappé par la différence de nombre de lncRNA annotés pour l’humain et les autres espèces (par exemple comparer l’humain, la souris, et le poisson zèbre). Je doute fort que ce soit tout des créations de gènes spécifiques aux primates, donc soit on a beaucoup de faux positifs chez l’humain, et ce nombre va redescendre, soit il reste beaucoup à découvrir chez les autres, ce qui a une certaine logique vu qu’ils sont moins étudiés.

L’occasion de rappeler la super citation d’Isaac Asimov :

John, when people thought the Earth was flat, they were wrong. When people thought the Earth was spherical, they were wrong. But if you think that thinking the Earth is spherical is just as wrong as thinking the Earth is flat, then your view is wronger than both of them put together.

Notre connaissance du génome humain change, mais pas en errant aléatoirement, en partant d’une approximation grossièrement correcte et en l’affinant.

Mon étudiante a eu un prix : Sélection naturelle polygénique du système immunitaire dans l’évolution humaine

Cliquez sur l'image

Cliquez sur l’image

Une doctorante que je co-encadre, Joséphine Daub, vient de gagner un prix, et j’en profite pour me vanter et présenter son travail, qui est effectivement excellent et très intéressant. L’idée de départ est de mon collègue Laurent Excoffier, moi je trainais juste dans le coin (et j’ai peut-être contribué un peu aux méthodes et à la discussion).

Daub et al. 2013 Evidence for Polygenic Adaptation to Pathogens in the Human Genome Mol Biol Evol 30: 1544-1558

Il existe trois grands types d’action de la sélection naturelle : pour garder ce qui marche en l’état (dite négative, la plus fréquente), pour fixer des changements qui améliorent les choses (dite positive, rare), et pour garder de la diversité (dite balançante, rare aussi). Détecter la sélection négative c’est relativement facile, c’est ce qui est conservé lors de l’évolution. Détecter la sélection positive est plus difficile, mais potentiellement plus intéressant puisque c’est ce qui expliquera les différences entre espèces, voire entre populations. Une manière de détecter la sélection positive est de chercher des variants du génome (des polymorphismes ou « SNP ») qui ont des fréquences très différentes entre populations. Si certains types de SNP sont très fréquents chez les populations d’altitude (tibétains et andins) mais très rares chez les autres, c’est une indication que ces variants sont avantageux en altitude, et sous sélection positive qui les promeut dans ces conditions. Un des problèmes de cette approche, c’est que chez les humains qui nous intéressent souvent le signal s’il existe est très faible. Donc c’est difficile de détecter de manière fiable une évidence de sélection naturelle dans l’évolution humaine récente (« récente » des biologistes évolutifs : ces dernier ≈100’000 ans).

Et c’est là qu’intervient l’idée de ce travail : utiliser non pas le signal calculé pour chaque gène, mais faire la somme du signal pour des ensembles de gènes qui travaillent ensemble à une même fonction. En effet, les gènes n’agissent jamais seuls pour les fonctions biologiques : ce sont des réseaux métaboliques, des cascades régulatrices, des complexes protéiques, etc. Si une fonction est sous sélection positive, on peut supposer que de nombreuses petites variations dans différents gènes agissant sur cette fonction soient toutes affectées par cette sélection. Donc ce que l’on fait c’est (1) calculer pour chaque SNP le score de différentiation entre populations, (2) corriger ce score en fonction de problèmes connus de démographie, (3) définir des ensembles de gènes fonctionnellement pertinents (en l’occurence de NCBI Biosystems), (4) faire la somme des scores pour tous les gènes de chaque ensemble. Ensuite ça a été un peu compliqué de définir quel est un score significatif parmi des ensembles de gènes de tailles différentes, contenant des gènes de tailles différentes (un grand gène a plus de variants au hasard), avec des gènes en commun entre les ensembles (un gène peut agir dans plusieurs contextes, sans compter que la même fonction peut être décrite deux fois de manières différentes), bref à la fin on peut attribuer un score et une significativité statistique à chaque ensemble de gènes. (Vous êtes en thèse et vous déprimez ? Joséphine a obtenu ses premiers résults en 2 mois, a ensuite passé 2 ans à découvrir des biais et à les corriger, invalidant certains résultats et en découvrant d’autres ; maintenant elle récolte la gloire et les honneurs, mais ce fut dur.)

Et ce qui sort, c’est un petit nombre d’ensembles de gènes soit directement impliqués dans l’immunité, soit indirectement dans la défense contre les pathogènes. Désolé pour ceux qui attendaient des différences d’intelligence et autres bétises, ce qui différencie le plus les populations humaines ce sont les pathogènes (bactéries, virus et autres) auxquels elles ont été exposées dans différents environnements.

La méthode elle-même s’avère très puissante pour de nombreux cas où l’on a un signal faible par gène, mais qui peut se cumuler sur des ensembles de gènes ayant subi la même sélection, et a déjà été appliquée à l’évolution des fourmis (on trouve de la sélection sur le vieillissement, les fourmis vivent bien plus vieux que la plupart des insectes). On est train de l’appliquer à d’autres aspects de la sélection naturelle dans l’évolution humaine, mais pour la suite de l’histoire il faudra attendre qu’on publie les papiers…