Notre génome n’est pas fonctionnel à 80% et je reste poli, moi #ENCODE

girafe

Cliquez sur l’image

Vous vous rappelez d’ENCODE ? Un méga gros projet de caractérisation de la fonction du génome humain, qui a publié ses résultats en septembre. J’en avais causé ici, et il y avait aussi un bon billet sur le blog bioinfo-fr. Comme discuté à l’époque, l’affirmation selon laquelle 80% du génome était supposément fonctionnelle avait causé pas mal de débats à l’époque, avec notamment les chercheurs en évolution des génomes très peu convaincus, c’est le moins qu’on puisse dire.

Critiquer sur des blogs, c’est bien, mais pour que cela ait un impact dans la communauté scientifique, il faut publier un article dans une revue sérieuse, et il faut que cet article soit lu. Dan Graur et collègues viennent de publier un article remarquable à bien des égards, avec ces objectifs à coeur (et peut-être un tout petit peu l’objectif de faire parler d’eux 😉 ). Déclaration de conflits d’intérêts : j’ai travaillé avec Dan en postdoc il y a longtemps.

L’article est :
On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE, Genome Biology and Evolution online before print

Le ton est … disons inhabituel dans un article scientifique. Je vous invite à aller le lire si vous êtes à l’aise en anglais (il est Libre d’accès). Là pour le coup on a un article scientifique qui n’est pas écrit de manière chiante ! Dan est un habitué du coup, ayant écrit dans le passé les célèbres articles suivants :

Reading the entrails of chickens: molecular timescales of evolution and the illusion of precision. Trends Genet. 2004 Feb;20(2):80-6. (Critique très dure des datations moléculaires, voir billet récent sur les mammifères.)

The Permian bacterium that isn’t. Mol Biol Evol. 2001 Jun;18(6):1143-6 (Démontage en règle d’un article rapportant une soi-disant bactérie vivante de 250 Millions d’années d’âge.)

Le ton surprenant de l’article sur ENCODE inclut des phrases telles que :

ENCODE accomplishes these aims mainly by playing fast and loose with the term “function,” by divorcing genomic analysis from its evolutionary context and ignoring a century of population genetics theory, and by employing methods that consistently overestimate functionality, while at the same time being very careful that these estimates do not reach 100%. More generally, the ENCODE Consortium has fallen trap to the genomic equivalent of the human propensity to see meaningful patterns in random data.

Sur le fond, que disent-ils ?

D’abord, qu’il faut distinguer en biologie entre la fonction « sélectionnée », c’est-à-dire qui a un impact sur la survie et la reproduction de l’organisme, par exemple pour le coeur pomper le sang, et la fonction « causale », par exemple pour le coeur faire bouboum-bouboum. La fonction causale existe, elle n’est pas fausse, mais elle n’a que peu d’intérêt pour comprendre la biologie. Graur et al. accusent le consortium ENCODE d’avoir confondu ces deux sens de fonction, en rapportant comme fonctionnel de manière pertinente (= sélectionnée même si ENCODE ne le dit pas) tout ce qui a une fonction détectable expérimentalement. Ce qu’un commentateur de mon billet précédent a excellemment résumé par « ça bouge quand on l’agite ».

Le titre de l’article s’explique par l’affirmation de Graur et al. que toute fonction pertinente doit pouvoir être cassée, et le sera si le temps passe et qu’aucune sélection ne l’empêche. Ils affirment que la définition utilisée par ENCODE revient donc à dire qu’il y a des fonctions équivalentes à une télévision immortelle. Rigolo mais bon passons aux choses sérieuses.

Ils sont conscients qu’il peut être difficile de détecter la sélection, qui ne se traduit pas forcément par un ADN parfaitement conservé, mais citent des arguments connus en génétique des populations comme le coût de la sélection sur les mutations dans des régions fonctionnelles (mutational load) pour dire que 80% fonctionnel paraît très invraisemblable en l’état de nos connaissances. Ils citent une étude liée à ENCODE (mais un peu à part) qui trouve au maximum 9% de notre génome sous pression sélective.

Une critique particulièrement dure de la logique d’ENCODE, et probablement correcte est qu’ils les accusent du sophisme (raisonnement erroné) de l’affirmation du conséquent :

  • des régions fonctionnelles du génomes ont une propriété (sont transcrites, l’ADN est accessibles aux enyzmes, etc) ;
  • on trouve beaucoup d’ADN qui a cette propriété ;
  • donc tout cet ADN est des régions fonctionnelles.

Or on sait que tous les processus moléculaires dans une cellule ont une composante stochastique (au hasard quoi), parce qu’on a affaire à très peu de molécules.

Graur et al. critiquent ensuite les 5 principale propriétés utilisées par ENCODE :

  • La transcription, à savoir que l’ADN est copié en ARN qui sert à être traduit en protéines, qui font des choses (enzymes, muscles, tout ça). On sait que des régions non fonctionnelles sont transcrites, notamment les introns, qui sont découpés de l’ARN avant traduction. De même les pseudogènes ou les transposons défaillants, tous transcrits, connus depuis longtemps pour leurs absence de fonction (en tous cas liée à la transcription). A noter qu’on ne dit pas juste que ces choses sont non fonctionnelles parce qu’on ne sait pas ce qu’elles font. Par exemple Graur et al. citent une étude qui a enlevé 96 introns de levures et n’en ont trouvé que 3 qui ont un impact sur la croissance. Or les levures ont un génome beaucoup plus sélectionné que nous, ayant des tailles de population beaucoup beaucoup plus grandes.
  • Les modifications des histones, les protéines qui organisent l’ADN dans la cellule. Une étude de 2010 a trouvé que seul 2% de ces modifications chimiques affectent la fonction d’une manière détectable. On peut avoir raté des trucs, mais dire que toutes ces modifications sont fonctionnelles semble légèrement exagéré en effet.
  • L’ouverture de la chromatine, à savoir que l’ADN est accessible aux protéines. Dans ce cas, ils font une simple affirmation du conséquent, rien à dire de plus.
  • La liaison par des facteurs de transcription, les protéines qui activent ou répressent les gènes. Graur et al ne sont pas convaincus par des sites de liaison détectés de 400 à 800 nucléotides alors que tous les sites de liaison bien déterminés sont de l’ordre de 6 à 14 nucléotides. Ca se discute. Bref.
  • La méthylation du dinucléotide CpG. Bon c’est technique, mais Graur défendent, probablement à raison, que la méthylation est simplement une propriété chimique de CpG et ne dit rien sur la fonction locale de l’ADN.

Une critique très importante, que je traite à part bien que dans le papier elle soit inclue dans le point sur la transcription, est que ENCODE a largement utilisé des cellules tumorales (des cancers en boite de Petri). Il y a une bonne raison pratique : on en a plein, et il y avait besoin de beaucoup de matériel pour faire ENCODE. Mais voilà, dans ces cellules tout est détraqué, et on sait que ni la transcription, ni la structure de l’ADN ne sont comme dans une cellule de notre corps. Non seulement c’est détraqué, mais dans le sense de davantage de transcription et davantage d’activité dans tous les sens. Je confirme, vu que dans mon labo on a essayé d’utiliser ces données et on a du abandonner pour cette raison (pas que ça soit inutile, mais pas utile pour comprendre l’évolution humaine qui nous intéresse).

Une critique un peu technique est qu’apparemment dans leurs statistiques ENCODE a préféré minimiser les faux négatifs (ne rien rater, au risque de détecter des erreurs) que les faux positifs (ne détecter que des trucs corrects, au risque de rater des choses).

Graur et al. discutent de manière assez technique, et correcte (Graur est auteur du livre de référence en évolution moléculaire), des erreurs de biologie évolutive dans la compréhension du « junk DNA » par certains biologistes des génomes. Le plus important à comprendre c’est qu’on ne s’attend pas, sur des bases théoriques solides, à ce que le génome d’organismes à petite population tels que les mammifères (petite par rapport au nombre de bactéries par exemple) soit entièrement fonctionnel, mais au contraire qu’il contiennent beaucoup de choses qui sont inutiles et se sont accumulées par hasard.

Finalement, ils ont une réflexion que je trouve très intéressante sur le contraste entre « grosse science » (CERN, génome humain, etc) et « petite science » (le labo normal où chacun fait ses expériences). Ils proposent que le rôle principal de la grosse science est de générer des données, mais pas de les interpréter, ce qui doit être fait par des chercheurs individuels. Très méchamment, ils disent qu’ENCODE a fait comme les théologiens, ils ont cherché à donner un sens à chaque lettre du texte.

Et pour finir, un peu de ton irrévérent. Ils citent un leader du projet génome humain disant qu’ENCODE est le Google Maps du génome humain, en commentant que non, ENCODE est encore pire que Apple Maps. Puis citent l’adage selon lequel « si c’est trop beau pour être vrai, c’est que c’est trop beau pour être vrai. »

Et le coup de grâce :

The ENCODE results were predicted by one of its lead authors to necessitate the rewriting of textbooks (Pennisi 2012). We agree, many textbooks dealing with marketing, mass-media hype, and public relations may well have to be rewritten.