Notre génome n’est pas fonctionnel à 80% et je reste poli, moi #ENCODE

girafe

Cliquez sur l’image

Vous vous rappelez d’ENCODE ? Un méga gros projet de caractérisation de la fonction du génome humain, qui a publié ses résultats en septembre. J’en avais causé ici, et il y avait aussi un bon billet sur le blog bioinfo-fr. Comme discuté à l’époque, l’affirmation selon laquelle 80% du génome était supposément fonctionnelle avait causé pas mal de débats à l’époque, avec notamment les chercheurs en évolution des génomes très peu convaincus, c’est le moins qu’on puisse dire.

Critiquer sur des blogs, c’est bien, mais pour que cela ait un impact dans la communauté scientifique, il faut publier un article dans une revue sérieuse, et il faut que cet article soit lu. Dan Graur et collègues viennent de publier un article remarquable à bien des égards, avec ces objectifs à coeur (et peut-être un tout petit peu l’objectif de faire parler d’eux ;-) ). Déclaration de conflits d’intérêts : j’ai travaillé avec Dan en postdoc il y a longtemps.

L’article est :
On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE, Genome Biology and Evolution online before print

Le ton est … disons inhabituel dans un article scientifique. Je vous invite à aller le lire si vous êtes à l’aise en anglais (il est Libre d’accès). Là pour le coup on a un article scientifique qui n’est pas écrit de manière chiante ! Dan est un habitué du coup, ayant écrit dans le passé les célèbres articles suivants :

Reading the entrails of chickens: molecular timescales of evolution and the illusion of precision. Trends Genet. 2004 Feb;20(2):80-6. (Critique très dure des datations moléculaires, voir billet récent sur les mammifères.)

The Permian bacterium that isn’t. Mol Biol Evol. 2001 Jun;18(6):1143-6 (Démontage en règle d’un article rapportant une soi-disant bactérie vivante de 250 Millions d’années d’âge.)

Le ton surprenant de l’article sur ENCODE inclut des phrases telles que :

ENCODE accomplishes these aims mainly by playing fast and loose with the term “function,” by divorcing genomic analysis from its evolutionary context and ignoring a century of population genetics theory, and by employing methods that consistently overestimate functionality, while at the same time being very careful that these estimates do not reach 100%. More generally, the ENCODE Consortium has fallen trap to the genomic equivalent of the human propensity to see meaningful patterns in random data.

Sur le fond, que disent-ils ?

D’abord, qu’il faut distinguer en biologie entre la fonction « sélectionnée », c’est-à-dire qui a un impact sur la survie et la reproduction de l’organisme, par exemple pour le coeur pomper le sang, et la fonction « causale », par exemple pour le coeur faire bouboum-bouboum. La fonction causale existe, elle n’est pas fausse, mais elle n’a que peu d’intérêt pour comprendre la biologie. Graur et al. accusent le consortium ENCODE d’avoir confondu ces deux sens de fonction, en rapportant comme fonctionnel de manière pertinente (= sélectionnée même si ENCODE ne le dit pas) tout ce qui a une fonction détectable expérimentalement. Ce qu’un commentateur de mon billet précédent a excellemment résumé par « ça bouge quand on l’agite ».

Le titre de l’article s’explique par l’affirmation de Graur et al. que toute fonction pertinente doit pouvoir être cassée, et le sera si le temps passe et qu’aucune sélection ne l’empêche. Ils affirment que la définition utilisée par ENCODE revient donc à dire qu’il y a des fonctions équivalentes à une télévision immortelle. Rigolo mais bon passons aux choses sérieuses.

Ils sont conscients qu’il peut être difficile de détecter la sélection, qui ne se traduit pas forcément par un ADN parfaitement conservé, mais citent des arguments connus en génétique des populations comme le coût de la sélection sur les mutations dans des régions fonctionnelles (mutational load) pour dire que 80% fonctionnel paraît très invraisemblable en l’état de nos connaissances. Ils citent une étude liée à ENCODE (mais un peu à part) qui trouve au maximum 9% de notre génome sous pression sélective.

Une critique particulièrement dure de la logique d’ENCODE, et probablement correcte est qu’ils les accusent du sophisme (raisonnement erroné) de l’affirmation du conséquent :

  • des régions fonctionnelles du génomes ont une propriété (sont transcrites, l’ADN est accessibles aux enyzmes, etc) ;
  • on trouve beaucoup d’ADN qui a cette propriété ;
  • donc tout cet ADN est des régions fonctionnelles.

Or on sait que tous les processus moléculaires dans une cellule ont une composante stochastique (au hasard quoi), parce qu’on a affaire à très peu de molécules.

Graur et al. critiquent ensuite les 5 principale propriétés utilisées par ENCODE :

  • La transcription, à savoir que l’ADN est copié en ARN qui sert à être traduit en protéines, qui font des choses (enzymes, muscles, tout ça). On sait que des régions non fonctionnelles sont transcrites, notamment les introns, qui sont découpés de l’ARN avant traduction. De même les pseudogènes ou les transposons défaillants, tous transcrits, connus depuis longtemps pour leurs absence de fonction (en tous cas liée à la transcription). A noter qu’on ne dit pas juste que ces choses sont non fonctionnelles parce qu’on ne sait pas ce qu’elles font. Par exemple Graur et al. citent une étude qui a enlevé 96 introns de levures et n’en ont trouvé que 3 qui ont un impact sur la croissance. Or les levures ont un génome beaucoup plus sélectionné que nous, ayant des tailles de population beaucoup beaucoup plus grandes.
  • Les modifications des histones, les protéines qui organisent l’ADN dans la cellule. Une étude de 2010 a trouvé que seul 2% de ces modifications chimiques affectent la fonction d’une manière détectable. On peut avoir raté des trucs, mais dire que toutes ces modifications sont fonctionnelles semble légèrement exagéré en effet.
  • L’ouverture de la chromatine, à savoir que l’ADN est accessible aux protéines. Dans ce cas, ils font une simple affirmation du conséquent, rien à dire de plus.
  • La liaison par des facteurs de transcription, les protéines qui activent ou répressent les gènes. Graur et al ne sont pas convaincus par des sites de liaison détectés de 400 à 800 nucléotides alors que tous les sites de liaison bien déterminés sont de l’ordre de 6 à 14 nucléotides. Ca se discute. Bref.
  • La méthylation du dinucléotide CpG. Bon c’est technique, mais Graur défendent, probablement à raison, que la méthylation est simplement une propriété chimique de CpG et ne dit rien sur la fonction locale de l’ADN.

Une critique très importante, que je traite à part bien que dans le papier elle soit inclue dans le point sur la transcription, est que ENCODE a largement utilisé des cellules tumorales (des cancers en boite de Petri). Il y a une bonne raison pratique : on en a plein, et il y avait besoin de beaucoup de matériel pour faire ENCODE. Mais voilà, dans ces cellules tout est détraqué, et on sait que ni la transcription, ni la structure de l’ADN ne sont comme dans une cellule de notre corps. Non seulement c’est détraqué, mais dans le sense de davantage de transcription et davantage d’activité dans tous les sens. Je confirme, vu que dans mon labo on a essayé d’utiliser ces données et on a du abandonner pour cette raison (pas que ça soit inutile, mais pas utile pour comprendre l’évolution humaine qui nous intéresse).

Une critique un peu technique est qu’apparemment dans leurs statistiques ENCODE a préféré minimiser les faux négatifs (ne rien rater, au risque de détecter des erreurs) que les faux positifs (ne détecter que des trucs corrects, au risque de rater des choses).

Graur et al. discutent de manière assez technique, et correcte (Graur est auteur du livre de référence en évolution moléculaire), des erreurs de biologie évolutive dans la compréhension du « junk DNA » par certains biologistes des génomes. Le plus important à comprendre c’est qu’on ne s’attend pas, sur des bases théoriques solides, à ce que le génome d’organismes à petite population tels que les mammifères (petite par rapport au nombre de bactéries par exemple) soit entièrement fonctionnel, mais au contraire qu’il contiennent beaucoup de choses qui sont inutiles et se sont accumulées par hasard.

Finalement, ils ont une réflexion que je trouve très intéressante sur le contraste entre « grosse science » (CERN, génome humain, etc) et « petite science » (le labo normal où chacun fait ses expériences). Ils proposent que le rôle principal de la grosse science est de générer des données, mais pas de les interpréter, ce qui doit être fait par des chercheurs individuels. Très méchamment, ils disent qu’ENCODE a fait comme les théologiens, ils ont cherché à donner un sens à chaque lettre du texte.

Et pour finir, un peu de ton irrévérent. Ils citent un leader du projet génome humain disant qu’ENCODE est le Google Maps du génome humain, en commentant que non, ENCODE est encore pire que Apple Maps. Puis citent l’adage selon lequel « si c’est trop beau pour être vrai, c’est que c’est trop beau pour être vrai. »

Et le coup de grâce :

The ENCODE results were predicted by one of its lead authors to necessitate the rewriting of textbooks (Pennisi 2012). We agree, many textbooks dealing with marketing, mass-media hype, and public relations may well have to be rewritten.

13 comments for “Notre génome n’est pas fonctionnel à 80% et je reste poli, moi #ENCODE

  1. Nicolas Le Novere
    1 mars 2013 at 19:23

    Arrrgrghhhh. Je viens de passer une bonne heure a rediger une reponse presque aussi longue que l’article. Et … « captcha non readable ». Tout est perdu. Bouhou. Bon ben tu ne sauras pas pourquoi ENCODE a peut-etre raison, Dan Graur a tort, et tout n’est pas si simple.

  2. 2 mars 2013 at 01:24

    Ben un grand merci pour cet article Marc, l’article de Dan Graur et de ses collègues remettant les choses à leur place! J’attends encore de voir les débats à venir sur le même sujet, car nul doute qu’il y en aura!

  3. 4 mars 2013 at 09:42

    Personnellement je trouve que se cristalliser sur les ’80%’ n’apporte rien de bon. C’est de la sémantique, rien de plus.

    - Oui ENCODE a probablement fait une grosse erreur de communication en avançant le chiffre de 80%

    - Dan Graur s’exprime en tant que biologiste spécialiste de l’évolution des génomes, cela peut probablement le choquer plus que d’autres.

    - ENCODE reste un formidable fournisseur de données à grandes échelles, rien de plus.

    - En tant que biologiste, je m’en fiche de savoir si 5% ou 80% du génome est fonctionnel. Chacun a sa propre définition du ‘fonctionnel’. Et il ne faut pas oublier la redondance, les effets indirects, les effets que l’ont ne peut pas mesurer, ……

    - En tant que biologiste, la seule question que je me pose est de savoir si les résultats d’ENCODE peuvent me servir dans mes projets : (1) mon facteur de transcription favoris est-il là ? (2) ma lignée cellulaire favorite est-elle là ? (3) mon gène préféré, son promoteur, ses enhancers, sont-ils cartographiés par ENCODE ?

    Oui, super, est-ce que cela peut m’aider à avancer ? Oui, super. Pour le reste, c’est un débat stérile selon moi…..

    Alexis Verger, chargé de recherche au CNRS

    • Yves Clément
      4 mars 2013 at 16:46

      Non, ce n’est pas juste une histoire de définitions différentes pour différentes personnes.
      Comment voulez-vous partager des données, des résultats, faire avancer tout ce bazar si tout le monde a sa petite définition des choses qu’il étudie ? Comment voulez-vous que quoi que ce soit de constructif puisse aboutir si je veux travailler avec des gens ayant des définitions différentes de ce sur quoi je travaille.
      La notion de « fonction » en biologie (et biologie évolutive) n’est pas une simple définition mais est le résultat de beaucoup, beaucoup de travail, et la ENCODE crew s’assied allègrement dessus.
      C’est dommage de voir qu’un projet comme ENCODE, se voulant à la pointe de la science (et de la communication scientifique) et donc porté en référence par bon nombre de personnes puisse redéfinir une notion aussi important comme bon lui semble juste pour faire un coup médiatique et ignore superbement toute la recherche effectuée sur ce problème.

    • 14 mars 2013 at 10:46

      Je suis assez d’accord avec Alexis. Il faut prendre ENCODE comme une base de données à grande échelle.

      Personnellement je travaille sur une partie de séquence qui était jusqu’alors non annotée. Les différentes expériences de ChiP-seq, RNA-seq et compagnie réalisées par ce projet m’ont permis d’avancer à grands pas dans la détermination des caractéristiques de ma séquence…

      Pour moi il s’agit uniquement d’une erreur de communication du projet ENCODE. Mais qui dans le monde de la recherche ne fait pas de la comm pour valoriser son projet ?

Comments are closed.