#ENCODE : La revanche du retour du fils du génome humain

cliquez sur l’image

En 2001, des équipes de chercheurs ont publié deux versions de la séquence du génome humain. A l’époque on a comparé cela à poser un homme sur la Lune. Rétrospectivement, c’était plutôt Spoutnik : la preuve que c’était possible d’aller là-bas, mais on n’y était pas encore.

Cette semaine, un nouveau consortium a publié une série de papiers assez incroyables du project ENCODE, qui vise à comprendre en détail exquis tout le fonctionnement de ce génome. Je vais dire que c’est notre moment Gagarin. Oui on peut le faire et on l’a fait. C’est le deuxième étage de la fusée « comprendre notre génome » (OK, j’arrête les analogies foireuses).

Il y a une kilochiée de données là-dedans, et comme tout le monde ça va me prendre un peu de temps pour digérer tout ça. Je vais donc me concentrer ici sur quelques points qui sont apparus via les réactions à chaud (bref, je vais blogguer ce que j’ai lu sur twitter).

D’abord quelques chiffres :

  • ENCODE c’est 440 chercheurs dans 32 labos dans le monde
  • 30 articles publiés le même jour
  • 1’600 types d’expériences sur 147 types de tissus (tissu au sens « tissu musculaire »), portant pour la plupart sur les 3 milliards de bases du génome humain
  • Au final 15 Tb de données.

Ensuite, le point énervant, c’est que la quasi-totalité de la couverture que j’ai vue dans la presse ou les communiqués de presse se concentre sur un message simple :

On croyait que presque tout le génome était de l’ADN poubelle (« junk »), mais que nenni, on vient de découvrir que c’est presque tout fonctionnel.

Réponse courte : test de l’oignon.

Réponse longue: je vais essayer d’expliquer rapidement ce qu’ils ont trouvé (d’après les résumés, billets de blogs, et présentations orales que j’en ai vues – je n’ai pas encore lu vraiment les papiers), puis je vais donner une interprétation légèrement différente de celle des communiqués de presse, puis je vais expliquer qu’on n’est pas si surpris que ça.

Ce qu’ils ont trouvé : 80% du génome est « fonctionnel ». La définition de « fonctionnel » est très débattue en biologie (on n’est pas très forts pour les définitions claires – on ne sait toujours pas ce qu’est un gène, une espèce, ou le vivant), mais revenons à l’analogie que je donnais sur l’annotation de génomes. La définition la plus courante suppose que l’on sache à quoi sert une partie de génome dans l’organisme. D’autres définitions peuvent être qu’on ne connait pas la fonction mais que c’est probablement important, par exemple parce que c’est conservé entre humains et poissons. Ici, la définition donnée est qu’une région du génome est considérée comme fonctionnelle si elle resort comme positive dans au moins un des tests effectués. Ne nous attardons pas ici sur les problèmes de répétition des tests, parce que je n’ai pas encore lu les méthodes en détail, mais les personnes impliquées sont généralement de très bon bioinformaticiens et statisticiens, et je ne pense pas qu’ils aient laissé passé des erreurs grossières du type « un test sur 20 est significatif au hasard ». Par contre, les tests mesurent uniquement une activité biochimique dans les conditions expérimentales. Parmi les tests, il y a la liaison de facteurs de régulation de l’ADN plus ou moins spécifiques, et il y a la transcription, à savoir copier un fragment d’ADN en fragment d’ARN. Donc 80% du génome est détecté comme actif dans au moins un test biochimique.

Comme dit sur Twitter :

John Davey@johnomics

I wish #ENCODE had gone for the more complex ‘20% functional, 80% active’. Yes, more to explain, but it IS complex. And still exciting

En fait, les auteurs ne montrent pas que 80% du génome soit fonctionnel. A savoir qu’ils ne connaissent pas de fonction, ne savent pas si c’est indispensable ou même utile à la cellule ou à l’organisme, ne savent pas si ça joue un rôle évolutif ou médical.

Ewan Birney, leader de l’analyse bioinformatique dans le consortium ENCODE, a écrit un excellent billet de blog que toute personne intéressée non seulement à la génomique, mais à la science haut débit ou à la biologie moderne, doit lire. Dedans, il justifie d’abord le chiffre de 80%, en confirmant que c’est tout ce qui a une « activité biochimique spécifique » (spécifique ça veut dire que ça n’affecterais pas n’importe quel bout d’ADN au hasard). Ensuite et très intéressant, il donne une estimation du fonctionnel stricto sensu : Environ 8% du génome a une interaction spécifique avec une protéine (par exemple un facteur de transcription) ; auquel il faut ajouter environ 1% d’exons (morceaux qui codent vraiment pour des protéines – bien qu’il ne précise pas « exons codants ») ; comme ils n’ont pas étudié toutes les protéines pouvant interagir avec l’ADN, il double son estimation, donc (8+1)x2 = 18% (il ne dit pas pourquoi les exons sont inclus dans le chiffre à doubler) ; arrondissons, ça fait 20% estimation minimale du génome fonctionnel.

Basé sur les mêmes chiffres, j’aurais tendance à dire estimation basse 9% (avant de doubler au hasard et arrondir), estimation haute 20% (voir ci-dessus), et non estimation basse 20%, estimation haute 80%.

Pour revenir au sempiternel « on est très surpris de trouver tout cet ADN supposé poubelle fonctionnel », il faut clarifier que personne n’a jamais dit que tout l’ADN non codant était « poubelle » ou non fonctionnel ! C’est super énervant au fil des années de voir ce canard resortir chaque fois qu’une étude trouve de la fonction nouvelle dans un morceau d’ADN non codant. Enfin quoi, la régulation des gènes a valu le prix Nobel à Jacob, Monod et Lwoff en 1965 ! Plus près de nous, mais clairement avant la publication ENCODE que nous célébrons cette semaine, Larry Moran sur son excellent blog listait en février 2008 tout ce que nous savions sur la composition fonctionnelle du génome humain, et arrivait aux totaux suivants :

Total Essential/Functional (so far) = 8.7%
Total Junk (so far) = 65%
Unknown (probably mostly junk) = 26.3%

Wahou il doit être très surpris de lire une estimation de fonctionnel stricto sensu entre 9% et 20%. Tiens, non.

Je n’ai pas le temps de lister toutes les réactions que j’ai lues à ce « 80% de fonctionnel » couplé à « surprise ! pas tout le non codant est pourri », mais disons que ça a bardé sur Twitter et les blogs scientifiques dès quelques heures après la publication et ça ne s’est pas calmé.

Je voudrais maintenant traiter un autre point assez rapidement, c’est la politique de publication d’ENCODE. D’abord, c’est tout libre d’accès, ouf. Pour l’anectode ensuite, Casey Bergman s’est amusé à calculer que le temps cumulatif perdu pour que tous les papiers sortent en même temps (un papier a été retardé un mois, un autre deux mois, ça fait trois mois de cumulé…) est d’un an de dix ans (corrigé, désolé).

Plus important, les papiers publiés dans trois journaux différents, qui ont des éditeurs différents (Nature publishing group, BMC et Cold Spring Harbor press), ont réussi à mettre ensemble une vue transversalle des articles par « fils », ou « threads » :

A gauche, une série de thèmes qui se retrouvent dans différents articles. A droite, lorsque l’on choisit un thème, sont mis en avant les articles pertinents. Si on clique sur le thème, on obtient tous les extraits d’articles et les figures correspondantes, à la suite. C’est génial.

Râlage quand même : les « Supplementary Information », tous les résultats complémentaires et détails des méthodes qui sont en annexe, sont exclus de ce système. Du coup, c’est loin d’être complet, et ça reste malheureusement prisonnier du modèle de publication classique en partie.

Il y a aussi une App iPad, mais autant que je puisse juger c’est pareil que la page web, mais en App iPad.

Autre innovation : ils ont rendu disponible une machine virtuelle, qui permet d’installer localement tous les programmes utilisés, les jeux de données au bons formats, les détails d’installation informatique, etc, permettant de reproduire leurs analyses. Les données ne sont pas complètes dans cette machine virtuelle (15 Tb, vous vous rappellez ?), mais c’est clairement un énorme progrès dans la diffusion des méthodes bioinformatiques et leur standardisation.

Et puis voilà, y a encore beaucoup à dire, mais je n’ai pas le temps. A la prochaine.

Mise à jour : excellent compte-rendu qui couvre certain des mêmes points, et d’autres, par Malicia sur bioinfo-fr.net.

16 réponses à “#ENCODE : La revanche du retour du fils du génome humain

  1. Je suis extrêmement impressionné par la comm de ce groupement scientifique. Décaler des publis dans de bons journaux ça ne doit pas être évident à coordonner, créer le site interactif qui les pointe etc ça demande un investissement en temps et là aussi de la coordination.

    Bon, enfin je retiens de tout ça que les scientifiques se trompaient, et qu’en fait l’ADN sert majoritairement à quelque chose alors qu’avant on pensait que ça servait à rien, donc qu’on isolera bientôt le gêne responsable de la mauvaise compréhension des posts de blog. J’ai bon? :-)

  2. [Allez je me risque à dire des bêtises]

    Je suis allé voir quelques-uns de tes liens, et franchement je suis assez convaincu par un camp plutôt que l’autre… en gros, l’auteur i) redéfinit un terme (« fonctionnel ») et ii) choisit celle de ses évaluations qui va être la plus médiatisée. Ce qui produit une phrase reprise par les médias qui, même si elle n’est pas falsifiable, est en tous cas très contestable et volontairement sensationnaliste. Pas glop.

    Je ne comprends rien à la biologie, mais pourrait-on vulgarise la notion de « fonctionnel »? Je propose:
    – définition des 20%: a un impact identifié sur l’être vivant hôte
    – définition des 80%: a certains mécanismes pour en assurer l’impact éventuel

    En plus vulgarisé encore, junk ancienne mode = « on ne sait pas ce que ça fait, et on n’exclut carrément pas que ça n’ait aucune fonction » (avec réserve qu’on découvre ce que ça fait et que donc on le requalifie).
    Fonctionnel nouvelle mode : « on n’a aucune idée de son utilisabilité, mais ça bouge quand on l’agite ».

    Tiens, le débat sur le junk me parait un tres bon objet pour le débat sur l’ignorance en science : c’est pas parce qu’on ne sait pas qu’il y a quelque chose qu’il n’y a rien, mais ce n’est pas parce qu’on ignore quelque chose qu’il existe !
    http://en.wikipedia.org/wiki/Argument_from_ignorance
    (désolé, la page wikipedia fr est risible par rapport à celle-là)

    Par ailleurs et plus globalement ça me rappelle désagréablement les débats sur la race : si on sait qu’un mot est connoté, il faut en inventer un autre, ou alors assumer de l’utiliser comme les autres avant soi.
    http://toutsepassecommesi.cafe-sciences.org/2012/03/16/races-and-genetique-cest-reparti/

    Il se peut que mon interprétation soit à côté de la plaque, j’en conviens. D’où le post ici, prêt à se faire corriger, professeur MRR :-)

    • J’adore ta définition « on n’a aucune idée de son utilisabilité, mais ça bouge quand on l’agite » et je l’ai twittée avec joie.

  3. Quel merveilleux projet qu’ENCODE et quelle base de donnée…Cela va bien nous aider pour nos futures expériences 😉

    Ce qui est intéressant dans ce projet c’est qu’ils ont annoté 80% du génome (cad dans telle zone il se passe ça, dans telle autre à côté il se passe ça…) et non pas montré, comme le disent plusieurs journaux, que ces 80% étaient fonctionnels…

  4. Pingback: BiopSci » Décryptage Génomique » Ce qu’ENCODE a réellement appris aux scientifiques

  5. Cela veut dire que notre ADN est le résultat d’un code réfléchi …
    il y aurait donc un programmeur ?
    comme a dit Voltaire
    “L’univers m’embarrasse, et je ne puis songer
    que cette horloge existe et n’ait pas d’horloger.”
    nous ne devons pas oublier que nous sommes des créatures et qu’il y a un créateur qui nous aime.

    • Bon franchement j’ai hésité à approuver ce message, qui est strictement identique à celui que vous avez posté sur le blog biopSci. Laissons régner la liberté d’expression.

      • attends, c’est la gloire, tu commences carrément à être spammé! C’est rare, non? :-)

        Tiens, je viens de lire ce texte assez drôle viens exiled:

         » [description hilarante de Salt Lake comme un genre d’égout naturel immense qui pue qui pue qui pue]
        Ah, Intelligent Design — how do you think this shit up?  »

        http://nsfwcorp.com/dispatch/bernie-bernbaum-does-america
        (c’est un peu du journalisme « gonzo »)

  6. Pingback: #ENCODE : La revanche du retour du fils du génome humain | C@fé des Sciences | Scoop.it

  7. Pingback: ENCODE waves hit the shore…and scientists respond | The OpenHelix Blog

  8. Pingback: Faudrait pas que le bon peuple puisse juger de la science concernant les #OGM directement (#openaccess, not) | Tout se passe comme si

  9. Pingback: Notre génome n’est pas fonctionnel à 80% et je reste poli, moi #ENCODE | Tout se passe comme si

  10. Pingback: Le cerveau humain diffère-t-il de celui des singes ? La réponse dans l’expression des gènes | Tout se passe comme si

  11. Pingback: Le génome aléatoire, un contrôle pour interpréter 15 To de données sur le génome humain | Tout se passe comme si

  12. Pingback: Réflexions sur le blog SciLog de J.J. Kupiec et le hasard en biologie | Tout se passe comme si

  13. Pingback: Les méthodes bioinformatiques utilisées en génomique sont importantes #methodsmatter #BigScience | Tout se passe comme si