Le génome aléatoire, un contrôle pour interpréter 15 To de données sur le génome humain

Cliquez sur l'image

Cliquez sur l’image (lien corrigé)

Il y a un nouveau papier de commentaire sur ENCODE qui est sorti, qui est court mais contient plusieurs points intéressants, donc je vais le discuter dans deux billets, dont ceci est le premier.

Comme discuté précédemment (voir ici et ici), ENCODE est un énorme consortium d’expériences pour déterminer l’activité et la fonction du génome humain. Les résultats d’ENCODE et surtout la manière dont ils ont été rapportés ont fait débat, parce qu’ils ont rapporté comme fonctionnel tout morceau d’ADN avec une activité biochimique mesurable de manière reproductible. Or il est possible (et selon beaucoup, probable) que de l’ADN qui n’a aucune fonction particulière dans l’organisme ait une activité biochimique reproductible.

Dans ce papier, Sean Eddy propose une expérience de contrôle conceptuellement simple :

To clarify what noise means, I propose the Random Genome Project. Suppose we put a few million bases of entirely random synthetic DNA into a human cell, and do an ENCODE project on it. Will it be reproducibly transcribed into mRNA-like transcripts, reproducibly bound by DNA-binding proteins, and reproducibly wrapped around histones marked by specific chromatin modifications? I think yes.

L’idée est effectivement simple : l’activité biochimique d’ADN aléatoire artificiel dans le même contexte cellulaire qu’ENCODE nous donne une mesure du bruit de fond de ces expériences. Une cellule est pleine d’enzyme modifiant l’ADN, de protéines liant l’ADN, et d’enzymes modifiant les protéines liées à l’ADN. Elles vont forcément interagir avec certains morceaux d’ADN aléatoire, pour deux raisons : certains sites d’interaction spécifiques seront dans cet ADN par hasard (de nombreux sites reconnus sont courts) ; et la spécificité des interactions n’est jamais parfaite, c’est une question d’équilibre chimique de liaisons faibles. Un facteur spécifique de ACGT fixera ACGT plus fréquemment que AGGT, mais fixera AGGT avec une certaine fréquence … mesurable et reproductible.

Une fois une telle expérience faite, seul l’excès d’activité mesurée par rapport à ce contrôle devrait être interprété comme ayant une pertinence biologique potentielle.

Une remarque importante de Sean : dans cet ADN aléatoire il y aura surement des morceaux qui non seulement auront une activité mesurable importante, mais dont la délétion provoquerait un effet notable (un phénotype). Parce que même si cet ADN a été introduit sans aucune fonction ni prévue artificiellement ni sélectionnée naturellement, de fixer un facteur le rend moins disponible pour d’autres régions, d’ouvrir l’ADN rend les régions proches plus faciles à ouvrir aussi, etc. Ceci pose un problème important lorsque l’on sait que la mesure considérée la plus rigoureuse et « finale » pour prouver une fonction est exactement de trouver un phénotype après délétion (ou autre pertubation majeure).

A noter qu’il faudrait tester cet ADN aléatoire dans tous les types de cellules testés par ailleurs, parce que le bruit de fond sera spécifique des protéines présentes dans ces cellules.

A noter aussi que cette expérience reste très minimale, parce que notre ADN contient plein de morceaux possiblement (probablement ?) inutiles mais pas aléatoires du tout. Par exemple quand un morceau d’ADN égoïste qui parasite notre génome (un transposon) se casse la gueule, on a : une ancienne « fonction » qui n’a jamais servi la cellule ou l’organisme, un morceau d’ADN qui n’a même plus cette fonction, et pourtant un morceau d’ADN qui a toute la structure et la plupart des séquences spécifiques pour fonctionner (si votre voiture ne marche plus elle ne devient pas un blob de métal et de plastique, elle garde la plupart des caractéristiques d’une voiture).

Finalement, pour s’amuser un peu, lire la réaction outragée de Dan Graur à ce que Sean Eddy rejette dos-à-dos ENCODE et la critique de Dan.

6 comments for “Le génome aléatoire, un contrôle pour interpréter 15 To de données sur le génome humain

  1. Tom Roud
    15 avril 2013 at 03:02

    Merci pour la référence, très intéressant. Je n’ai pas lu ni trop suivi toute la polémique (faut que je me mette a jour quand j’ai fini mon enseignement) mais n’y a-t-il pas aussi des arguments simplement de conservations des séquences ou de co évolution (pour détecter les fonctions conservées).?
    Le billet de Graur est amusant aussi, il ne dit pas que des bêtises sur les politiques de financement …

Comments are closed.