Annoter un gène, un génome, c’est quoi ?

cliquez sur l’image

En réponse aux questions obtuses de JRobinss (ex Julien) sur le billet « conjecture orthologue« , je vais expliquer le mot annotation en contexte de bioinformatique / génomique, et au passage montrer que dans la biologie moderne, les expériences fournissent des données incompréhensibles et inutiles à moins que de bons et nobles bioinformaticiens ne leur donnent du sens.

Au début, était le génome. On l’a séquencé. Qu’est-ce que ça veut dire ? Ca veut dire qu’on a lu la suite des nucléotides, ou bases, qui le constituent. Et ça nous apprend quoi ? En première approximation, rien. Pour expliquer plus avant, nous allons plonger à corps perdu dans les analogies. Les analogies sont de mauvais guides pour le raisonnement, mais parfois une bonne manière d’expliquer (sauf quand c’est moi, mais c’est mon blog).

Alors un génome est une suite de bases comme du texte écrit est une suite de lettres. Ou d’idéogrammes, ça dépend comment c’est écrit. Prenons justement l’exemple des idéogrammes. Supposons que vous ne lisiez pas le chinois (une supposition peu risquée pour la plupart de mes lecteurs je pense), et qu’on vous offre l’oeuvre intégrale de Confucius en version originale. Si vous parcourez toutes les pages, et regardez tous les caractères, vous aurez d’une certaine manière « lu » Confucius. Mais on est d’accord que ça ne vous aura pas apporté grand-chose. Si je vous montre la séquence complète du génome humain, ça sera à-peu-près pareil.

Bien sûr on ne sait pas rien du génome, alors disons que vous avez pris un an de cours de chinois. Vous commencez à reconnaître des caractères ici et là, vous pouvez lire une phrase simple, vous reconnaissez la structure. Mais le plus gros ne fait toujours pas sens.

Alors ça c’est trop simple, vous savez que dans le livre tous les caractères font sens, et sont utiles à la compréhension du tout. Dans un génome, vous ne savez pas où sont les gènes, les séquences régulatrices, et les morceaux qui ne font rien. Donc on va compliquer l’analogie. Maintenant on va recoder Confucius en Unicode, et ajouter à des endroits au hasard (y compris donc au milieu des phrases) des séries de caractères alphanumériques aléatoires.

Je vous donne ceci, et votre mission est de : trouver les codes correspondant à des caractères chinois, les décoder, comprendre le sens de ces caractères (qui n’aura pas toujours une traduction française non ambigue), comprendre le sens des phrases qu’ils composent, et finalement comprendre l’oeuvre de Confucius. Facile.

Eh bien annoter un génome, c’est ça. On doit trouver les éléments fonctionnels (gènes – qui peuvent être coupés en morceaux, séquences régulatrices des gènes, etc), définir au moins d’une certaine manière ce qu’ils font (leur fonction), et si possible définir la façon dont ces éléments fonctionnent ensemble pour faire de la biologie, une cellule, un organisme.

Comme le programme complet est très ambitieux, et franchement pas faisable en l’état de nos connaissances (on est en 2ème année de chinois là), on se focalise généralement sur deux objectifs :

  • Définir les éléments fonctionnels du génome ; pour les gènes codant pour des protéines c’est presque facile, pour le reste on galère encore pas mal mais on progresse.
  • Définir la fonction au moins des gènes à un niveau simple, genre « c’est une enzyme impliquée dans la digestion ». C’est de ce type-là d’annotation qu’on causait dans le billet précédent sur les orthologues. La question était donc de voir si on avait annoté les orthologues avec des fonctions similaires, et on trouvé trouvait surtout que les annotations dépendaient de la personne qui avait fait l’étude.

Je pousse mon analogie un peu loin, là, mais disons que si deux groupes d’étudiants « annotent » comme ceci deux versions différentes de Confucius (en mandarin et en cantonais, allez), et qu’ils ont étudié avec des profs différents et qu’ils ont des intérêts différents, on aura peut-être des traductions plus similaires entre chapitres d’une même version, qu’entre chapitres correspondant des deux versions, non pas parce que les textes sont vraiment plus similaires, mais parce qu’ils se focalisent sur les mêmes ensembles limités de mots, et font les mêmes choix lorsque c’est ambigu. (Pour que l’analogie marche vraiment faudrait des chapitres dupliqués qui ont presque mais pas tout-à-fait le même sens, mais ça devient vicieux.)

Bon j’espère que c’est plus clair, sinon enguelez-moi dans les commentaires. En tous cas, vous pouvez constater que la biologie c’est bien compliqué, allez, et c’est pour ça qu’en même temps que lire une séquence d’ADN devient de plus en plus facile, la comprendre reste un défi.

12 réponses à “Annoter un gène, un génome, c’est quoi ?

  1. Ping : Le cerveau humain diffère-t-il de celui des singes ? La réponse dans l’expression des gènes | Tout se passe comme si

  2. Ping : BiopSci » Décryptage Génomique » Ce qu’ENCODE a réellement appris aux scientifiques

  3. Ping : #ENCODE : La revanche du retour du fils du génome humain | Tout se passe comme si

  4. Ping : Impact de la bioinformatique : questions / réponses | Tout se passe comme si

  5. Ping : Grandeur et chute de la bioinformatique ? Promesses et progrès | Tout se passe comme si

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.