Comment utiliser les maths et la génomique à la ENCODE pour mieux comprendre les variations génomiques humaines

cliquez sur l'image

cliquez sur l’image

J’ai lu récemment un article qui est assez technique, mais dont je voudrais parler ici d’une part parce qu’il m’a beaucoup plu (geek alert), et d’autre part parce qu’il illustre bien je pense deux points intéressants : le pouvoir de la recherche interdisciplinaire (maths et biologie en l’occurence), et la façon dont les progrès de la génomique et de la bioinformatique augmentent notre compréhension du génome. Ce dernier point implique à la fois des espoirs de diagnostic médical, et des inquiétudes sur la vie privée…

Joseph K. Pickrell 2014 Joint Analysis of Functional Genomic Data and Genome-wide Association Studies of 18 Human Traits. Am J Hum Genetics 94, p559–573

Il faut d’abord expliquer comment on trouve d’habitude des variations génomiques (des mutations pas trop rares) impliquées dans des phénotypes (caractères visibles ou mesurables, dans la variation normale comme la taille, ou pathologiques comme la tendance à certaines maladies). On utilise le GWAS, Genome Wide Association Study, qui consiste à comparer entre groupes de personnes (typiquement, avec ou sans une maladie) des centaines de milliers de variations génomiques, et chercher quelles variations ont une association statistique significative avec la maladie, c’est-à-dire sont plus fréquentes chez les malades que chez les non malades. Avec l’espoir de trouver des causes génétiques de la sensibilité à différentes maladies (ou différents phénotypes normaux).

Le problème, c’est que c’est peu puissant, c’est-à-dire que c’est dur de trouver des variations génomiques signficatives expliquant une part importante de la variatiation phénotypique. C’est là où vient le travail de Jo Pickrell. Il formalize l’intuition selon laquelle une association génomique dans une région connue pour être importante (par exemple un gène) a plus de chances d’être vraiment causale qu’une association dans une région sans fonction connue, voire connue pour être sans fonction. Et du coup, il utilise les données d’ENCODE, qui sont peut-être bruitées et sur-interprétées, mais sont une immense source d’informations sur le rôle potentiel de chacun des 3,2 milliards de nucléotides de notre génome. En combinant cela avec d’autres sources d’information, certaines presque triviales (est-ce un gène ? est-ce à coté d’un gène ?), il obtient une classification des nucléotides en 450 classes de fonction potentiellement différente.

La partie méthodes du papier est pas mal riche en équations. Le concept central est le théorème de Bayes (voir ici par exemple), et je ne vais pas tout détailler, et en plus j’ai les équations qui s’insèrent mal dans WordPress (et j’ai pas envie de débugger), mais voici le point clé pour moi. La probabilité postérieure qu’une région du génome soit associée au phénotype dépend de la probabilité a priori pour ce genre de régions (élevé pour un gène, pas mal élevé pour une région qui fixe plein de facteurs régulateurs, faible pour une région où rien de fonctionnel ne se passe) et du support statistique d’association de chacun des variants génomiques dans cette région (si vous avez le papier, j’en suis à l’équation 17). Et de même, on peut calculer la probabilité postérieure que chacun de ces variants soit celui qui est causalement associé. Et le produit de ces deux probabilités nous donne la probabilité pour un variant d’être associé au phénotype, sachant le type fonctionnel de la région du génome où il est, et sachant toutes les associations statistiques simples dans cette région. Simple et beau.

En applicant cette méthode à 450 types de régions et à 18 jeux de données (variants génomiques liés à phénotypes) de GWAS, il montre par exemple que pour certains types de phénotypes(par exemple la densité des os) on a surtout des variations des protéines qui sont importants, alors que pour d’autres (par exemple le nombre de globules rouges) c’est surtout les variations de la régulation des gènes. Il trouve aussi, de manière pas évidente, que la répression des gènes est souvent plus critique que leur activation. Finalement, la chromatine fermée (partie du génome où l’ADN n’est pas disponible pour l’activité des gènes contenus) contient généralement peu d’associations importantes, ce qui pourrait grandement améliorer la puissance statistique de tests qui n’auraient plus à se préoccuper de cette partie de l’ADN (si on sait bien l’identifier pour les types de cellules pertinentes…).

Et donc pour revenir à mon observation de départ, ce type d’étude me motive pour ne pas être d’accord avec ceux qui considèrent que le séquençage des génomes ne sert à rien ou ne présente pas de risques pour la vie privée. Avec des données fonctionnelles qui augmentent exponentiellement, et les progrès des méthodes mathématiques et informatiques, ce n’est presque plus de la science fiction de prédire des traits intéressants ou génants d’un individu à partir de son ADN. ADN que vous laissez trainer partout où vous passez. Sur ce, bonne journée. 🙂

Mise à jour : Joe Pickrell lit le français !

 

3 réponses à “Comment utiliser les maths et la génomique à la ENCODE pour mieux comprendre les variations génomiques humaines

  1. Salut
    Le fait que les repressions géniques aient plus d’impact que les activations me semble suivre une logique darwinienne. Lors de l’évolution des génomes la probabilité d’apparition de novo d’un gène fonctionnel au bon endroit au bon moment doit être très rare (voire nulle). Il me semble plus logique de postuler que le mode par défaut est l’activation, qui produit des phénotypes sélectionnables (par exemple lors de duplications géniques ou chromosomiques) et que le tri se fait par la répression. C’est donc normal que les mécanismes de répression soient détectés par GWAS.
    En fait l’idée de l’importance de l’activation génique largement propagée, y compris dans l’enseignement (genre le gène machin est activé pour permettre le phénotype truc) me semble largement anthropocentrée, parce qu’activé c’est positif alors que réprimé c’est négatif. Mais si on admet que activé c’est par défaut et que ce qui « sculpte » le phénotype c’est la répression, la vision change.
    cheers
    CR

    • Je suis assez d’accord, à ceci près qu’une expression très forte a probablement besoin également d’une sélection pour l’activation. Mais oui, la répression spécifique dans certains tissus ou cellules, avec expression non spécifique ailleurs, fait sens en évolution.

  2. Ping : Comment utiliser les maths et la génomiq...