Archives pour la catégorie humain

Comment utiliser les maths et la génomique à la ENCODE pour mieux comprendre les variations génomiques humaines

cliquez sur l'image

cliquez sur l’image

J’ai lu récemment un article qui est assez technique, mais dont je voudrais parler ici d’une part parce qu’il m’a beaucoup plu (geek alert), et d’autre part parce qu’il illustre bien je pense deux points intéressants : le pouvoir de la recherche interdisciplinaire (maths et biologie en l’occurence), et la façon dont les progrès de la génomique et de la bioinformatique augmentent notre compréhension du génome. Ce dernier point implique à la fois des espoirs de diagnostic médical, et des inquiétudes sur la vie privée…

Joseph K. Pickrell 2014 Joint Analysis of Functional Genomic Data and Genome-wide Association Studies of 18 Human Traits. Am J Hum Genetics 94, p559–573

Il faut d’abord expliquer comment on trouve d’habitude des variations génomiques (des mutations pas trop rares) impliquées dans des phénotypes (caractères visibles ou mesurables, dans la variation normale comme la taille, ou pathologiques comme la tendance à certaines maladies). On utilise le GWAS, Genome Wide Association Study, qui consiste à comparer entre groupes de personnes (typiquement, avec ou sans une maladie) des centaines de milliers de variations génomiques, et chercher quelles variations ont une association statistique significative avec la maladie, c’est-à-dire sont plus fréquentes chez les malades que chez les non malades. Avec l’espoir de trouver des causes génétiques de la sensibilité à différentes maladies (ou différents phénotypes normaux).

Le problème, c’est que c’est peu puissant, c’est-à-dire que c’est dur de trouver des variations génomiques signficatives expliquant une part importante de la variatiation phénotypique. C’est là où vient le travail de Jo Pickrell. Il formalize l’intuition selon laquelle une association génomique dans une région connue pour être importante (par exemple un gène) a plus de chances d’être vraiment causale qu’une association dans une région sans fonction connue, voire connue pour être sans fonction. Et du coup, il utilise les données d’ENCODE, qui sont peut-être bruitées et sur-interprétées, mais sont une immense source d’informations sur le rôle potentiel de chacun des 3,2 milliards de nucléotides de notre génome. En combinant cela avec d’autres sources d’information, certaines presque triviales (est-ce un gène ? est-ce à coté d’un gène ?), il obtient une classification des nucléotides en 450 classes de fonction potentiellement différente.

La partie méthodes du papier est pas mal riche en équations. Le concept central est le théorème de Bayes (voir ici par exemple), et je ne vais pas tout détailler, et en plus j’ai les équations qui s’insèrent mal dans WordPress (et j’ai pas envie de débugger), mais voici le point clé pour moi. La probabilité postérieure qu’une région du génome soit associée au phénotype dépend de la probabilité a priori pour ce genre de régions (élevé pour un gène, pas mal élevé pour une région qui fixe plein de facteurs régulateurs, faible pour une région où rien de fonctionnel ne se passe) et du support statistique d’association de chacun des variants génomiques dans cette région (si vous avez le papier, j’en suis à l’équation 17). Et de même, on peut calculer la probabilité postérieure que chacun de ces variants soit celui qui est causalement associé. Et le produit de ces deux probabilités nous donne la probabilité pour un variant d’être associé au phénotype, sachant le type fonctionnel de la région du génome où il est, et sachant toutes les associations statistiques simples dans cette région. Simple et beau.

En applicant cette méthode à 450 types de régions et à 18 jeux de données (variants génomiques liés à phénotypes) de GWAS, il montre par exemple que pour certains types de phénotypes(par exemple la densité des os) on a surtout des variations des protéines qui sont importants, alors que pour d’autres (par exemple le nombre de globules rouges) c’est surtout les variations de la régulation des gènes. Il trouve aussi, de manière pas évidente, que la répression des gènes est souvent plus critique que leur activation. Finalement, la chromatine fermée (partie du génome où l’ADN n’est pas disponible pour l’activité des gènes contenus) contient généralement peu d’associations importantes, ce qui pourrait grandement améliorer la puissance statistique de tests qui n’auraient plus à se préoccuper de cette partie de l’ADN (si on sait bien l’identifier pour les types de cellules pertinentes…).

Et donc pour revenir à mon observation de départ, ce type d’étude me motive pour ne pas être d’accord avec ceux qui considèrent que le séquençage des génomes ne sert à rien ou ne présente pas de risques pour la vie privée. Avec des données fonctionnelles qui augmentent exponentiellement, et les progrès des méthodes mathématiques et informatiques, ce n’est presque plus de la science fiction de prédire des traits intéressants ou génants d’un individu à partir de son ADN. ADN que vous laissez trainer partout où vous passez. Sur ce, bonne journée. 🙂

Mise à jour : Joe Pickrell lit le français !

 

Darwin day : de l’importance de la biologie évolutive pour comprendre les génomes et leurs implications médicales

Cliquez sur l'image

Cliquez sur l’image

Aujourd’hui c’est Darwin Day ! Bon je n’ai pas le temps de faire un long billet bien documenté (comme ceux-ci sur l’importance des mécanismes autres que la sélection naturelle : Du côté de chez Elysia chlorotica, Webinet des curiosités), mais je vais parler rapidement de l’importance de la biologie évolutive pour comprendre les génomes.

Comme déjà dit, séquencer des génomes, c’est de plus en plus rapide, de moins en moins cher, et cela a des conséquences médicales : on peut détecter les mutations qui distinguent les personnes. Mais de telles mutations, y en a tout plein. En moyenne, chacun de nous a de l’ordre de 200 mutations neuves, qu’aucun de ses parents n’avaient, plus plein d’autres partagées. Mais lesquelles sont médicalement pertinentes ? Pour essayer de prévoir cela, les bioinformaticiens développent des méthodes computationnelles pour prévoir l’impact de chaque mutation. Attention, quand on dit l’impact, on ne veut pas dire « ça va faire les cheveux roux légèrement moins roux » hein, on n’en est pas encore là, mais plutôt une classification du type : pas de conséquences, un peu mauvais, plutôt grave, carrément inquiétant.

Premier role de la biologie évolutive : nous renseigner sur ce à quoi nous devons nous attendre. Si vous avez lu les billets cités ci-dessus (Elysa et webinet), vous savez que la plupart des mutations dans l’ADN n’ont aucun effet. Et ceux qui ont un effet, ont de manière très générale un effet négatif. C’est relativement intuitif : quand quelque chose marche, et qu’on le modifie au hasard, on a beaucoup plus de chances de le casser que de l’améliorer. Donc on négliger les toute minuscule chance qu’une mutation inconnue jusqu’ici améliore les choses, et on va chercher à classer selon l’effet potentiel. S’il n’y en a pas, cool. S’il y en a un, c’est probablement mauvais.

Deuxième role de la biologie évolutive : le meilleur prédicteur de l’importance d’une mutation, c’est de savoir si cette position dans l’ADN est conservée entre espèces ou non. En effet, si une position d’ADN qui joue un rôle important dans la survie et la reproduction des organismes mute, cette mutation sera détrimentale, et sera probablement éliminée par la sélection naturelle (Darwin ! Darwin !). Par contre si une position qui ne joue pas un rôle important mute, la mutation sera « neutre » (je vous dit d’aller lire les billets cités en haut du billet), invisible pour la sélection naturelle, et aura une faible chance d’être gardée dans l’évolution. Petit exercice de maths de génétique des populations rigolo : sachant que les chances qu’une mutation neutre soit gardée après son apparition sont inversement proportionnelles à la taille de la population (parce que ça veut dire que le morceau d’ADN gardé par toute l’espèce est celle de cet individu muté), et que les chances qu’une mutation apparaissent sout proportionnelles à la taille de la population, qu’en est-il des chances au total pour une position neutre de changer ? Bin la taille de la population est éliminée, donc c’est un taux relativement stable.

Donc les parties d’ADN qui n’auront que peu d’impact médical évoluent relativement vite et de manière relativement stable au cours du temps. Alors que les parties qui ont potentiellement un gros impact médical seront bien conservées entre espèces, grâce à la sélection naturelle. Et ce n’est pas un tout-ou-rien : plus c’est important, plus la sélection est forte, plus c’est conservé. Les protéines qui forment l’ADN en chromosomes (histones) sont 100% conservées entre tous les animaux (à ma connaissance), faut dire que c’est vraiment vraiment critique.

Encore mieux, il faut préciser que ce n’est pas une région d’ADN qui est neutre ou pas, c’est une mutation. Avec assez de données comparatives entre espèces, on peut donc distinguer à une position les mutations « permises » de celles qui sont « interdites » (ou très rares), donc potentiellement détrimentales.

Dans deux articles publiés récemment, des équipes ont proposé de nouveaux classificateurs améliorés pour prédire l’impact des mutations dans le génome humain :

Ritchie et al. 2014 Nature Methods doi:10.1038/nmeth.2832
Kircher et al 2014 Nature Genetics doi:10.1038/ng.2892

Dans les deux articles, ils incluent beaucoup de caractéristiques différentes de l’ADN, y compris les modifications chimiques (billet épigénétique à l’ASP), la composition en nucléotides, l’état du chromosome dans différentes cellules (ADN très enroulé ou plus déroulé), etc etc. Et dans les deux articles, le prédicteur le plus fort et le plus cohérent de l’effet des mutations c’est la conservation évolutive. En plus dans Kircher et al ils ont simulé l’évolution de l’ADN sous différents scénarios pour bien vérifier la pertinence de leur méthode.

Donc Darwin ça ne sert pas qu’à comprendre les pinsons des Galapagos (bien que ce soit aussi très important) ; la théorie qu’il nous a légué, et que l’on continue à améliorer, sert aussi à faire sens de l’énorme quantité d’informations biomédicales qui devient disponible.

Joyeux Darwin Day.

Cellules souches à l’acide : promesses thérapeutiques et leçons sur la méthode scientifique

Cliquez sur l'image

Cliquez sur l’image

[si vous lisez ce billet, voyez aussi les problèmes plus récents notés dans cet autre]

Nouvelle fracassante en biologie cette semaine ! Des chercheurs rapportent qu’ils peuvent transformer des cellules spécialisées de souris nouvelles-nées en cellules souches, simplement en les exposant à de l’acide.

Obokata et al. (2014) Stimulus-triggered fate conversion of somatic cells into pluripotency. Nature 505, 641–647
Obokata et al. (2014) Bidirectional developmental potential in reprogrammed cells with acquired pluripotency. Nature 505, 676–680
Smith (2014) Cell biology: Potency unchained. Nature 505, 622–623 (commentaire)
(articles tous d’accès payant, hélas hélas)

Une cellule souche, c’est une cellule qui a le potentiel de se développer en tout type de cellule spécialisée. C’est très important thérapeutiquement, parce qu’il y a le potentiel de renouveller des parties abimées de notre corps.

Dans un premier temps, on ne savait les obtenir qu’à partir d’embryons, ce qui posait des problèmes éthiques. Plus récemment, on a découvert le moyen de reprogrammer les cellules spécialisées en les traitant avec les facteurs de transcription typiques des cellules souches (Prix Nobel 2012). Késako ? Toutes nos cellules ont le même ADN. Si elles sont spécialisées, c’est qu’un certain ensemble de gènes s’exprime (est actif), alors que d’autres non. Ce qui fait une cellule souche, plutôt que de muscle ou de peau ou de nerf, c’est le choix des gènes exprimés ou non. Ce qui fait exprimer ou non chaque gène, c’est le contrôle par des protéines spécialisées dans la régulation des gènes, les facteurs de transcription. Donc si on met les bons facteurs de transcription, on peut diriger la cellule vers l’état que l’on veut. Mais c’est cher et difficile.

Dans la nouvelle étude, ils ont découvert qu’en stressant les cellules spécialisées, ils en conduisent à se dédifférencier en cellules souches. Or, stresser une cellule c’est facile : de la chaleur, de l’acide, pas assez de nutriments, plein de choses marchent. Ce qui marche le mieux ici, c’est un léger acide. Beaucoup plus simple que le dosage exact de plein de protéines spécifiques. Donc potentiellement applicable pour développer des cellules souches spécifiques à chaque patient qui en a besoin.

Voilà pour les promesses thérapeutiques. Et les lessons sur la méthode scientifique ? Tournons-nous vers le blog journalistique sur le site boston.com.

D’abord pour s’amuser, quelques citations qui illustrent l’ampleur de la découverte :

The result is “shocking,” “astounding,” “revolutionary,” and “weird,” said scientists not accustomed to using such exuberant words to describe new research findings

“It’s just a wonderful result; it’s almost like alchemy,” said Douglas Melton, co-director of the Harvard Stem Cell Institute.

Ensuite, noter dans ce billet de blog et les autres réactions sérieuses que j’ai lues ces derniers jours la phrase « If the finding is replicated by other scientists, it also promises to yield fresh insights ». Si le résultat est reproduit. Nous nous méfions toujours du syndrome de l’étude unique, contrairement aux militants pseudo-scientfiques toujours prêts à bondir sur une étude isolée qui montre que le climat ne change pas, les OGM c’est poison, les vaccins c’est poison, le sexe guérit le cancer (ou presque) et je ne sais quoi. Citation de Dr. George Q. Daley, director of the stem cell transplantation program at Boston Children’s Hospital

“It’s a startling result that makes you stand up and go, ‘Wow!’” Daley said. “With an equal dose of amazement and skepticism.”

Enfin, l’histoire de cette découverte est très intéressante. Le dernier auteur (en biologie, place du chef, celui qui a lancé et coordonné le travail), Charles Vacanti, a rapporté dès 2001 des cellules souches isolées en maltraitant mécaniquement des cellules spécialisées. A l’époque, il pensait juste isoler des cellules déjà présentes en petite quantité. Tel Galilé et Bozo le clown, on s’est moqué de lui. Alors il a laissé tomber un moment, puis repris avec un étudiant japonais (premier auteur des papiers, en biologie place de celui qui a fait le gros du travail). Ils ont commencé à tester l’idée que le stress était clé, en essayant différentes expériences.

Vous avez remarqué ? Vacanti, il a pas écrit un livre décriant l’establishment et donné plein d’iinterviews pour décrier la censure du complot en blouses blanches soutenues par le lobby Big Pharma. Non, il a réfléchi, reformulé son hypothèse, et avec un étudiant ils ont fait plein d’expériences supplémentaires. Ils ont d’abord réussi à faire des presque cellules souches, à durée de vie courte, puis des vraies cellules souches. Yaaaah !

Et alors truc incroyable, quand au lieu de crier au martyre vous faites les expériences et vous montrez que vous avez raison, y a pas des gorilles qui débarquent au labo pour tout casser, mais vous avez deux articles dans Nature et le gars qui a eu le Nobel avec la technique que vous rendez obsolète qui dit que c’est super excitant.

On vit quand même une époque formidable en biologie. C’est pas excitant ça ?

Pour mille balles, t’as un génome humain

cliquez sur l'image

cliquez sur l’image

Announce fracassante cette semaine dans le monde du séquençage d’ADN : la société Illumina, leader du domaine, va commercialiser deux nouvelles machines : le NextSeq 500, qui vise le marché des « petits » clients, et le HiSeq X 10, qui vise au contraire les très gros centres. (Pour le contexte du séquençage ADN moderne, je vous recommande ce billet sur le blog BiopSci.)

Le NextSeq 500, c’est pour reprendre le marché de l’entrée de gamme apparemment, notamment par rapport à Ion Torrent. D’après un blog généralement bien informé le NextSeq tuerait Ion Torrent, mais à $250’000 contre $80’000 pour Ion Torrent ça ne me paraît pas si évident.

Mais le plus important dans cette annonce est le X10. Illumina promet avec cette machine de passer la barre symbolique des $1000 pour un génome humain. Mais il faut y mettre le prix du ticket d’entrée : il faut acheter minimum 10 machines, et pour que ça vaille le coup, il faut les faire tourner en permanence. Dans ces conditions, vous séquencez 18’000 génomes par an. Le prix inclut également le logiciel pour analyser les données, et donc ce que vous obtenez c’est les variations entre humains : ce qui dans notre ADN fait que chacun de nous est unique (pas encore clair pour moi si c’est seulement les mutations d’une base, ou aussi les gros changements). Ces variations peuvent être déjà connues ou nouvelles, cela peut être un génome sain ou tumoral. Par contre, grosse limitation, le logiciel limite l’usage à l’humain seulement. Ceci alors que la technique est clairement applicable telle quelle à n’importe quelle espèce, de l’ADN c’est de l’ADN.

Point intéressant, les $1000 comprennent l’amortissement de la machine et les personnels pour la faire fonctionner, donc c’est pour de vrai. Par contre les scientifiques ou médecins pour interpréter les résultats, c’est autre chose. D’ailleurs c’est là que le goulot d’étranglement risque d’être, et partout dans le monde on pousse à intégrer davantage la génomique et la bioinformatique au cursus des médecins.

Illumina annonce donc avoir ajouté un nouveau point au graphe de la décroissance du coût du séquençage, nettement plus rapide que la décroissance du coût informatique (loi de Moore) depuis quelques années déjà :

moore_illumina

Image prise dans la doc publicitaire d’Illumina, donc je ne garanti pas la véracité, surtout du dernier point (ajouté par eux)

A noter qu’avec cette annonce pas mal de collègues commencent à s’inquiéter de la situation de quasi-monopole, ou en tous cas de très forte dominance (style Google ou Facebook), d’Illumina sur le séquençage d’ADN. Ce n’est pas trivial, il s’agit de lire nos génomes, d’obtenir des informations sur les mutations médicalement pertinentes ou la biodiversité. Un point qui me dérange depuis l’arrivée des nouvelles technologies de séquençage c’est qu’elles sont toutes basées sur des protocoles propriétaires auxquels on est obligés de faire confiance. Dans l’autre sens, quand un système comme Illumina domine suffisamment longtemps (c’est aussi le cas d’Affymétrix dans un autre domaine de biologie), les alternatives logicielles et statistiques ouvertes et potentiellement concurentes voient le jour et sont testés et améliorées (voir billet sur les méthodes bioinformatiques en génomique).

Alors à quoi vont servir ces machines ? Des petits pays ont déjà annoncé leur ambition de séquencer les génomes de toute la population, comme les îles Faroe, et la Grande Bretagne et l’Arabie saoudite veulent séquencer 100’000 patients chacun. On se rapproche du séquençage du génome de chaque nouveau-né à la naissance. Bien sur, ça n’est pas parce qu’on peut le faire qu’on doit le faire (voir billet sur les limites de la science). Mais clairement, on le peut. Il est temps d’ouvrir sérieusement la discussion pour savoir si on doit le faire.

En tous cas, GATTACA GATACA approche à grands pas, que nous soyons prêts ou non.

Sujet science et société sur ENCODE pour nos étudiants

essay

cliquez sur l’image

Avec un collègue membre du consortium ENCODE, nous proposons le sujet suivant dans notre cours « science et société » (voir aussi ce billet):

En septembre 2012 s’est conclue la phase 2 du projet international ENCODE (ENCyclopedia Of Dna Elements), qui vise à construire une liste exhaustive des éléments fonctionnels du génome humain, y compris les gènes et les éléments régulateurs. Cette conclusion s’est concrétisée par la mise à disposition de 15 Tb de données génomiques, et 30 articles publiés simultanément dans 3 journaux scientifiques. A l’occasion de ces publications, des commentaires virulents portaient sur l’assertion selon laquelle 80% du génome humain serait fonctionnel. Les auteurs des articles du consortium ENCODE se sont vu reproché d’avoir utilisé une définition abusive de la fonctionnalité.

Dans ce travail, vous discuterez de la pertinence et du rôle des projets de la « Big Science », de la manière dont les chercheurs impliqués dans ces projets devraient communiquer leurs résultats aux autres scientifiques et au public, et de ce que les scientifiques ne faisant pas de la Big Science peuvent ou doivent en attendre.

références :
http://encodeproject.org/
http://www.nature.com/encode/threads
http://genomeinformatician.blogspot.co.uk/2012/09/encode-my-own-thoughts.html
http://gbe.oxfordjournals.org/content/5/3/578
http://dx.doi.org/10.1016/j.cub.2013.03.023

———

Les étudiants sont en 2ème année de biologie, par groupes de 10. Le cours est obligatoire, et ils doivent choisir un projet proposé par un enseignant de biologie ou de sciences humaines. Ca va des OGM à la vie synthétique, du racisme au créationisme.

Mes billet précédents sur ENCODE :

#ENCODE : La revanche du retour du fils du génome humain

Notre génome n’est pas fonctionnel à 80% et je reste poli, moi #ENCODE

Le génome aléatoire, un contrôle pour interpréter 15 To de données sur le génome humain

La famille de Henrietta Lacks est d’accord pour qu’on utilise le génome HeLa, ce qui pose de nouvelles questions

Cliquez sur l'image

Cliquez sur l’image

On a parlé précédemment du séquençage du génome HeLa, qui était à la fois très utile parce qu’il s’agit de cellules très utilisées en biologie moléculaire, génomique, et recherche biomédicale (plus de 76’000 articles publiés), et à la fois problématique éthiquement parce que ces cellules sont dérivées d’une patiente noire américaine dans les années 1950 sans autorisation ni consultation éthique. Conséquence de cette situation, le génome des cellules HeLa a été séquencé, mais la séquence a été retirée des bases de données pendant une discussion avec la famille. Laquelle discussion a maintenant abouti.

A noter qu’entre temps une deuxième version du génome, plus détaillée, a été obtenue et soumise à Nature ; elle vient d’être publiée. Et je cite du commentaire de Nature :

The paper’s reviewers did not raise privacy concerns before recommending it for publication; nor did Nature.

Comme cette deuxième séquence est de meilleure qualité, ils ont pu trouver l’origine probable de la tumeur, une intégration d’un virus dans le génome.

Les données ne sont pas publiquement disponibles, comme c’est normalement le cas pour toutes les données génomiques ayant fait l’objet de publications scientifiques, mais sont disponibles sur demande par des chercheurs devant justifier pourquoi ils en ont besoin, et devant ensuite rendre des comptes sur l’usage qui en est fait. Deux membres de la famille d’Henrietta Lacks font partie du comité qui va évaluer les demandes.

Comme le fait remarquer un responsable de bioéthique, on ne va pas pouvoir faire cela pour chaque famille dans laquelle un génome est séquencé. Le directeur du NIH (qui finance la recherche biomédicale américaine), Francis Collins, a d’ailleurs déclaré que ce cas restera unique. Mais comme noté dans l’article du New York Times, il faut que les personnes dont les tissues ou les génomes seront utilisés dans de futures études sur le cancer se sentent confiantes qu’elles seront prises en compte.

Certains collègues sont mécontents de cet arrangement, parce que cela ajoute encore des règles à une recherche que certains resentent déjà comme sur-régulée (par exemple sur ce blog). Plus pertinent à mon sens, Michael Eisen pose quelques bonnes questions sur son blog :

  • Quand et dans quelles conditions est-ce que les héritiers de quelqu’un doivent pouvoir décider de l’usage des données ? Et s’ils ne sont pas d’accord ? Est-ce limité aux héritiers légaux, ou à tous ceux qui partagent une proportion significative (combien ?) du génome (un cousin vaut un petit-enfant) ?
  • Quand quelqu’un donne son accord pour l’utilisation d’échantillons, il y a souvent une condition permettant de retirer le consentement apparemment. Est-ce que les héritiers peuvent aussi retirer le consentement, et jusque quand ?
  • Une partie du problème avec les HeLa est qu’elles ne sont pas anonymes. Mais il est possible de retrouver la famille et parfois l’individu probable d’origine d’une séquence d’ADN déjà. L’anonymat en génomique comme sur internet devient de plus en plus difficile à mettre en oeuvre.

Michael Eisen fait remarquer très justement à mon sens que nos sociétés sont baties autour de la liberté et de la responsabilité individuelles, mais en génomique (et en génétique d’ailleurs) cette individualité perd son sens. Toute décision que vous prenez concernant vos données génomiques affecte tous ceux qui vous sont apparentés de manière proche.

C’est en quelque sorte un aspect du « village planétaire« . En plus des aspects prévus, on a la perte de vie privée, les voisins qui vous regardent et les ragots. En version génome + internet. Mais où va-t-on, je vous le demande ?

Redif : Génétique médicale : plus c’est gros, moins c’est beau

Tiens c’est l’été, je vais rediffuser quelques vieux billets. Voici un de janvier 2012 (original sur blogspot) :

cliquez sur l’image

Sur l’excellent blog Genomes Unzipped, plusieurs scientifiques des génomes (génomiciens ?) ont eu une discussion d’un effet curieux et intéressant de génétique médicale et surtout psychiatrique. Il n’y a pas si longtemps, ces études se basaient sur des échantillons tout petits, pour des raisons pratiques. Et il se publiait régulièrement des corrélations très fortes entre gènes (ou plutôt variants génomiques) et maladies psychiatriques. Plus les tailles d’échantillons ont augmenté, grâce aux progrès techniques, et plus les effets sont devenus faibles, jusqu’à être non significatifs dans toutes les études sérieuses récentes. Le graphe ci-dessous montre cet effet, avec des effets très fortement positifs ou négatifs pour les petits échantillons à gauche, et des effets presque nuls (rapport de 1 pour la fréquence de symptômes entre personnes avec et sans une mutation) pour les gros échantillons à droite.

L’explication est corrélée (haha) à celle traitée dans un billet récent pour Google correlate. Les études petites ont une forte variance (il y a beaucoup d’erreur sur la mesure), et on en fait beaucoup de ces études. A force d’essayer de tout corréler avec un symptôme, il sort des corrélations fausses positives, qui semblent fortes mais ne reflètent aucune relation causale sous-jacente. Dans les études récentes, on fait peu d’études mais à grande échelle, où le bruit aléatoire est minimisé. On voit alors le vrai signal, à savoir qu’il n’y en a presque pas.

Comme le disent les collègues, les petites études se comportent comme des générateurs aléatoires de résultats, lorsqu’il n’y a pas d’effet fort à détecter.

Par exemple, en 1992 une mutation du gène ACE a été trouvée qui augmentait les chances d’attaque cardiaque d’un facteur 3. Mais les études suivantes ont échoué à reproduire le résultat, tandis que le même gène se retrouvait dans plein d’autres études supposément lié à toutes sortes de pathologies. Ce gène était apparu sur le radar par hasard au début, et ensuite tout le monde l’a étudié. Les résultat négatifs (probablement plein, va savoir) n’ont pas été publiés, les résultats (faux) positifs, si. Avec le recul, ACE ne semble pas jouer de rôle particulier dans les attaques cardiaques.

Ce qui motive les collègues de Genomes Unzipped, c’est une étude récente qui fait comme si 20 ans d’expérience ne s’étaient pas accumulés, et rapporte un lien entre la « prosocialité » et un gène très étudié (récepteur à l’oxytocine), sur la base de 23 personnes. Pourtant, des études à large échelle (5117 personnes, 1’252’387 marqueurs génétiques) montrent qu’on ne trouve avec les données présentes aucun lien entre personnalité et gènes.

Les Genomes Unzipped boys ne jettent pas le bébé avec l’eau du bain, mais notent que les liens qui existent probablement entre génétique et traits complexes, tels que la personnalité, demanderont des études très larges pour être établis, étant donné que ce sont des effets faibles (et probablement avec des interactions complexes entre gènes, mais c’est une autre histoire).

Le blog de Nature montre que le même phénomène peut affecter des tests génétiques qui sont d’ores et déjà approuvés et commercialisés : le test pour CYP2C19 est approuvé par la FDA, pour déterminer quel traitement utiliser pour des maladies cardiovasculaires. Dans une méta-analyse (analyse combinée de plein d’études précédentes) avec 42’016 patients et 32 études, il n’y a aucun lien entre le gène et le médicament ! Je cite :

While there initially appeared to be a relationship, there was evidence it was biased by the small size of studies. When analysis was restricted to larger studies the association disappeared.

Je finirais en notant, en dehors de la génétique, que les faux positifs sont aussi un problème pour les tests HIV conduits sur le terrain en Afrique. Comme quoi comprendre les statistiques et le design expérimental peut être vraiment important.

ADN de Big Foot : comment être critique de la pseudo-science sans être méprisant ?

Cliquez sur l'image

Cliquez sur l’image

J’ai été contacté récemment pour donner mon avis sur le séquençage d’ADN de Big Foot (ou Sasquatch), le « yéti » nord américain. A l’époque où ce « résultat » avait été « publié » je n’avais pas réagi, vu qu’il était suffisamment couvert à mon avis sur Le bLoug et sur Strange Stuff and Funky Things.

Les guillemets un peu lourds ci-dessus, c’est parce que les auteurs ont écrit un article très bizarre, mal écrit, avec des vidéos et photos type Men in Black / X-files comme évidence à coté des information d’ADN, lequel ADN semble être un mélange d’humain et d’autres animaux. Les méthodes utilisées ont été de collecter des échantillons de poils auprès de personnes convaincues d’avoir Big Foot dans leur jardin ou leur bois. L’article ayant été suprenemment rejeté dans tous les journaux scientifiques contactés (de l’utilité de l’expertise par les pairs), les auteurs ont créé leur « journal« , qui est une page web moche qui fait très amateur, et qui ne contient qu’un article, le leur.

Ah et évidemment l’ADN qu’ils ont séquencé n’est pas publiquement disponible, officiellement parce que l’espèce Big Foot n’existe pas déjà dans les banques de données d’ADN. C’est vrai quoi, c’est pas comme s’ils avaient crée l’espèce Denisova quand il y avait besoin. Ah si. Donc article bizarrement écrit, site web étrange et créé exprès, données non disponibles. Pour soutenir des résultats hautement improbables. Pas de raisons de se méfier.

Sérieusement, le problème qui se pose à moi, c’est comment critiquer un truc pareil sans paraître hautain et méprisant ? Je dois déjà avoir échoué dans ce billet. L’argument « ça se voit à 100 km que c’est des conneries » ne sera pas très porteur auprés des personnes qui ont envie de croire qu’il y a quelque chose de vrai dans ces histoires, je le sens bien. Pourtant ça va être la réponse de tout scientifique qui jette un coup d’oeil à cette histoire. Démonter les résultats est une perte de temps manifeste, à la fois parce que c’est passer du temps à montrer qu’un truc clairement faux est faux, et parce que les partisans du complot fans de Big Foot, Yéti et Monstre du Loch Ness ne seront jamais convaincus.

On revient à un problème discuté à propos de Séralini (qui est un modèle de science comparé aux guignols dont il est question ici) : beaucoup de gens pensent que les scientifiques ont peur des résultats nouveaux et les écrasent ou les cachent, alors qu’on adore les résultats nouveaux. On est juste très stringeant quand il s’agit de les accepter. « Exceptional claims need exceptional evidence ». Si vous avez trouvé une espèce d’hominidé vivant à coté des humains sans être découverte depuis des millénaires, il faut nous le prouver, et une vidéo d’une couverture agitée hors champ (voir ici – cette vidéo est vraiment dans l’article) ça va pas le faire.

Il me semble qu’on a ici un problème de communication auquel je n’ai pas de solution.

Le génome aléatoire, un contrôle pour interpréter 15 To de données sur le génome humain

Cliquez sur l'image

Cliquez sur l’image (lien corrigé)

Il y a un nouveau papier de commentaire sur ENCODE qui est sorti, qui est court mais contient plusieurs points intéressants, donc je vais le discuter dans deux billets, dont ceci est le premier.

Comme discuté précédemment (voir ici et ici), ENCODE est un énorme consortium d’expériences pour déterminer l’activité et la fonction du génome humain. Les résultats d’ENCODE et surtout la manière dont ils ont été rapportés ont fait débat, parce qu’ils ont rapporté comme fonctionnel tout morceau d’ADN avec une activité biochimique mesurable de manière reproductible. Or il est possible (et selon beaucoup, probable) que de l’ADN qui n’a aucune fonction particulière dans l’organisme ait une activité biochimique reproductible.

Dans ce papier, Sean Eddy propose une expérience de contrôle conceptuellement simple :

To clarify what noise means, I propose the Random Genome Project. Suppose we put a few million bases of entirely random synthetic DNA into a human cell, and do an ENCODE project on it. Will it be reproducibly transcribed into mRNA-like transcripts, reproducibly bound by DNA-binding proteins, and reproducibly wrapped around histones marked by specific chromatin modifications? I think yes.

L’idée est effectivement simple : l’activité biochimique d’ADN aléatoire artificiel dans le même contexte cellulaire qu’ENCODE nous donne une mesure du bruit de fond de ces expériences. Une cellule est pleine d’enzyme modifiant l’ADN, de protéines liant l’ADN, et d’enzymes modifiant les protéines liées à l’ADN. Elles vont forcément interagir avec certains morceaux d’ADN aléatoire, pour deux raisons : certains sites d’interaction spécifiques seront dans cet ADN par hasard (de nombreux sites reconnus sont courts) ; et la spécificité des interactions n’est jamais parfaite, c’est une question d’équilibre chimique de liaisons faibles. Un facteur spécifique de ACGT fixera ACGT plus fréquemment que AGGT, mais fixera AGGT avec une certaine fréquence … mesurable et reproductible.

Une fois une telle expérience faite, seul l’excès d’activité mesurée par rapport à ce contrôle devrait être interprété comme ayant une pertinence biologique potentielle.

Une remarque importante de Sean : dans cet ADN aléatoire il y aura surement des morceaux qui non seulement auront une activité mesurable importante, mais dont la délétion provoquerait un effet notable (un phénotype). Parce que même si cet ADN a été introduit sans aucune fonction ni prévue artificiellement ni sélectionnée naturellement, de fixer un facteur le rend moins disponible pour d’autres régions, d’ouvrir l’ADN rend les régions proches plus faciles à ouvrir aussi, etc. Ceci pose un problème important lorsque l’on sait que la mesure considérée la plus rigoureuse et « finale » pour prouver une fonction est exactement de trouver un phénotype après délétion (ou autre pertubation majeure).

A noter qu’il faudrait tester cet ADN aléatoire dans tous les types de cellules testés par ailleurs, parce que le bruit de fond sera spécifique des protéines présentes dans ces cellules.

A noter aussi que cette expérience reste très minimale, parce que notre ADN contient plein de morceaux possiblement (probablement ?) inutiles mais pas aléatoires du tout. Par exemple quand un morceau d’ADN égoïste qui parasite notre génome (un transposon) se casse la gueule, on a : une ancienne « fonction » qui n’a jamais servi la cellule ou l’organisme, un morceau d’ADN qui n’a même plus cette fonction, et pourtant un morceau d’ADN qui a toute la structure et la plupart des séquences spécifiques pour fonctionner (si votre voiture ne marche plus elle ne devient pas un blob de métal et de plastique, elle garde la plupart des caractéristiques d’une voiture).

Finalement, pour s’amuser un peu, lire la réaction outragée de Dan Graur à ce que Sean Eddy rejette dos-à-dos ENCODE et la critique de Dan.

HeLa ! A qui est ce génome ?

En biologie moléculaire, on utilise beaucoup des cultures cellulaires, à savoir qu’on a les cellules dans une boîte de Petri pour étudier la manière dont elles fonctionnent. Mais la plupart de nos cellules ne se laissent pas cultiver facilement, et c’était encore plus vrai avant les progrès récents concernant les cellules souches. Donc on utilise beaucoup des cellules dérivées de tumeurs, qui elles se maintiennent bien en culture.

La lignée probablement la plus célèbre est la lignée HeLa, dérivée d’une tumeur d’une pauvre femme noire dans l’Amérique des années 50, Henrietta Lacks. A l’époque, on n’avait pas jugé bon de lui demander son avis, ni à sa famille. Et les cellules HeLa ont été utilisées, et continuent d’être utilisées, dans un nombre énorme d’études de biologie.

Or deux choses : un, ces cellules, comme toutes les cellules dérivées de tumeur gardées longtemps en culture, ont subi beaucoup de mutations, y compris des très grosses, et leur génome est très différent de celui d’une cellule humaine « normale ». Deux, on n’est plus dans l’ère de la biologie moléculaire, mais dans celle de la génomique, donc étudier un génome anormal en faisant comme s’il était normal pose problème.

Donc récemment des chercheurs de l’EMBL (le labo européen de biologie moléculaire) ont publié le génome de HeLa (enfin, un génome, parce que je parie que différentes cultures cellulaires ont différents génomes). Ce qui est très bien d’un point de vue purement de la compréhension de la biologie, parce qu’on peut mettre les expériences précédentes en contexte.

Mais très rapidement, des personnes, au premier chef desquels Jonathan Eisen, ont émis des doutes sur l’aspect éthique du séquençage du génome dérivé de Henrietta Lacks en l’absence de tout consentement éclairé. Deux arguments s’affrontent : on peut considérer que ce génome est tellement dérivé et bizarre par rapport à l’original qu’il n’a plus grand chose à voir avec la famille Lacks ; les cellules HeLa sont une forme de vie à part, pour laquelle un consentement éclairé n’est pas nécessaire. Ou on peut considérer que c’est bien le génome de Henrietta Lacks, même avec des mutations supplémentaires, et qu’il fallait donc un consentement. A cela s’ajoute le fait que Henrietta est morte depuis longtemps, donc c’est à ses petits-enfants qui n’ont que 1/4 de son génome en moyenne qu’il faudrait demander, et l’historique sordide de l’exploitation des cellules sans consentement ni aucune forme de réflexion éthique depuis les années 50. Je n’ai pas le temps d’aller dans tous les aspects du débat en cours, Eisen maintient une excellente liste des réactions en anglais, mais deux points intéressants :

Au blog Genomes Unzipped, ils ont montré qu’à partir des expériences déjà publiées on peut déjà reconstruire beaucoup des variants génétiques d’Henrietta Lacks.

Et ceci pose à nouveau la question posée par le premier génome Aborigène (voir aussi Tom Roud), de savoir à qui appartient l’information dans un génome, sachant qu’il est partagé avec votre famille et de manière plus large les personnes venant de la même région que vous.