Archives pour la catégorie génomique

Encore une nouvelle technologie révolutionaire de séquençage de l’ADN, cette fois-ci portable

cliquez sur l'image

cliquez sur l’image

Comme on l’entend souvent (en tous cas si on lit des blogs de sciences), le séquençage de l’ADN se fait de plus en plus vite, de moins en moins cher, progressant à une vitesse bien supérieure aux progrès de l’informatique. Par exemple billet de Philippe Julien, de moi (génome à $1000), et bon article récent dans Le Monde.

La plupart des progrès récents sont dus à une société qui domine le marché, Illumina (voir cet article complet en anglais sur Forbes), bien que PacBio présente une alternative intéressante pour les génomes bactériens. Récemment, Mick Watson, bioinformaticien et bloggueur, a écrit sur son expérience avec un nouvel arrivant, Oxford Nanopore. Oxford Nanopore commercialise depuis très peu un séquenceur ultra-compact, le MinION, qui se branche dans la prise USB d’un ordinateur (Windows seulement apparemment pour le moment), et envoie les séquences directement dans l’ordinateur.

image de propagande du fabricant

Alors qu’Illumina lit des fragments d’ADN de 100-200 nucléotides (« lettres » d’ADN) (mais plein plein !), et que PacBio lit jusqu’à 20’000 (mais plus souvent dans les 1000), MinION lit couramment des dizaines de milliers, et jusqu’à 100’000 sans problème, semble-t-il. Donc un génome bactérien d’un coup. Mike Mick Watson voit d’énormes possibilités pour un séquenceur si petit, si mobile, et si puissant, et a donc décidé d’écrire un premier logiciel permettant de traiter directement les données produites sur l’ordinateur auquel le séquenceur est branché. Il a mis une première description de sa méthode sur Bioarxiv (un serveur pour mettre des articles pas encore formellement publiés), et explique un peu sur son blog de quoi il retourne. Il tient à ce que son logiciel marche même sans bonne connection internet, pour que ce soit accessible à un vétérinaire de campagne, un médecin de brousse, etc.

Mike Mick voit un futur dans lequel ce vétérinaire, ce médecin, puisse identifier par séquençage le pathogène (bactérie, virus, etc) auquel il a affaire, et ait donc à disposition un test diagnostique rapide, exact, puissant et universel, avec lui tout le temps. Si ça marche, certaines des prédictions enthousiastes des débuts de la génomique (fin des années 1990) seront enfin en train de se réaliser, et cela va changer beaucoup de métiers et de pratiques autour de la biologie. Bon reste à voir ce que ça va donner quand ça sera réellement commercialisé à grande échelle.

(Orthographe du prénom corrigée, suite à remarque sur Twitter)

Mise à jour : Mick signale sur Twitter que le papier a été accepté :

Mieux on connait notre génome, moins il a de gènes pour des protéines, et plus il en a d’autres

cliquez sur l'image (stripscience !)

cliquez sur l’image (stripscience !)

Nouvelles de l’équipe qui annote les gènes humains : ils ont tout remis à plat, comme il le font périodiquement, à la lumière des nouvelles données et des nouvelles méthodes ; ceci est la 20ème version. On peut noter que malgré les progrès des outils informatiques, des étapes de vérification manuelle (curation ou annotation, voir aussi ce billet) restent essentielles et représentent une grosse part du travail, pour avoir la meilleure qualité possible des annotations. En d’autres termes, être aussi confiant que possible que l’on a trouvé tous les gènes, et que tout ce qu’on a trouvé est un gène.

Ce qui revient quand même à une question sempiternelle en génétique : qu’est-ce qu’un gène ? Comme une espèce, c’est mal défini, mais pour un travail donné il faut une définition pratique. Gencode annote de l’ADN qui produit un ARN (molécule qui contrairement à l’ADN quitte le noyau cellulaire), soit qui code pour une protéine, soit qui est fonctionnel en lui-même. Quand on dit « gène » d’habitude (genre « combien de gènes communs entre humain et souris ? »), on veut dire ceux qui codent pour des protéines, mais les autres peuvent aussi jouer des rôles importants, certains connus depuis longtemps (ARN ribosomaux ou de transfert), d’autres découverts plus récemment (micro ARN, long ARN non codants).

Qu’est-ce qui a changé ? Comme à chaque mise à jour du compte des gènes humains, le nombre de gènes codant pour des protéines diminue, de 20’345 à 19’942 (rappel : le nombre de 21’000 annoncé en 2003 a été estimé trop bas par beaucoup). L’équipe s’attend à ce que ce nombre descende encore un peu. Par contre, le nombre d’ARN long non codants (lncRNA) augmente, de 13’870 à 14’229. Ce n’est pas dans le billet de Gencode, mais je suis frappé par la différence de nombre de lncRNA annotés pour l’humain et les autres espèces (par exemple comparer l’humain, la souris, et le poisson zèbre). Je doute fort que ce soit tout des créations de gènes spécifiques aux primates, donc soit on a beaucoup de faux positifs chez l’humain, et ce nombre va redescendre, soit il reste beaucoup à découvrir chez les autres, ce qui a une certaine logique vu qu’ils sont moins étudiés.

L’occasion de rappeler la super citation d’Isaac Asimov :

John, when people thought the Earth was flat, they were wrong. When people thought the Earth was spherical, they were wrong. But if you think that thinking the Earth is spherical is just as wrong as thinking the Earth is flat, then your view is wronger than both of them put together.

Notre connaissance du génome humain change, mais pas en errant aléatoirement, en partant d’une approximation grossièrement correcte et en l’affinant.

Mon étudiante a eu un prix : Sélection naturelle polygénique du système immunitaire dans l’évolution humaine

Cliquez sur l'image

Cliquez sur l’image

Une doctorante que je co-encadre, Joséphine Daub, vient de gagner un prix, et j’en profite pour me vanter et présenter son travail, qui est effectivement excellent et très intéressant. L’idée de départ est de mon collègue Laurent Excoffier, moi je trainais juste dans le coin (et j’ai peut-être contribué un peu aux méthodes et à la discussion).

Daub et al. 2013 Evidence for Polygenic Adaptation to Pathogens in the Human Genome Mol Biol Evol 30: 1544-1558

Il existe trois grands types d’action de la sélection naturelle : pour garder ce qui marche en l’état (dite négative, la plus fréquente), pour fixer des changements qui améliorent les choses (dite positive, rare), et pour garder de la diversité (dite balançante, rare aussi). Détecter la sélection négative c’est relativement facile, c’est ce qui est conservé lors de l’évolution. Détecter la sélection positive est plus difficile, mais potentiellement plus intéressant puisque c’est ce qui expliquera les différences entre espèces, voire entre populations. Une manière de détecter la sélection positive est de chercher des variants du génome (des polymorphismes ou « SNP ») qui ont des fréquences très différentes entre populations. Si certains types de SNP sont très fréquents chez les populations d’altitude (tibétains et andins) mais très rares chez les autres, c’est une indication que ces variants sont avantageux en altitude, et sous sélection positive qui les promeut dans ces conditions. Un des problèmes de cette approche, c’est que chez les humains qui nous intéressent souvent le signal s’il existe est très faible. Donc c’est difficile de détecter de manière fiable une évidence de sélection naturelle dans l’évolution humaine récente (« récente » des biologistes évolutifs : ces dernier ≈100’000 ans).

Et c’est là qu’intervient l’idée de ce travail : utiliser non pas le signal calculé pour chaque gène, mais faire la somme du signal pour des ensembles de gènes qui travaillent ensemble à une même fonction. En effet, les gènes n’agissent jamais seuls pour les fonctions biologiques : ce sont des réseaux métaboliques, des cascades régulatrices, des complexes protéiques, etc. Si une fonction est sous sélection positive, on peut supposer que de nombreuses petites variations dans différents gènes agissant sur cette fonction soient toutes affectées par cette sélection. Donc ce que l’on fait c’est (1) calculer pour chaque SNP le score de différentiation entre populations, (2) corriger ce score en fonction de problèmes connus de démographie, (3) définir des ensembles de gènes fonctionnellement pertinents (en l’occurence de NCBI Biosystems), (4) faire la somme des scores pour tous les gènes de chaque ensemble. Ensuite ça a été un peu compliqué de définir quel est un score significatif parmi des ensembles de gènes de tailles différentes, contenant des gènes de tailles différentes (un grand gène a plus de variants au hasard), avec des gènes en commun entre les ensembles (un gène peut agir dans plusieurs contextes, sans compter que la même fonction peut être décrite deux fois de manières différentes), bref à la fin on peut attribuer un score et une significativité statistique à chaque ensemble de gènes. (Vous êtes en thèse et vous déprimez ? Joséphine a obtenu ses premiers résults en 2 mois, a ensuite passé 2 ans à découvrir des biais et à les corriger, invalidant certains résultats et en découvrant d’autres ; maintenant elle récolte la gloire et les honneurs, mais ce fut dur.)

Et ce qui sort, c’est un petit nombre d’ensembles de gènes soit directement impliqués dans l’immunité, soit indirectement dans la défense contre les pathogènes. Désolé pour ceux qui attendaient des différences d’intelligence et autres bétises, ce qui différencie le plus les populations humaines ce sont les pathogènes (bactéries, virus et autres) auxquels elles ont été exposées dans différents environnements.

La méthode elle-même s’avère très puissante pour de nombreux cas où l’on a un signal faible par gène, mais qui peut se cumuler sur des ensembles de gènes ayant subi la même sélection, et a déjà été appliquée à l’évolution des fourmis (on trouve de la sélection sur le vieillissement, les fourmis vivent bien plus vieux que la plupart des insectes). On est train de l’appliquer à d’autres aspects de la sélection naturelle dans l’évolution humaine, mais pour la suite de l’histoire il faudra attendre qu’on publie les papiers…

Comment utiliser les maths et la génomique à la ENCODE pour mieux comprendre les variations génomiques humaines

cliquez sur l'image

cliquez sur l’image

J’ai lu récemment un article qui est assez technique, mais dont je voudrais parler ici d’une part parce qu’il m’a beaucoup plu (geek alert), et d’autre part parce qu’il illustre bien je pense deux points intéressants : le pouvoir de la recherche interdisciplinaire (maths et biologie en l’occurence), et la façon dont les progrès de la génomique et de la bioinformatique augmentent notre compréhension du génome. Ce dernier point implique à la fois des espoirs de diagnostic médical, et des inquiétudes sur la vie privée…

Joseph K. Pickrell 2014 Joint Analysis of Functional Genomic Data and Genome-wide Association Studies of 18 Human Traits. Am J Hum Genetics 94, p559–573

Il faut d’abord expliquer comment on trouve d’habitude des variations génomiques (des mutations pas trop rares) impliquées dans des phénotypes (caractères visibles ou mesurables, dans la variation normale comme la taille, ou pathologiques comme la tendance à certaines maladies). On utilise le GWAS, Genome Wide Association Study, qui consiste à comparer entre groupes de personnes (typiquement, avec ou sans une maladie) des centaines de milliers de variations génomiques, et chercher quelles variations ont une association statistique significative avec la maladie, c’est-à-dire sont plus fréquentes chez les malades que chez les non malades. Avec l’espoir de trouver des causes génétiques de la sensibilité à différentes maladies (ou différents phénotypes normaux).

Le problème, c’est que c’est peu puissant, c’est-à-dire que c’est dur de trouver des variations génomiques signficatives expliquant une part importante de la variatiation phénotypique. C’est là où vient le travail de Jo Pickrell. Il formalize l’intuition selon laquelle une association génomique dans une région connue pour être importante (par exemple un gène) a plus de chances d’être vraiment causale qu’une association dans une région sans fonction connue, voire connue pour être sans fonction. Et du coup, il utilise les données d’ENCODE, qui sont peut-être bruitées et sur-interprétées, mais sont une immense source d’informations sur le rôle potentiel de chacun des 3,2 milliards de nucléotides de notre génome. En combinant cela avec d’autres sources d’information, certaines presque triviales (est-ce un gène ? est-ce à coté d’un gène ?), il obtient une classification des nucléotides en 450 classes de fonction potentiellement différente.

La partie méthodes du papier est pas mal riche en équations. Le concept central est le théorème de Bayes (voir ici par exemple), et je ne vais pas tout détailler, et en plus j’ai les équations qui s’insèrent mal dans WordPress (et j’ai pas envie de débugger), mais voici le point clé pour moi. La probabilité postérieure qu’une région du génome soit associée au phénotype dépend de la probabilité a priori pour ce genre de régions (élevé pour un gène, pas mal élevé pour une région qui fixe plein de facteurs régulateurs, faible pour une région où rien de fonctionnel ne se passe) et du support statistique d’association de chacun des variants génomiques dans cette région (si vous avez le papier, j’en suis à l’équation 17). Et de même, on peut calculer la probabilité postérieure que chacun de ces variants soit celui qui est causalement associé. Et le produit de ces deux probabilités nous donne la probabilité pour un variant d’être associé au phénotype, sachant le type fonctionnel de la région du génome où il est, et sachant toutes les associations statistiques simples dans cette région. Simple et beau.

En applicant cette méthode à 450 types de régions et à 18 jeux de données (variants génomiques liés à phénotypes) de GWAS, il montre par exemple que pour certains types de phénotypes(par exemple la densité des os) on a surtout des variations des protéines qui sont importants, alors que pour d’autres (par exemple le nombre de globules rouges) c’est surtout les variations de la régulation des gènes. Il trouve aussi, de manière pas évidente, que la répression des gènes est souvent plus critique que leur activation. Finalement, la chromatine fermée (partie du génome où l’ADN n’est pas disponible pour l’activité des gènes contenus) contient généralement peu d’associations importantes, ce qui pourrait grandement améliorer la puissance statistique de tests qui n’auraient plus à se préoccuper de cette partie de l’ADN (si on sait bien l’identifier pour les types de cellules pertinentes…).

Et donc pour revenir à mon observation de départ, ce type d’étude me motive pour ne pas être d’accord avec ceux qui considèrent que le séquençage des génomes ne sert à rien ou ne présente pas de risques pour la vie privée. Avec des données fonctionnelles qui augmentent exponentiellement, et les progrès des méthodes mathématiques et informatiques, ce n’est presque plus de la science fiction de prédire des traits intéressants ou génants d’un individu à partir de son ADN. ADN que vous laissez trainer partout où vous passez. Sur ce, bonne journée. 🙂

Mise à jour : Joe Pickrell lit le français !

 

Résumé grand public de projet « Recherche bioinformatique d’évolution adaptative dans le développement des vertébrés »

Cliquez sur l'image

Cliquez sur l’image

Pour mon nouveau projet de recherche dont le financement a été accepté par le Fonds national suisse de la recherche scientifique (SNF), je dois fournir un résumé grand public, en français, allemand ou italien. On va dire français, et je vous met ici ce que j’ai écrit. D’abord à titre d’information, et ensuite parce que des retours sur la lisibilité du truc pour les non spécialistes seront les bienvenus.

Je doit suivre le format imposé par le SNF :

Lead

Les espèces animales diffèrent dans leur anatomie, et certaines de ces différences constituent des innovations évolutives remarquables, à petite échelle comme des changements de forme des dents, ou à grande échelle comme la mise en place d’ailes ou de poils. Ces différences doivent être codées dans le génome, et d’ailleurs certains cas particuliers sont bien connus.

Contenu et objectifs du travail de recherche

Le point de départ de ce projet est l’observation que les gènes actifs dans la fin du développement embryonnaire ou au début de la vie extra-embryonnaire (larve, nouveau-né) de différents vertébrés évoluent très rapidement. Cette évolution rapide concerne aussi bien la séquence des protéines que la régulation des gènes, ainsi que la perte ou le gain de nouveaux gènes. Or c’est aussi à ces stades de la vie que se mettent en plance les structures anatomiques qui varient entre espèces. Nous partirons d’une part des gènes dupliqués, source potentielle d’innovation, et d’autre part des gènes spécifiquement actifs à la fin du développement embryonnaire.
Nous chercherons à déterminer quelle part des ces changements évolutifs sont des adaptations, c’est-à-dire améliorent l’adaptation de l’animal à son environnement et procurent un avantage évolutif. En effet l’évolution rapide peut être due, soit à l’adaptation, soit au manque de contraintes, c’est-à-dire une accumulation de changements sans conséquences notables. Pour cela, nous utiliserons les outils bioinformatiques développés dans notre laboratoire et ailleurs, et les données de génomique disponibles. Nous considérerons les changements évolutifs à tous les niveaux, de la séquence d’ADN à la protéine et ses interactions en réseaux.

Contexte scientifique et social du projet de recherche

Le projet relève de la recherche fondamentale. Il permettra de mieux comprendre comment se mettent en place les innovations dévelopmentales, et donc anatomiques, dans l’évolution. Nous visons à utiliser la génomique pour réconcilier deux approches de la biodiversité qui s’opposent ou s’ignorent depuis plus de deux siècles : le structuralisme, qui met l’accent sur l’anatomie, et le fonctionalisme, qui met l’accent sur l’adaptation. Dans ce projet nous améliorerons aussi des projets bioinformatiques qui seront utiles plus largement en recherche biologique et médicale.

Rififi chez les bioinformaticiens : peut-on tout critiquer sur tous les tons ?

Cliquez sur l'image

Cliquez sur l’image

Un billet forcément trop court pour rendre compte d’un débat important et très animé qui a eu lieu ces deux dernières semaines, sur le blog de Lior Pachter, le même qui avait déclenché le débat sur les méthodes utilisées en bioinformatiques en fin d’année dernière. Dans une série de trois billets (The network nonsense of Albert-László Barabási ; The network nonsense of Manolis Kellis ; Why I read the network nonsense papers ; plus une explication de texte finale : Number deconvolution), Lior a démonté des articles par des scientifiques très connus, dans des journaux très reconnus, sur les méthodes d’analyse de réseaux, y compris les réseaux de gènes ou de protéines (quel gène interagit avec quel gène, ou régule quel gène, etc).

Je ne vais pas rentrer dans les détails, il faut lire les billets et les commentaires si vous vous intéressez à la biologie computationnelle. Mais je vais insister ici sur les tensions que ces billets ont cristalisé :

  • Tension entre méthodologistes, souvent énervés par des papiers par forcément 100% satisfaisants publiés dans de grandes revues, et scientifiques qui produisent ces papiers à haute visibilité, que les critiques des méthodologistes qui ne produisent pas les résultats biologiques énervent souvent.
  • Tension plus générale entre les scientifiques qui réussissent bien, même très bien dans le système actuel, de revues à fort impact très sélectives, et scientifiques qui réussissent moins bien dans ce système, et qui jusque récemment avaient peu l’occasion d’exprimer leurs critiques (à-peu-près toujours rejetées par les grands journaux « par manque de place » ou « trop technique »), mais s’expriment de plus en plus dans les blogs et sur les serveurs de preprints du type ArXiv.
  • Tension, enfin, entre la nécessité de parler franchement des problèmes éventuels de méthodes ou de résultats scientifiques, et la nécessité d’avoir un dialogue constructif entre scientifiques. Tension donc entre le fonds (y compris dire que c’est faux quand c’est faux) et la forme (ne pas accuser les collègues de fraude ou de malversations à la légère en public).

Le dernier point a donné lieu à la plus grande discussion, parce que le mot fraude, justement, a été employé. C’est un mot très chargé en science. Accuser quelqu’un de fraude, c’est très grave. Lior a accusé Manolis Kellis de fraude, parce qu’il a modifié une figure après expertise, et parce que des paramètres de la méthode n’étaient pas explicités. (C’est un prof de Berkeley qui accuse un prof du MIT, y a pas de petit joueur ici.)

Ma position sur ce débat, je l’ai donnée en commentaire du troisième billet, ici et ici. En bref, je pense que (1) le débat sur la forme a lieu d’être, et Lior a probablement eu tort d’utiliser le mot fraude, mais que (2) ce débat a été employé pour détourner de ce qui doit rester l’essentiel, à savoir la véracité et l’honnêteté du travail scientfique. Si Lior a raison, alors il a rendu un service important à la communauté. S’il a tort, il faut le montrer, pas juste pousser des cris sur le ton.

Je reiviens sur ce que j’avais écrit après le précédent billet à scandale de Lior :

grâce aux blogs et à Twitter ces gros projets se font sous la supervision de plus en plus proche et réactive d’une communauté qui n’a pas peur de faire connaître ses critiques, et que ces mêmes plateformes permettent aux scientifiques des gros projets de répondre, créant un dialogue constructif. Et ça c’est une très bonne nouvelle pour le progrès de la recherche en biologie et en sciences en général.

Je pense vraiment que la vigilance de personnes telles que Lior, ou « expertise post-publication », peut améliorer la science. Quelque part, ses motivations me challent peu : vengeance, jalousie, passion pure et brulante pour la science ? Si les auteurs et les journaux savent qu’ils courent le risque d’être critiqués sur la place publique en cas d’erreurs ou de manquements graves, tout le monde sera un peu plus prudent, peut-être un peu plus rigoureux, et ce sera pour le mieux. Voir aussi le débat post-publication en cours sur les cellules souches miraculeuses.

(A propos de l’image ci-dessus, je l’ai twittée du coup  à Lior et à Dan Graur, également spécialiste de la critique malpolie :

)

—-

Mise à jour : certains des débateurs opposés s’échangent des tuyaux gentils sur Twitter, c’est pas cool ?

 

 

Darwin day : de l’importance de la biologie évolutive pour comprendre les génomes et leurs implications médicales

Cliquez sur l'image

Cliquez sur l’image

Aujourd’hui c’est Darwin Day ! Bon je n’ai pas le temps de faire un long billet bien documenté (comme ceux-ci sur l’importance des mécanismes autres que la sélection naturelle : Du côté de chez Elysia chlorotica, Webinet des curiosités), mais je vais parler rapidement de l’importance de la biologie évolutive pour comprendre les génomes.

Comme déjà dit, séquencer des génomes, c’est de plus en plus rapide, de moins en moins cher, et cela a des conséquences médicales : on peut détecter les mutations qui distinguent les personnes. Mais de telles mutations, y en a tout plein. En moyenne, chacun de nous a de l’ordre de 200 mutations neuves, qu’aucun de ses parents n’avaient, plus plein d’autres partagées. Mais lesquelles sont médicalement pertinentes ? Pour essayer de prévoir cela, les bioinformaticiens développent des méthodes computationnelles pour prévoir l’impact de chaque mutation. Attention, quand on dit l’impact, on ne veut pas dire « ça va faire les cheveux roux légèrement moins roux » hein, on n’en est pas encore là, mais plutôt une classification du type : pas de conséquences, un peu mauvais, plutôt grave, carrément inquiétant.

Premier role de la biologie évolutive : nous renseigner sur ce à quoi nous devons nous attendre. Si vous avez lu les billets cités ci-dessus (Elysa et webinet), vous savez que la plupart des mutations dans l’ADN n’ont aucun effet. Et ceux qui ont un effet, ont de manière très générale un effet négatif. C’est relativement intuitif : quand quelque chose marche, et qu’on le modifie au hasard, on a beaucoup plus de chances de le casser que de l’améliorer. Donc on négliger les toute minuscule chance qu’une mutation inconnue jusqu’ici améliore les choses, et on va chercher à classer selon l’effet potentiel. S’il n’y en a pas, cool. S’il y en a un, c’est probablement mauvais.

Deuxième role de la biologie évolutive : le meilleur prédicteur de l’importance d’une mutation, c’est de savoir si cette position dans l’ADN est conservée entre espèces ou non. En effet, si une position d’ADN qui joue un rôle important dans la survie et la reproduction des organismes mute, cette mutation sera détrimentale, et sera probablement éliminée par la sélection naturelle (Darwin ! Darwin !). Par contre si une position qui ne joue pas un rôle important mute, la mutation sera « neutre » (je vous dit d’aller lire les billets cités en haut du billet), invisible pour la sélection naturelle, et aura une faible chance d’être gardée dans l’évolution. Petit exercice de maths de génétique des populations rigolo : sachant que les chances qu’une mutation neutre soit gardée après son apparition sont inversement proportionnelles à la taille de la population (parce que ça veut dire que le morceau d’ADN gardé par toute l’espèce est celle de cet individu muté), et que les chances qu’une mutation apparaissent sout proportionnelles à la taille de la population, qu’en est-il des chances au total pour une position neutre de changer ? Bin la taille de la population est éliminée, donc c’est un taux relativement stable.

Donc les parties d’ADN qui n’auront que peu d’impact médical évoluent relativement vite et de manière relativement stable au cours du temps. Alors que les parties qui ont potentiellement un gros impact médical seront bien conservées entre espèces, grâce à la sélection naturelle. Et ce n’est pas un tout-ou-rien : plus c’est important, plus la sélection est forte, plus c’est conservé. Les protéines qui forment l’ADN en chromosomes (histones) sont 100% conservées entre tous les animaux (à ma connaissance), faut dire que c’est vraiment vraiment critique.

Encore mieux, il faut préciser que ce n’est pas une région d’ADN qui est neutre ou pas, c’est une mutation. Avec assez de données comparatives entre espèces, on peut donc distinguer à une position les mutations « permises » de celles qui sont « interdites » (ou très rares), donc potentiellement détrimentales.

Dans deux articles publiés récemment, des équipes ont proposé de nouveaux classificateurs améliorés pour prédire l’impact des mutations dans le génome humain :

Ritchie et al. 2014 Nature Methods doi:10.1038/nmeth.2832
Kircher et al 2014 Nature Genetics doi:10.1038/ng.2892

Dans les deux articles, ils incluent beaucoup de caractéristiques différentes de l’ADN, y compris les modifications chimiques (billet épigénétique à l’ASP), la composition en nucléotides, l’état du chromosome dans différentes cellules (ADN très enroulé ou plus déroulé), etc etc. Et dans les deux articles, le prédicteur le plus fort et le plus cohérent de l’effet des mutations c’est la conservation évolutive. En plus dans Kircher et al ils ont simulé l’évolution de l’ADN sous différents scénarios pour bien vérifier la pertinence de leur méthode.

Donc Darwin ça ne sert pas qu’à comprendre les pinsons des Galapagos (bien que ce soit aussi très important) ; la théorie qu’il nous a légué, et que l’on continue à améliorer, sert aussi à faire sens de l’énorme quantité d’informations biomédicales qui devient disponible.

Joyeux Darwin Day.

Pour mille balles, t’as un génome humain

cliquez sur l'image

cliquez sur l’image

Announce fracassante cette semaine dans le monde du séquençage d’ADN : la société Illumina, leader du domaine, va commercialiser deux nouvelles machines : le NextSeq 500, qui vise le marché des « petits » clients, et le HiSeq X 10, qui vise au contraire les très gros centres. (Pour le contexte du séquençage ADN moderne, je vous recommande ce billet sur le blog BiopSci.)

Le NextSeq 500, c’est pour reprendre le marché de l’entrée de gamme apparemment, notamment par rapport à Ion Torrent. D’après un blog généralement bien informé le NextSeq tuerait Ion Torrent, mais à $250’000 contre $80’000 pour Ion Torrent ça ne me paraît pas si évident.

Mais le plus important dans cette annonce est le X10. Illumina promet avec cette machine de passer la barre symbolique des $1000 pour un génome humain. Mais il faut y mettre le prix du ticket d’entrée : il faut acheter minimum 10 machines, et pour que ça vaille le coup, il faut les faire tourner en permanence. Dans ces conditions, vous séquencez 18’000 génomes par an. Le prix inclut également le logiciel pour analyser les données, et donc ce que vous obtenez c’est les variations entre humains : ce qui dans notre ADN fait que chacun de nous est unique (pas encore clair pour moi si c’est seulement les mutations d’une base, ou aussi les gros changements). Ces variations peuvent être déjà connues ou nouvelles, cela peut être un génome sain ou tumoral. Par contre, grosse limitation, le logiciel limite l’usage à l’humain seulement. Ceci alors que la technique est clairement applicable telle quelle à n’importe quelle espèce, de l’ADN c’est de l’ADN.

Point intéressant, les $1000 comprennent l’amortissement de la machine et les personnels pour la faire fonctionner, donc c’est pour de vrai. Par contre les scientifiques ou médecins pour interpréter les résultats, c’est autre chose. D’ailleurs c’est là que le goulot d’étranglement risque d’être, et partout dans le monde on pousse à intégrer davantage la génomique et la bioinformatique au cursus des médecins.

Illumina annonce donc avoir ajouté un nouveau point au graphe de la décroissance du coût du séquençage, nettement plus rapide que la décroissance du coût informatique (loi de Moore) depuis quelques années déjà :

moore_illumina

Image prise dans la doc publicitaire d’Illumina, donc je ne garanti pas la véracité, surtout du dernier point (ajouté par eux)

A noter qu’avec cette annonce pas mal de collègues commencent à s’inquiéter de la situation de quasi-monopole, ou en tous cas de très forte dominance (style Google ou Facebook), d’Illumina sur le séquençage d’ADN. Ce n’est pas trivial, il s’agit de lire nos génomes, d’obtenir des informations sur les mutations médicalement pertinentes ou la biodiversité. Un point qui me dérange depuis l’arrivée des nouvelles technologies de séquençage c’est qu’elles sont toutes basées sur des protocoles propriétaires auxquels on est obligés de faire confiance. Dans l’autre sens, quand un système comme Illumina domine suffisamment longtemps (c’est aussi le cas d’Affymétrix dans un autre domaine de biologie), les alternatives logicielles et statistiques ouvertes et potentiellement concurentes voient le jour et sont testés et améliorées (voir billet sur les méthodes bioinformatiques en génomique).

Alors à quoi vont servir ces machines ? Des petits pays ont déjà annoncé leur ambition de séquencer les génomes de toute la population, comme les îles Faroe, et la Grande Bretagne et l’Arabie saoudite veulent séquencer 100’000 patients chacun. On se rapproche du séquençage du génome de chaque nouveau-né à la naissance. Bien sur, ça n’est pas parce qu’on peut le faire qu’on doit le faire (voir billet sur les limites de la science). Mais clairement, on le peut. Il est temps d’ouvrir sérieusement la discussion pour savoir si on doit le faire.

En tous cas, GATTACA GATACA approche à grands pas, que nous soyons prêts ou non.

Les méthodes bioinformatiques utilisées en génomique sont importantes #methodsmatter #BigScience

cliquez sur l'image

cliquez sur l’image

A l’occasion du projet ENCODE, j’ai déjà évoqué les avantages et inconvénients de la Big Science en biologie (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). Il y a en ce moment un débat très animé sur blogs et Twitter, concernant une question importante sur ces gros projets : les méthodes bioinformatiques utilisées.

Cela a commencé par ce billet de Lior Pachter, suivi de ce commentaire de Jeff Leek, et ce droit de réponse sur le blog de Lior. Si la question vous intéresse, je vous conseille fortement de lire non seulement les billets mais les commentaires. Il y a également une discussion Twitter intense, avec notamment les tweets de Lior, de Manolis Dermitzakis, et de Tuuli Lappalainen, et les hashtags #GTEx et #methodsmatter. La discussion comprend du beau monde en génomique et en bioinformatique. Quel est le débat ?

La discussion porte sur l’analyse de données de RNA-seq. Les gènes s’expriment (sont actifs) en étant transcrits en ARN. Plus un gène est actif, plus il y a d’ARN. Dans le RNA-seq, on séquence (on lit) des tas de petits morceaux d’ARN. On a davantage de morceaux lus pour les ARN correspondant aux gènes plus exprimés. Bon résumé de la méthode dans deux billets du site Bioinfo-fr : Analyse des données de séquençage à ARN et L’analyse de données RNA-seq: mode d’emploi. Ce deuxième fait aussi apparaître certains des soucis qu’on peut avoir.

Lior Pachter a remarqué que plusieurs gros projets, certains publiés comme ENCODE, d’autre encore en cours comme GTEx, utilisent une méthode bioinformatique de traitement du RNA-seq qui n’a jamais été publiée en tant que telle, donc n’est pas décrite formellement, n’a pas été évaluée, et n’a jamais été utilisée hors dédits consortiums (les auteurs de la méthode sont membres des consortiums Big Science en question). Il a essayé de comprendre la méthode (et Lior n’est pas un nul, il est notamment auteur de la méthode la plus utilisée, CuffLinks), sans grand succès, puis il l’a testée empiriquement sur les données de GTEx, parce que c’est ça qui l’intéressait. Et d’après ses tests, la méthode n’a que 10% du pouvoir statistique des méthodes plus habituellement utilisées dont il est l’auteur. Ce qui l’a conduit à écrire un billet de blog au titre provocateur « GTEx jette 90% de ses données ».

Dans la discussion qui s’en est suivie, il y a plusieurs éléments. L’un est une défense spécifique de GTEx. Manolis fait remarquer à juste titre qu’ils n’ont pas encore publié leurs résultats, donc qu’il est un peu tôt pour critiquer leurs choix méthodologiques, et note aussi que (1) ayant beaucoup beaucoup de données, ils ont du prendre en compte l’efficacité computationnelle des méthodes (à savoir que CuffLinks plantait leurs ordinateurs apparemment), et (2) ils avaient contacté la bande à Lior pour avoir de l’aide, sans succès.

Un élément plus important pour moi est le rôle en effet des méthodes bioinformatiques dans de tels projets. Cela implique plusieurs niveaux. Le projet Big Science est sensé fournir des resources (des données réutilisables) et des conclusions biologiques. Si on ne comprend pas les méthodes, si elles ne sont pas connues et reconnues par ailleurs, alors (1) cela limite la réutilisation, et (2) cela diminue notre confiance dans leurs résultats. Ainsi dans mon labo on essaye d’utiliser les données RNA-seq d’ENCODE, mais ils ont utilisé la même méthode dont discute Lior, et cela nous gène pour faire confiance dans les données prétraitées qu’ils nous fournissent, sans compter que des membres de l’équipe ont perdu pas mal de temps à essayer de comprendre quelque chose qui n’était juste pas bien expliqué. Et du coup, on a du mal à reproduire des résultats sur lesquels on aimerait construire.

A  noter que Lior avait aussi écrit une critique d’ENCODE, disponible sur ArXiv seulement.

Certains ont répondu à la discussion que peu importe, nous embêtent les bioinformaticiens, toutes les méthodes donnent les mêmes résultats. D’où le hashtag #methodsmatter de Lior, et sa réponse ironique « toutes les données me donnent les mêmes résultats » (vu d’avion, c’est presque vrai). Et là je suis complètement d’accord avec Lior. Bien sûr, pour trouver que la myosine est exprimée dans le muscle, peu importe la méthode. Mais pour associer des formes différences de l’ARN d’un même gène à des variations inter-individuelles dans l’ADN régulateur proche du gène, et autres subtilités qui sont l’essentiel du message biologique que l’on cherche avec ces très gros jeux de données, oui cent fois oui les méthodes comptent, et c’est limite irresponsable de suggérer autrement. Il faut rappeler que (1) les gros jeux de données coutent cher, donc on veut en tirer le signal maximum, d’où l’importance de méthodes statistiques puissantes, et (2) la définition d’un biais c’est une méthode qui converge avec une confiance croissante vers un résultat faux lorsqu’on a plus de données. Donc gros jeux de données = importance de faire attention aux biais.

Finalement un point important à retenir de cette discussion, comme celle qui a suivi la publication d’ENCODE, c’est que grâce aux blogs et à Twitter ces gros projets se font sous la supervision de plus en plus proche et réactive d’une communauté qui n’a pas peur de faire connaître ses critiques, et que ces mêmes plateformes permettent aux scientifiques des gros projets de répondre, créant un dialogue constructif. Et ça c’est une très bonne nouvelle pour le progrès de la recherche en biologie et en sciences en général.

Note de dernière minute : il vient de sortir une grosse évaluation des méthodes RNA-seq, que je n’ai pas encore lue (communiqué de presse avec liens vers papiers – accès fermés), mais qui semble trouver que CuffLinks (de Lior) marche bien.

Mise à jour : de manière suprenante, les papiers de l’équipe GTEx, ENCODE, et ces évaluation de méthodes RNA-seq sont affichés comme reliés par l’EBI (voir communiqué de presse ci-dessus), pourtant l’évaluation n’inclut pas la méthode Flux Capacitor utilisée par ENCODE et GTEx. Cela semble moyennement cohérent a priori, mais je continue à suivre la discussion. A noter aussi qu’à la lecture, CuffLinks ne semble pas forcément en effet la meilleure méthode.

Notes sur ma semaine en sciences 7

cliquez sur l'image, juste parce que j'aime bien ce blog de StripSciences

cliquez sur l’image, juste parce que j’aime bien ce blog de StripSciences

  • On a fété à Lausanne cette semaine les 15 ans de l’Institut suisse de bioinformatique (SIB). Cet institut permet de fédérer les bioinformaticiens dans toutes les universités suisses, de maintenir des resources bioinformatiques de manière pérenne, notamment des bases de données, et d’assurer la formation continue à la bioinformatique. L’histoire du SIB est intéressante, puisque c’est parti d’une crise : SwissProt, la base de données de référence sur les protéines, n’était plus soutenue par le Fonds national suisse pour la science, parce que bin ça n’est pas de la recherche. L’annonce de la fermeture de Swissprot avait succité un tel tollé qu’une solution a été trouvée, et le SIB est né, avec un engagement vers la maintenance à long terme de resources utiles à tout le monde
  • D’ailleurs cette année c’est aussi les 20 ans d’ExPASy, qui a été la première page web de biologie au monde, et est maintenant le portail des resources bioinformatiques du SIB.
  • Un article intéressant en ce qui concerne les efforts jamais finis pour comprendre le génome humain, pertinent aussi à la tension qui existe entre génomique fonctionnelle (si je le détecte, c’est important ! d’ailleurs, cancer) et génomique évolutive (si ça n’est pas conservé, ça n’est pas important ! d’ailleurs, génome de l’onion). Les gènes eucaryotes (y compris animaux et plantes) sont en morceaux (exons) dans le génome, lesquels sont ensuite assemblés au niveau du transcrit (ARN) et traduits en protéines. Certains exons ne sont pas toujours utilisés, et la plupart des gènes ont ainsi de nombreux transcrits alternatifs. Depuis que la fréquence élevée de la transcription alternative a été découverte, il y a débat entre ceux qui pensent que c’est pour l’essentiel fonctionnel, ainsi un gène peut produire de nombreuses protéines, et ceux qui pensent que c’est pour l’essentiel des erreurs du système moléculaire (voir rôle du hasard). En faveur du second point de vue, les importantes différences entre espèces même proches, plutôt en faveur de mécanismes aléatoires. Dans ce papier récent (PNAS, libre d’accès) les auteurs ont comparé par bioinformatique les transcrits alternatifs de 6 espèces de primates (dont l’humain), et ont découvert que la plupart se comportent comme attendu au hasard, mais qu’une importante minorité de 1643 gènes a des exons utilisés de manière très spécifique dans certains organes de manière conservée entre primates, et a donc probablement une fonction spécifique. J’aime beaucoup quand on va au-delà du débat fonctionnel contre neutre, et que l’on quantifie la part de chacun. Bien sur, ce résultat est provisoire, étant basé sur des données limitées à 6 primates et 5 organes.
  • D’après le blog collectif anti-créationiste Panda’s Thumb, deux petites companies de chimie viennent d’être condamnées pour avoir montré qu’un plastique sans bisphénol-A, donc vendu comme une alternative saine et sans risques, présente en fait des risques similaires au BPA en ce qui concerne la disruption hormonale. Ceci est très très dangereux : il doit être possible de tester un produit qui est en vente et de rendre public ses résultats, même si et surtout si ils montrent un danger potentiel du produit.
  • Le Fonds national suisse pour la science vient de publier la version grand public et en français de son rapport sur les OGM: PDF à télécharger ; Pôle national de recherche ayant conduit au rapport.
  • Super billet de blog par Ewan Birney (coordonateur de la deuxième phase d’ENCODE, co-directeur de l’European bioinformatics institute) sur ce qui fait la dynamique de San Francisco et la Silicon Valley, et comment cela peut être reproduit ailleurs. Il insiste sur un facteur essentiel : d’excellentes universités de recherche ! Plusieurs !