Archives pour la catégorie bioinformatique

Réflexions sur l’apport de l’informatique à la bioinformatique

cliquez sur l'image

cliquez sur l’image

J’ai récemment été au séminaire de retraite GNOME (Gonnet is Not Only Molecular Evolution) de Gaston Gonnet, un grand bonhomme de l’informatique (Google Scholar), notamment connu pour le logiciel de calcul Maple, et ces 25 dernières années pour ses contributions parfois remarquées à la bioinformatique et à l’évolution moléculaire. Le séminaire a inclus des informaticiens hard-core aussi bien que des collaborateurs biologistes, et bien sur des bioinformaticiens, certains formés par Gaston à l’interface interdisciplinaire. C’est l’occasion de réfléchir à l’interaction informatique-biologie, et notamment à l’apport de l’informatique.

Bien sur, les ordinateurs plus puissants, les languages de programmation de haut niveau, et les systèmes de gestion de données, sont utiles à la biologie, mais ce n’est pas de ça que je veux parler. La recherche en informatique, ce sont de nouveaux algorithmes, des démonstrations de complexité, voire de nouveaux languages de programmations ou manières de représenter l’information.

Prenons l’exemple de la première contribution (remarquée) de Gaston à la bioinformatique : la matrice de Gonnet (Gonnet et al 1992 Science 256: 1443-1445).

La contribution a été remarquée à la fois grâce au résultat, et à cause du ton du papier, qui contient la phrase « The parameters provide definitive answers to two fundamental questions concerning protein alignment: What does a mutation cost? and What does a gap cost?« . Cette phrase n’est probablement pas due à Gaston (communication personnelle), mais elle est quelque part emblématique d’un certain type de relations entre bioinformaticiens issus de la culture de la démonstration de l’informatique et des maths (voir aussi Lior Pachter) et bioinformaticiens issus de la culture empirique de la biologie.

Bref, un peu d’histoire. Le type de matrice dont on parle ici est un genre de tableau qui donne les probabilités de changement d’un acide aminé en un autre lors de l’évolution des protéines. Les protéines sont des chaînes d’acides aminés, qui forment un « alphabet » de 20 lettres. Une protéine peut changer par mutation soit en remplaçant un acide aminé par un autre, soit par délétion ou insertion d’acides aminés. Un acide aminé peut être remplacé par un autre selon une probabilité qui dépend à la fois de propriétés chimiques et du code génétique (certains changements sont plus faciles à obtenir par hasard), et de l’impact fonctionnel sur la protéine (certains changements ont plus de chances de casser la fonction de la protéine, et sont donc éliminés par la sélection naturelle – ce qui diminue la probabilité de les observer en pratique). Dans les années 1960, celle qui a probablement fondé la bioinformatique sans ordinateurs, Margaret Dayhoff, a eu l’excellente idée de comparer beaucoup de séquences de protéines homologues (beaucoup à l’époque : quelques dizaines) (homologues : en gros la même protéine dans différentes espèces ; voir ce billet), et de compter les changements entre tous les types d’acides aminés. Ce qui lui a permis de construire la première matrice de probabilités de changements entre acides aminés, connue comme PAM (point accepted mutation). Y a une explication plus détailée sur le blog bioinfo-fr.

Etape 1 donc : intuition du biologiste, qui lui permet d’obtenir un résultat et un outil utiles.

Ensuite, des informaticiens ont démontré la manière optimale d’aligner des protéines pour savoir quels acides aminés comparer de manière mathématiquement correcte (Needleman-Wunsch). Démonstration cool, bien que limitée à l’époque par la puissance des ordinateurs : les algorithmes exacts sont lents. Mais ces démonstrations ont formé la base de beaucoup de travail suivant.

Etape 2 : des informaticiens démontrent des théorèmes et trouvent des algorithmes exacts, quoique souvent inutiles en pratique (provoc assumée).

Dans les années 1980, Gaston Gonnet avait travaillé sur des algorithmes rapides et efficaces pour chercher dans tous les mots de l’Oxford English Dictionnary. Il a alors été contacté par un biologiste assez original et brillant, Steven Benner, qui lui a proposé, et je cite, « de travailler sur des données intéressantes » (par opposition au dictionnaire apparemment). Ils ont relevé le défi de mettre à jour les vieilles matrices de Dayhoff, avec bien davantage de données, en utilisant les algorithmes de Gaston pour les dictionnaires. Ils ont ainsi calculé la matrice de Gonnet, qui inclut non seulement une mise à jour des probabilités de changement entre acides aminés, mais des estimations des probabiliés d’insertion et de délétion (les « gaps » de la citation ci-dessus) grâce également à l’emploi de la méthode Needleman-Wunsch.

Etape 3a : les informaticiens répètent le travail des biologistes – bioinformaticiens (Dayhoff), mais bien plus efficacement.

Etape 3b : la collaboration entre biologistes et informaticiens qui se s’écoutent et travaillent efficacement ensemble déchire tout.

A noter aussi qu’une partie de l’apport de Gaston était dans la manière de représenter l’information dans un ordinateur pour des recherches rapides, et qu’il a implémenté ses méthodes dans un language qu’il a développé, appellé … DARWIN.

Voilà bien sur c’est un cas particulier, mais souvent comme ici le point de départ d’une nouvelle approche vient de l’intuition des biologistes, elle est rendue efficace par les informaticiens, et quand on travaille vraiment ensemble on fait de grandes choses.

En plus ils m’ont donné un t-shirt à la conf, avec un gnome cool, et j’ai appris que « gnomes » était un surnom des banquiers zurichois.

Mise à jour : des liens pertinents via Christophe Dessimoz :

Mon étudiante a eu un prix : Sélection naturelle polygénique du système immunitaire dans l’évolution humaine

Cliquez sur l'image

Cliquez sur l’image

Une doctorante que je co-encadre, Joséphine Daub, vient de gagner un prix, et j’en profite pour me vanter et présenter son travail, qui est effectivement excellent et très intéressant. L’idée de départ est de mon collègue Laurent Excoffier, moi je trainais juste dans le coin (et j’ai peut-être contribué un peu aux méthodes et à la discussion).

Daub et al. 2013 Evidence for Polygenic Adaptation to Pathogens in the Human Genome Mol Biol Evol 30: 1544-1558

Il existe trois grands types d’action de la sélection naturelle : pour garder ce qui marche en l’état (dite négative, la plus fréquente), pour fixer des changements qui améliorent les choses (dite positive, rare), et pour garder de la diversité (dite balançante, rare aussi). Détecter la sélection négative c’est relativement facile, c’est ce qui est conservé lors de l’évolution. Détecter la sélection positive est plus difficile, mais potentiellement plus intéressant puisque c’est ce qui expliquera les différences entre espèces, voire entre populations. Une manière de détecter la sélection positive est de chercher des variants du génome (des polymorphismes ou « SNP ») qui ont des fréquences très différentes entre populations. Si certains types de SNP sont très fréquents chez les populations d’altitude (tibétains et andins) mais très rares chez les autres, c’est une indication que ces variants sont avantageux en altitude, et sous sélection positive qui les promeut dans ces conditions. Un des problèmes de cette approche, c’est que chez les humains qui nous intéressent souvent le signal s’il existe est très faible. Donc c’est difficile de détecter de manière fiable une évidence de sélection naturelle dans l’évolution humaine récente (« récente » des biologistes évolutifs : ces dernier ≈100’000 ans).

Et c’est là qu’intervient l’idée de ce travail : utiliser non pas le signal calculé pour chaque gène, mais faire la somme du signal pour des ensembles de gènes qui travaillent ensemble à une même fonction. En effet, les gènes n’agissent jamais seuls pour les fonctions biologiques : ce sont des réseaux métaboliques, des cascades régulatrices, des complexes protéiques, etc. Si une fonction est sous sélection positive, on peut supposer que de nombreuses petites variations dans différents gènes agissant sur cette fonction soient toutes affectées par cette sélection. Donc ce que l’on fait c’est (1) calculer pour chaque SNP le score de différentiation entre populations, (2) corriger ce score en fonction de problèmes connus de démographie, (3) définir des ensembles de gènes fonctionnellement pertinents (en l’occurence de NCBI Biosystems), (4) faire la somme des scores pour tous les gènes de chaque ensemble. Ensuite ça a été un peu compliqué de définir quel est un score significatif parmi des ensembles de gènes de tailles différentes, contenant des gènes de tailles différentes (un grand gène a plus de variants au hasard), avec des gènes en commun entre les ensembles (un gène peut agir dans plusieurs contextes, sans compter que la même fonction peut être décrite deux fois de manières différentes), bref à la fin on peut attribuer un score et une significativité statistique à chaque ensemble de gènes. (Vous êtes en thèse et vous déprimez ? Joséphine a obtenu ses premiers résults en 2 mois, a ensuite passé 2 ans à découvrir des biais et à les corriger, invalidant certains résultats et en découvrant d’autres ; maintenant elle récolte la gloire et les honneurs, mais ce fut dur.)

Et ce qui sort, c’est un petit nombre d’ensembles de gènes soit directement impliqués dans l’immunité, soit indirectement dans la défense contre les pathogènes. Désolé pour ceux qui attendaient des différences d’intelligence et autres bétises, ce qui différencie le plus les populations humaines ce sont les pathogènes (bactéries, virus et autres) auxquels elles ont été exposées dans différents environnements.

La méthode elle-même s’avère très puissante pour de nombreux cas où l’on a un signal faible par gène, mais qui peut se cumuler sur des ensembles de gènes ayant subi la même sélection, et a déjà été appliquée à l’évolution des fourmis (on trouve de la sélection sur le vieillissement, les fourmis vivent bien plus vieux que la plupart des insectes). On est train de l’appliquer à d’autres aspects de la sélection naturelle dans l’évolution humaine, mais pour la suite de l’histoire il faudra attendre qu’on publie les papiers…

Comment utiliser les maths et la génomique à la ENCODE pour mieux comprendre les variations génomiques humaines

cliquez sur l'image

cliquez sur l’image

J’ai lu récemment un article qui est assez technique, mais dont je voudrais parler ici d’une part parce qu’il m’a beaucoup plu (geek alert), et d’autre part parce qu’il illustre bien je pense deux points intéressants : le pouvoir de la recherche interdisciplinaire (maths et biologie en l’occurence), et la façon dont les progrès de la génomique et de la bioinformatique augmentent notre compréhension du génome. Ce dernier point implique à la fois des espoirs de diagnostic médical, et des inquiétudes sur la vie privée…

Joseph K. Pickrell 2014 Joint Analysis of Functional Genomic Data and Genome-wide Association Studies of 18 Human Traits. Am J Hum Genetics 94, p559–573

Il faut d’abord expliquer comment on trouve d’habitude des variations génomiques (des mutations pas trop rares) impliquées dans des phénotypes (caractères visibles ou mesurables, dans la variation normale comme la taille, ou pathologiques comme la tendance à certaines maladies). On utilise le GWAS, Genome Wide Association Study, qui consiste à comparer entre groupes de personnes (typiquement, avec ou sans une maladie) des centaines de milliers de variations génomiques, et chercher quelles variations ont une association statistique significative avec la maladie, c’est-à-dire sont plus fréquentes chez les malades que chez les non malades. Avec l’espoir de trouver des causes génétiques de la sensibilité à différentes maladies (ou différents phénotypes normaux).

Le problème, c’est que c’est peu puissant, c’est-à-dire que c’est dur de trouver des variations génomiques signficatives expliquant une part importante de la variatiation phénotypique. C’est là où vient le travail de Jo Pickrell. Il formalize l’intuition selon laquelle une association génomique dans une région connue pour être importante (par exemple un gène) a plus de chances d’être vraiment causale qu’une association dans une région sans fonction connue, voire connue pour être sans fonction. Et du coup, il utilise les données d’ENCODE, qui sont peut-être bruitées et sur-interprétées, mais sont une immense source d’informations sur le rôle potentiel de chacun des 3,2 milliards de nucléotides de notre génome. En combinant cela avec d’autres sources d’information, certaines presque triviales (est-ce un gène ? est-ce à coté d’un gène ?), il obtient une classification des nucléotides en 450 classes de fonction potentiellement différente.

La partie méthodes du papier est pas mal riche en équations. Le concept central est le théorème de Bayes (voir ici par exemple), et je ne vais pas tout détailler, et en plus j’ai les équations qui s’insèrent mal dans WordPress (et j’ai pas envie de débugger), mais voici le point clé pour moi. La probabilité postérieure qu’une région du génome soit associée au phénotype dépend de la probabilité a priori pour ce genre de régions (élevé pour un gène, pas mal élevé pour une région qui fixe plein de facteurs régulateurs, faible pour une région où rien de fonctionnel ne se passe) et du support statistique d’association de chacun des variants génomiques dans cette région (si vous avez le papier, j’en suis à l’équation 17). Et de même, on peut calculer la probabilité postérieure que chacun de ces variants soit celui qui est causalement associé. Et le produit de ces deux probabilités nous donne la probabilité pour un variant d’être associé au phénotype, sachant le type fonctionnel de la région du génome où il est, et sachant toutes les associations statistiques simples dans cette région. Simple et beau.

En applicant cette méthode à 450 types de régions et à 18 jeux de données (variants génomiques liés à phénotypes) de GWAS, il montre par exemple que pour certains types de phénotypes(par exemple la densité des os) on a surtout des variations des protéines qui sont importants, alors que pour d’autres (par exemple le nombre de globules rouges) c’est surtout les variations de la régulation des gènes. Il trouve aussi, de manière pas évidente, que la répression des gènes est souvent plus critique que leur activation. Finalement, la chromatine fermée (partie du génome où l’ADN n’est pas disponible pour l’activité des gènes contenus) contient généralement peu d’associations importantes, ce qui pourrait grandement améliorer la puissance statistique de tests qui n’auraient plus à se préoccuper de cette partie de l’ADN (si on sait bien l’identifier pour les types de cellules pertinentes…).

Et donc pour revenir à mon observation de départ, ce type d’étude me motive pour ne pas être d’accord avec ceux qui considèrent que le séquençage des génomes ne sert à rien ou ne présente pas de risques pour la vie privée. Avec des données fonctionnelles qui augmentent exponentiellement, et les progrès des méthodes mathématiques et informatiques, ce n’est presque plus de la science fiction de prédire des traits intéressants ou génants d’un individu à partir de son ADN. ADN que vous laissez trainer partout où vous passez. Sur ce, bonne journée. 🙂

Mise à jour : Joe Pickrell lit le français !

 

Résumé grand public de projet « Recherche bioinformatique d’évolution adaptative dans le développement des vertébrés »

Cliquez sur l'image

Cliquez sur l’image

Pour mon nouveau projet de recherche dont le financement a été accepté par le Fonds national suisse de la recherche scientifique (SNF), je dois fournir un résumé grand public, en français, allemand ou italien. On va dire français, et je vous met ici ce que j’ai écrit. D’abord à titre d’information, et ensuite parce que des retours sur la lisibilité du truc pour les non spécialistes seront les bienvenus.

Je doit suivre le format imposé par le SNF :

Lead

Les espèces animales diffèrent dans leur anatomie, et certaines de ces différences constituent des innovations évolutives remarquables, à petite échelle comme des changements de forme des dents, ou à grande échelle comme la mise en place d’ailes ou de poils. Ces différences doivent être codées dans le génome, et d’ailleurs certains cas particuliers sont bien connus.

Contenu et objectifs du travail de recherche

Le point de départ de ce projet est l’observation que les gènes actifs dans la fin du développement embryonnaire ou au début de la vie extra-embryonnaire (larve, nouveau-né) de différents vertébrés évoluent très rapidement. Cette évolution rapide concerne aussi bien la séquence des protéines que la régulation des gènes, ainsi que la perte ou le gain de nouveaux gènes. Or c’est aussi à ces stades de la vie que se mettent en plance les structures anatomiques qui varient entre espèces. Nous partirons d’une part des gènes dupliqués, source potentielle d’innovation, et d’autre part des gènes spécifiquement actifs à la fin du développement embryonnaire.
Nous chercherons à déterminer quelle part des ces changements évolutifs sont des adaptations, c’est-à-dire améliorent l’adaptation de l’animal à son environnement et procurent un avantage évolutif. En effet l’évolution rapide peut être due, soit à l’adaptation, soit au manque de contraintes, c’est-à-dire une accumulation de changements sans conséquences notables. Pour cela, nous utiliserons les outils bioinformatiques développés dans notre laboratoire et ailleurs, et les données de génomique disponibles. Nous considérerons les changements évolutifs à tous les niveaux, de la séquence d’ADN à la protéine et ses interactions en réseaux.

Contexte scientifique et social du projet de recherche

Le projet relève de la recherche fondamentale. Il permettra de mieux comprendre comment se mettent en place les innovations dévelopmentales, et donc anatomiques, dans l’évolution. Nous visons à utiliser la génomique pour réconcilier deux approches de la biodiversité qui s’opposent ou s’ignorent depuis plus de deux siècles : le structuralisme, qui met l’accent sur l’anatomie, et le fonctionalisme, qui met l’accent sur l’adaptation. Dans ce projet nous améliorerons aussi des projets bioinformatiques qui seront utiles plus largement en recherche biologique et médicale.

Rififi chez les bioinformaticiens : peut-on tout critiquer sur tous les tons ?

Cliquez sur l'image

Cliquez sur l’image

Un billet forcément trop court pour rendre compte d’un débat important et très animé qui a eu lieu ces deux dernières semaines, sur le blog de Lior Pachter, le même qui avait déclenché le débat sur les méthodes utilisées en bioinformatiques en fin d’année dernière. Dans une série de trois billets (The network nonsense of Albert-László Barabási ; The network nonsense of Manolis Kellis ; Why I read the network nonsense papers ; plus une explication de texte finale : Number deconvolution), Lior a démonté des articles par des scientifiques très connus, dans des journaux très reconnus, sur les méthodes d’analyse de réseaux, y compris les réseaux de gènes ou de protéines (quel gène interagit avec quel gène, ou régule quel gène, etc).

Je ne vais pas rentrer dans les détails, il faut lire les billets et les commentaires si vous vous intéressez à la biologie computationnelle. Mais je vais insister ici sur les tensions que ces billets ont cristalisé :

  • Tension entre méthodologistes, souvent énervés par des papiers par forcément 100% satisfaisants publiés dans de grandes revues, et scientifiques qui produisent ces papiers à haute visibilité, que les critiques des méthodologistes qui ne produisent pas les résultats biologiques énervent souvent.
  • Tension plus générale entre les scientifiques qui réussissent bien, même très bien dans le système actuel, de revues à fort impact très sélectives, et scientifiques qui réussissent moins bien dans ce système, et qui jusque récemment avaient peu l’occasion d’exprimer leurs critiques (à-peu-près toujours rejetées par les grands journaux « par manque de place » ou « trop technique »), mais s’expriment de plus en plus dans les blogs et sur les serveurs de preprints du type ArXiv.
  • Tension, enfin, entre la nécessité de parler franchement des problèmes éventuels de méthodes ou de résultats scientifiques, et la nécessité d’avoir un dialogue constructif entre scientifiques. Tension donc entre le fonds (y compris dire que c’est faux quand c’est faux) et la forme (ne pas accuser les collègues de fraude ou de malversations à la légère en public).

Le dernier point a donné lieu à la plus grande discussion, parce que le mot fraude, justement, a été employé. C’est un mot très chargé en science. Accuser quelqu’un de fraude, c’est très grave. Lior a accusé Manolis Kellis de fraude, parce qu’il a modifié une figure après expertise, et parce que des paramètres de la méthode n’étaient pas explicités. (C’est un prof de Berkeley qui accuse un prof du MIT, y a pas de petit joueur ici.)

Ma position sur ce débat, je l’ai donnée en commentaire du troisième billet, ici et ici. En bref, je pense que (1) le débat sur la forme a lieu d’être, et Lior a probablement eu tort d’utiliser le mot fraude, mais que (2) ce débat a été employé pour détourner de ce qui doit rester l’essentiel, à savoir la véracité et l’honnêteté du travail scientfique. Si Lior a raison, alors il a rendu un service important à la communauté. S’il a tort, il faut le montrer, pas juste pousser des cris sur le ton.

Je reiviens sur ce que j’avais écrit après le précédent billet à scandale de Lior :

grâce aux blogs et à Twitter ces gros projets se font sous la supervision de plus en plus proche et réactive d’une communauté qui n’a pas peur de faire connaître ses critiques, et que ces mêmes plateformes permettent aux scientifiques des gros projets de répondre, créant un dialogue constructif. Et ça c’est une très bonne nouvelle pour le progrès de la recherche en biologie et en sciences en général.

Je pense vraiment que la vigilance de personnes telles que Lior, ou « expertise post-publication », peut améliorer la science. Quelque part, ses motivations me challent peu : vengeance, jalousie, passion pure et brulante pour la science ? Si les auteurs et les journaux savent qu’ils courent le risque d’être critiqués sur la place publique en cas d’erreurs ou de manquements graves, tout le monde sera un peu plus prudent, peut-être un peu plus rigoureux, et ce sera pour le mieux. Voir aussi le débat post-publication en cours sur les cellules souches miraculeuses.

(A propos de l’image ci-dessus, je l’ai twittée du coup  à Lior et à Dan Graur, également spécialiste de la critique malpolie :

)

—-

Mise à jour : certains des débateurs opposés s’échangent des tuyaux gentils sur Twitter, c’est pas cool ?

 

 

Les méthodes bioinformatiques utilisées en génomique sont importantes #methodsmatter #BigScience

cliquez sur l'image

cliquez sur l’image

A l’occasion du projet ENCODE, j’ai déjà évoqué les avantages et inconvénients de la Big Science en biologie (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). Il y a en ce moment un débat très animé sur blogs et Twitter, concernant une question importante sur ces gros projets : les méthodes bioinformatiques utilisées.

Cela a commencé par ce billet de Lior Pachter, suivi de ce commentaire de Jeff Leek, et ce droit de réponse sur le blog de Lior. Si la question vous intéresse, je vous conseille fortement de lire non seulement les billets mais les commentaires. Il y a également une discussion Twitter intense, avec notamment les tweets de Lior, de Manolis Dermitzakis, et de Tuuli Lappalainen, et les hashtags #GTEx et #methodsmatter. La discussion comprend du beau monde en génomique et en bioinformatique. Quel est le débat ?

La discussion porte sur l’analyse de données de RNA-seq. Les gènes s’expriment (sont actifs) en étant transcrits en ARN. Plus un gène est actif, plus il y a d’ARN. Dans le RNA-seq, on séquence (on lit) des tas de petits morceaux d’ARN. On a davantage de morceaux lus pour les ARN correspondant aux gènes plus exprimés. Bon résumé de la méthode dans deux billets du site Bioinfo-fr : Analyse des données de séquençage à ARN et L’analyse de données RNA-seq: mode d’emploi. Ce deuxième fait aussi apparaître certains des soucis qu’on peut avoir.

Lior Pachter a remarqué que plusieurs gros projets, certains publiés comme ENCODE, d’autre encore en cours comme GTEx, utilisent une méthode bioinformatique de traitement du RNA-seq qui n’a jamais été publiée en tant que telle, donc n’est pas décrite formellement, n’a pas été évaluée, et n’a jamais été utilisée hors dédits consortiums (les auteurs de la méthode sont membres des consortiums Big Science en question). Il a essayé de comprendre la méthode (et Lior n’est pas un nul, il est notamment auteur de la méthode la plus utilisée, CuffLinks), sans grand succès, puis il l’a testée empiriquement sur les données de GTEx, parce que c’est ça qui l’intéressait. Et d’après ses tests, la méthode n’a que 10% du pouvoir statistique des méthodes plus habituellement utilisées dont il est l’auteur. Ce qui l’a conduit à écrire un billet de blog au titre provocateur « GTEx jette 90% de ses données ».

Dans la discussion qui s’en est suivie, il y a plusieurs éléments. L’un est une défense spécifique de GTEx. Manolis fait remarquer à juste titre qu’ils n’ont pas encore publié leurs résultats, donc qu’il est un peu tôt pour critiquer leurs choix méthodologiques, et note aussi que (1) ayant beaucoup beaucoup de données, ils ont du prendre en compte l’efficacité computationnelle des méthodes (à savoir que CuffLinks plantait leurs ordinateurs apparemment), et (2) ils avaient contacté la bande à Lior pour avoir de l’aide, sans succès.

Un élément plus important pour moi est le rôle en effet des méthodes bioinformatiques dans de tels projets. Cela implique plusieurs niveaux. Le projet Big Science est sensé fournir des resources (des données réutilisables) et des conclusions biologiques. Si on ne comprend pas les méthodes, si elles ne sont pas connues et reconnues par ailleurs, alors (1) cela limite la réutilisation, et (2) cela diminue notre confiance dans leurs résultats. Ainsi dans mon labo on essaye d’utiliser les données RNA-seq d’ENCODE, mais ils ont utilisé la même méthode dont discute Lior, et cela nous gène pour faire confiance dans les données prétraitées qu’ils nous fournissent, sans compter que des membres de l’équipe ont perdu pas mal de temps à essayer de comprendre quelque chose qui n’était juste pas bien expliqué. Et du coup, on a du mal à reproduire des résultats sur lesquels on aimerait construire.

A  noter que Lior avait aussi écrit une critique d’ENCODE, disponible sur ArXiv seulement.

Certains ont répondu à la discussion que peu importe, nous embêtent les bioinformaticiens, toutes les méthodes donnent les mêmes résultats. D’où le hashtag #methodsmatter de Lior, et sa réponse ironique « toutes les données me donnent les mêmes résultats » (vu d’avion, c’est presque vrai). Et là je suis complètement d’accord avec Lior. Bien sûr, pour trouver que la myosine est exprimée dans le muscle, peu importe la méthode. Mais pour associer des formes différences de l’ARN d’un même gène à des variations inter-individuelles dans l’ADN régulateur proche du gène, et autres subtilités qui sont l’essentiel du message biologique que l’on cherche avec ces très gros jeux de données, oui cent fois oui les méthodes comptent, et c’est limite irresponsable de suggérer autrement. Il faut rappeler que (1) les gros jeux de données coutent cher, donc on veut en tirer le signal maximum, d’où l’importance de méthodes statistiques puissantes, et (2) la définition d’un biais c’est une méthode qui converge avec une confiance croissante vers un résultat faux lorsqu’on a plus de données. Donc gros jeux de données = importance de faire attention aux biais.

Finalement un point important à retenir de cette discussion, comme celle qui a suivi la publication d’ENCODE, c’est que grâce aux blogs et à Twitter ces gros projets se font sous la supervision de plus en plus proche et réactive d’une communauté qui n’a pas peur de faire connaître ses critiques, et que ces mêmes plateformes permettent aux scientifiques des gros projets de répondre, créant un dialogue constructif. Et ça c’est une très bonne nouvelle pour le progrès de la recherche en biologie et en sciences en général.

Note de dernière minute : il vient de sortir une grosse évaluation des méthodes RNA-seq, que je n’ai pas encore lue (communiqué de presse avec liens vers papiers – accès fermés), mais qui semble trouver que CuffLinks (de Lior) marche bien.

Mise à jour : de manière suprenante, les papiers de l’équipe GTEx, ENCODE, et ces évaluation de méthodes RNA-seq sont affichés comme reliés par l’EBI (voir communiqué de presse ci-dessus), pourtant l’évaluation n’inclut pas la méthode Flux Capacitor utilisée par ENCODE et GTEx. Cela semble moyennement cohérent a priori, mais je continue à suivre la discussion. A noter aussi qu’à la lecture, CuffLinks ne semble pas forcément en effet la meilleure méthode.

Notes sur ma semaine en sciences 7

cliquez sur l'image, juste parce que j'aime bien ce blog de StripSciences

cliquez sur l’image, juste parce que j’aime bien ce blog de StripSciences

  • On a fété à Lausanne cette semaine les 15 ans de l’Institut suisse de bioinformatique (SIB). Cet institut permet de fédérer les bioinformaticiens dans toutes les universités suisses, de maintenir des resources bioinformatiques de manière pérenne, notamment des bases de données, et d’assurer la formation continue à la bioinformatique. L’histoire du SIB est intéressante, puisque c’est parti d’une crise : SwissProt, la base de données de référence sur les protéines, n’était plus soutenue par le Fonds national suisse pour la science, parce que bin ça n’est pas de la recherche. L’annonce de la fermeture de Swissprot avait succité un tel tollé qu’une solution a été trouvée, et le SIB est né, avec un engagement vers la maintenance à long terme de resources utiles à tout le monde
  • D’ailleurs cette année c’est aussi les 20 ans d’ExPASy, qui a été la première page web de biologie au monde, et est maintenant le portail des resources bioinformatiques du SIB.
  • Un article intéressant en ce qui concerne les efforts jamais finis pour comprendre le génome humain, pertinent aussi à la tension qui existe entre génomique fonctionnelle (si je le détecte, c’est important ! d’ailleurs, cancer) et génomique évolutive (si ça n’est pas conservé, ça n’est pas important ! d’ailleurs, génome de l’onion). Les gènes eucaryotes (y compris animaux et plantes) sont en morceaux (exons) dans le génome, lesquels sont ensuite assemblés au niveau du transcrit (ARN) et traduits en protéines. Certains exons ne sont pas toujours utilisés, et la plupart des gènes ont ainsi de nombreux transcrits alternatifs. Depuis que la fréquence élevée de la transcription alternative a été découverte, il y a débat entre ceux qui pensent que c’est pour l’essentiel fonctionnel, ainsi un gène peut produire de nombreuses protéines, et ceux qui pensent que c’est pour l’essentiel des erreurs du système moléculaire (voir rôle du hasard). En faveur du second point de vue, les importantes différences entre espèces même proches, plutôt en faveur de mécanismes aléatoires. Dans ce papier récent (PNAS, libre d’accès) les auteurs ont comparé par bioinformatique les transcrits alternatifs de 6 espèces de primates (dont l’humain), et ont découvert que la plupart se comportent comme attendu au hasard, mais qu’une importante minorité de 1643 gènes a des exons utilisés de manière très spécifique dans certains organes de manière conservée entre primates, et a donc probablement une fonction spécifique. J’aime beaucoup quand on va au-delà du débat fonctionnel contre neutre, et que l’on quantifie la part de chacun. Bien sur, ce résultat est provisoire, étant basé sur des données limitées à 6 primates et 5 organes.
  • D’après le blog collectif anti-créationiste Panda’s Thumb, deux petites companies de chimie viennent d’être condamnées pour avoir montré qu’un plastique sans bisphénol-A, donc vendu comme une alternative saine et sans risques, présente en fait des risques similaires au BPA en ce qui concerne la disruption hormonale. Ceci est très très dangereux : il doit être possible de tester un produit qui est en vente et de rendre public ses résultats, même si et surtout si ils montrent un danger potentiel du produit.
  • Le Fonds national suisse pour la science vient de publier la version grand public et en français de son rapport sur les OGM: PDF à télécharger ; Pôle national de recherche ayant conduit au rapport.
  • Super billet de blog par Ewan Birney (coordonateur de la deuxième phase d’ENCODE, co-directeur de l’European bioinformatics institute) sur ce qui fait la dynamique de San Francisco et la Silicon Valley, et comment cela peut être reproduit ailleurs. Il insiste sur un facteur essentiel : d’excellentes universités de recherche ! Plusieurs !

Notes sur ma semaine en sciences 6

cliquez sur l'image

cliquez sur l’image

  • Joe Felsenstein, le chercheur le plus connu en phylogénie et méthodes d’évolution moléculaire (dans notre petit cercle, je n’hésiterais pas à le qualifier de légende vivante) raconte ses souvenirs d’étudiant à la Marche sur Washington contre la ségrégation raciale, il y a 50 ans.
  • Une étude médicale australienne liste plus de 150 traitements apparemment inutiles, ou en tout cas qui manquent d’évidence qu’ils sont utiles, de « Arthroscopic surgery for knee osteoarthritis » à « Hospitalisation for bed rest in multiple pregnancy ». L’article, la liste de traitements.
  • Liste en cours de construction (n’hésitez pas à contribuer) des journaux scientifiques acceptant des soumissions qui avaient été mises sur ArXiv auparavent.
  • Discussion intéressante sur un blog de bioinformatique concernant la différence entre significativité du test (par ex. p < 1%) et magnitude de l’effet (par ex. 2 fois plus d’expression) dans les contextes des puces à ADN (microarrays) et du RNA-seq.
  • Excellent article de fond sur le riz doré Golden Rice dans le New York Times.
  • J’ai acheté la traduction française du livre « Au pays des Ranacaudas« , qui explique la spéciation et la sélection naturelle aux enfants. Malgrès quelques tournures un peu bizarres dues à la traduction d’un livre pour enfants en vers, gros succès auprès de mon fils de 6 ans. Je recommende.
  • Je suis bête, je m’invente du travail. Ma proposition de cours pour doctorants « Blogging and using Twitter for scientific communication » a été acceptée. Maitenant faut l’organiser. J’ai déjà trouvé ceci et ceci.
  • Un excellent commentaire sur le Golden Rice de la part d’un économiste, Alexander Stein, qui a fait sa thèse sur la question : son blog, sa page professionnelle avec ses publications sur le sujet. Répond aux commentaires du type « qu’ils mangent de la brioche des carottes ». Lire notamment un excellent commentaire de sa part sur la pertinence des investissements dans le Golden Rice par rapport à d’autres investissements possibles. Quand je vois la quantité de travail fait sur ces questions, et quand je lis ce que Greenpeace écrit, je ne peux que conclure qu’ils sont de mauvaise foi.
  • Un papier intéressant (libre d’accès) sur la comparaison des chromosomes sexuels de serpents. Les serpents, comme les oiseaux, ont un système ZZ (mâle) ZW (femelle). Comme ces chromosomes sont plus ou moins différenciés (dans différentes espèces le W est plus ou moins différent du Z), cela permet de tester des hypothèses sur les rôles respectifs de l’abondance de mutations chez les mâles (davantage de divisions cellulaires pour faire un spermatozoide qu’un ovule), de la sélection de gènes spécifiquement avantageux pour un sexe ou l’autre, et de l’absence de recombinaison sur le W.
  • En écrivant mon prochain projet de recherche, j’ai cherché des exemples de phénotypes morphologiques clairement non adaptatifs (des trucs qui se voient et qui ne servent à rien, en gros). Ca n’est pas évident, mais la couleur des organismes vivant très profond dans la mer me paraît un bon candidat. Pas de lumière : la couleur ne peut pas être importante, si ?
  • La 2ème compétition pour savoir quelle méthode bioinformatique marche la mieux pour prédire la fonction des protéines a été lancée. Un problème difficile. J’hésite à entrer cette année ; c’est intéressant mais ça prend du temps d’autres projets. Détails sur le blog de Iddo Friedberg.
  • Mike Eisen, militant acharné pro-Open Access et anti Impact Factor (voir mes billets sur politique de publication), demande dans quels journaux les gens ont publié pour avoir un poste de prof. Malheureusement pour lui, les journaux pas forcément ouverts à haut facteur d’impact semblent dominer. Discussion sur Twitter.
  • Un collègue m’a contacté pour écrire un livre sur les OGM. J’ai décliné, je préfère écrire sur ce blog sur plein de sujets, et avancer ma recherche quand même.
  • Un article de biologie évolutive pas encore publié officiellement, mais mis dans ArXiv (explication dans ce billet), est commenté dans Nature. Je ne sais pas si c’est une première, mais ça montre que les esprits changent. D’ailleurs mon journal préféré, Molecular Biology and Evolution, autorise aussi depuis peu les articles à y être soumis après avoir été déposés dans ArXiv. A propos de l’article lui-même, excellent commentaire sur le blog de John Hawks (avec photo du musée des Eyzies, coucou le Dinoblog).

Ma semaine en sciences 3

Cliquez si vous avez le temps

Cliquez si vous avez le temps

  • Une collègue de l’EBI (European Bioinformatics Institute), Jenny Cham, a une super page de notes-BD qu’elle prend lors des présentations auxquelles elle assiste : sur Flickr.
  • Vidéos cool de démo d’adaptation de médicaments potentiels à des protéines par des collègues du SIB (Swiss Institute of Bioinformatics) : click2drug.
  • RefSeq, une banque de données bioinformatique de séquences de gènes, fête ses 10 ans : communiqué au NCBI. 4000% et des brouettes de croissance durant ce temps.
  • Dans un compte-rendu de débat sur les OGM à Hawai, j’ai été frappé par l’extrait suivant (blog) :

Most people know something about the dramatic improvements society has seen since that particular era when it comes to automobile safety, control of exposure to secondary smoke, protection against egregious manifestations of racial and gender discrimination.  Most people have a concept of how far we have come since the 1960s with regard to a host of technologies in medicine and electronics.  What is unfamiliar to most people outside of agriculture is that there have been comparably dramatic improvements with respect to the safety of agricultural pest control technologies.

En effet, les personnes qui ne travaillent ni dans l’agriculture, ni dans les biotechnologies, tendent à considérer que l’on va faire les mêmes erreurs que l’on a fait avec, par exemple, le DDT. Ce n’est jamais impossible, mais nous avons maintenant énormément de contrôles, de tests et de standards que nous n’avions pas avant la prise de conscience des risques médicaux et environnementaux. C’est comme si vous utilisiez les taux d’accident d’avion des années 1920 pour refuser de prendre l’avion aujourd’hui. Ce qui ne veut pas dire que la biotechnologie ni les avions aient un risque zéro, qui n’existe pas.

  • Aussi sur les OGM : un pathogène décime les cultures d’oranges. Solution court terme : plus de pesticides, de plus en plus. Solution moyen terme : un OGM résistant, probablement avec un gène d’épinard. Devinez s’il y a davantage d’opposition aux pesticides ou à la recherche d’un OGM ? Excellent article dans le New York Times.
  • Des chercheurs ont trouvé qu’en rajoutant de la taurine à des lipides de plantes, notamment de soja, ils pouvaient faire croître un poisson carnivore à un taux similaire à ce qu’il a avec une alimentation à base de poisson. C’est potentiellement important, parce que la pisciculture est à l’heure actuelle largement dépendante d’aliments à base de poissons (péchés) pour nourir des poissons de culture (carnivores, et plus populaires avec les consommateurs parce que miam miam), ce qui est un non sens écologique et économique. L’article (accès fermé).
  • Pas vraiment de la science, mais deux BD web de ouf magnifiques : Boulet tout en hauteur, et la fin de l’incroyable BD Time de XKCD (voir ici). (L’humour geek fait partie du périmètre de ce blog après tout.)
  • Un nouvel article dans PLOS Biology (libre d’accès) propose et soutient expérimentalement un modèle pour expliquer les variations stochastiques de l’expression des gènes. Curieusement, ils ne citent pas Kupiec, quelle injustice. Excellent commentaire (aussi libre accès) de l’article, qui commence ainsi :

If a gene’s promoter were a light switch, you’d probably call an electrician. That’s because rather than simply turning on and off in a limited and predictable way, many genes—whose expression is controlled by their promoters—are expressed in bursts, with expression fluctuating randomly over time.

Notes hebdomadaires précédentes.

 

Notes sur ma semaine en sciences

cliquez pour voir un tweet rigolo sur notre conférence

cliquez pour voir un tweet rigolo sur notre conférence

Voir précédent billet de notes pour le principe.

  • Peut-être le meilleur article grand public que j’ai lu sur les OGM (en anglais) : article sur PBS (média public américain). C’est basé sur l’interview d’un chercheur en biologie végétale et agronomie qui vient d’une famille de fermiers, et travaille avec des fermiers aux Etat-Unis et en Asie. Il travaille avec les paysans, cherche des moyens d’être plus efficace en utilisant moins de pesticides, particulièrement dans les conditions de sécurité et de standards faibles des pays pauvres, et voit les OGM comme un bon outil pour ça. Il a été surpris et choqué par la réaction des anti-OGM urbains. Lisez tout l’article avant d’être content ou furieux.
  • J’ai co-organisé un workshop, Quest for Orthologs, cette semaine. C’est fou tous les détails dont il faut s’occuper quand on est l’organisateur ! Excellentes discussions geeky sur les standards et formats pour parler d’orthologues, et sur l’utilisation que l’on peut en faire (voir ce billet et celui-ci).
  • Observation intéressante dans la discussion durant le workshop: des simulations peuvent être très utiles pour montrer quand est-ce qu’une méthode ne marche pas, mais ne permetten pas de montrer qu’une méthode marche sur les vraies données (très complexes en biologie).
  • PLOS Computational Biology a une série intéressante (et libre d’accès) sur la bioinformatique appliquée à la médecine : Translational Bioinformatics.
  • Une bactérie avec 12’356 gènes protéiques ! Comme une mouche. Pour comparaison, E. coli qu’on étudie le plus et qui est dans notre ventre a environ 4’300 gènes. C’est une cyanobactérie, donc qui fait de la photosynthèse. Les chloroplastes qui permettent la photosynthèse dans les cellules des plantes vertes sont des cyanobactéries absorbées par les cellules eucaryotes. Article dans Genome Biology and Evolution (accès fermé).
  • Dans le récent congrès de biologie computationnelle ISMB/ECCB, Nadja, une étudiante du labo, a eu un prix pour son poster, et Romain, un ex-étudiant du labo maintenant en Grande Bretagne, en a eu un autre pour le sien. Yo !
  • Kevin Folta, biologiste des plantes qui a déjà utilisé son blog pour discuter avec une anti-OGM (mentionné ici), et qui a proposé en vain à des anti-OGM de collaborer pour reproduire une expérience (mentionné ici), a proposé de débattre avec les participants à une conférence anti-OGM. Surprenamment pour des gens qui cherchent à faire toute la lumière et à comprendre la réalité des choses, ils ont refusé. C’est la vie, comme disent les français.
  • Le génome d’un rotifère bdeloide, publié dans Nature (libre accès), permet de comprendre un peu mieux comment un groupe large d’organismes multicellulaires survit sans reproduction sexuée depuis des dizaines de millions d’années. Très bon compte-rendu dans Le Monde.
  • Une évaluation de tous les logiciels d’assemblage de génomes (passer de petits fragments d’ADN séquencés à un génome complet) arrive à la triste conclusion que pour le moment c’est la cata. Excellente collection de liens sur le site de l’Assemblathon.
  • Réflexion intéressante dans le journal Current Biology sur l’historique de l’héroïne et l’impact de l’interdiction des drogues « récréatives » sur le développement de la neurobiologie. En gros l’auteur défend que la prohibition sauve peu de vies, mais en coûte beaucoup en inhibant la recherche et développement en pharmacologie neurologique. D’accès fermé malheureusement.
  • Une analyse suggère que les micro-organismes ne forment pas d’espèces à proprement parler, d’après des arguments mathématiques. Pas eu le temps de lire, mais idée intéressante. Papier libre accès.
  • Un article (libre accès) indique que des anti-fongiques appliqués aux plantes à fleurs peuvent affecter les abeilles en les rendant plus sensibles à des infections fongiques. Potentiellement très important.
  • Un billet de blog attire mon attention sur un concours de compression de données spécifiquement pour les séquences d’ADN. Intersection intéressante d’informatique et de génomique.