Archives pour la catégorie débat

Cellules souches à l’acide : mauvais trip ?

cliquez sur l'image

cliquez sur l’image

Un billet rapide pour rebondir sur le commentaire de Stephane sur mon billet précédent sur les cellules souches obtenues par traitement à l’acide : il semble d’une part qu’il y ait des doutes sur certaines figures des articles, et d’autre part un effort collectif pour reproduire les résultats n’a pas (encore ?) abouti (blog ipscell).

Il y a un excellent résumé en français de la situation sur l’Agence Sciences Presse.

Je vais juste commenter rapidement par rapport aux deux points que j’avais soulevé dans mon billet précédent.

Par rapport à la prudence des scientifiques : bin apparemment c’était justifié ! Il semble à présent de plus en plus probable que cette technique ne fonctionne pas comme annoncé, au mieux, et pas du tout, au pire. Par contre il faut noter qu’il faut également faire preuve de prudence avant de déclarer que ça ne marche pas. Peu de temps a passé, une des tentatives de réplication sur le blog ipscell lié ci-dessus est codée en vert / positif. Donc prudence des deux cotés, et à suivre.

Par rapport à l’attitude des auteurs qui ont travaillé dur pour montrer qu’ils avaient raison. A ma connaissance, ils n’ont pas encore crié au complot. Leur réaction aux soucis soulevés ces derniers jours (certaines de leurs données manquent également dans les bases de données, Nature a promis de s’en occuper) sera à mon avis très indicative : scientifiques honnêtes comme les physiciens ayant observé par erreur une vitesse supérieure à celle de la lumière, ou complotistes paranoïaques comme Séralini et al ?

Pour le fun, citons un excellent tweet sur cette affaire :

Tout ceci nous rappelle aussi qu’il n’y a qu’un moyen de savoir si un résultat scientifique publié est bon, c’est le test du temps et de la reproduction par la communauté, comme expliqué dans un précédent billet.

A suivre donc.

—-

Mise à jour : Top 10 Oddest Things About The Unfolding STAP Stem Cell Story sur le blog ipscell.

Et l’auteur de ce blog fait un Ask Me Anything sur Reddit.

Les méthodes bioinformatiques utilisées en génomique sont importantes #methodsmatter #BigScience

cliquez sur l'image

cliquez sur l’image

A l’occasion du projet ENCODE, j’ai déjà évoqué les avantages et inconvénients de la Big Science en biologie (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). Il y a en ce moment un débat très animé sur blogs et Twitter, concernant une question importante sur ces gros projets : les méthodes bioinformatiques utilisées.

Cela a commencé par ce billet de Lior Pachter, suivi de ce commentaire de Jeff Leek, et ce droit de réponse sur le blog de Lior. Si la question vous intéresse, je vous conseille fortement de lire non seulement les billets mais les commentaires. Il y a également une discussion Twitter intense, avec notamment les tweets de Lior, de Manolis Dermitzakis, et de Tuuli Lappalainen, et les hashtags #GTEx et #methodsmatter. La discussion comprend du beau monde en génomique et en bioinformatique. Quel est le débat ?

La discussion porte sur l’analyse de données de RNA-seq. Les gènes s’expriment (sont actifs) en étant transcrits en ARN. Plus un gène est actif, plus il y a d’ARN. Dans le RNA-seq, on séquence (on lit) des tas de petits morceaux d’ARN. On a davantage de morceaux lus pour les ARN correspondant aux gènes plus exprimés. Bon résumé de la méthode dans deux billets du site Bioinfo-fr : Analyse des données de séquençage à ARN et L’analyse de données RNA-seq: mode d’emploi. Ce deuxième fait aussi apparaître certains des soucis qu’on peut avoir.

Lior Pachter a remarqué que plusieurs gros projets, certains publiés comme ENCODE, d’autre encore en cours comme GTEx, utilisent une méthode bioinformatique de traitement du RNA-seq qui n’a jamais été publiée en tant que telle, donc n’est pas décrite formellement, n’a pas été évaluée, et n’a jamais été utilisée hors dédits consortiums (les auteurs de la méthode sont membres des consortiums Big Science en question). Il a essayé de comprendre la méthode (et Lior n’est pas un nul, il est notamment auteur de la méthode la plus utilisée, CuffLinks), sans grand succès, puis il l’a testée empiriquement sur les données de GTEx, parce que c’est ça qui l’intéressait. Et d’après ses tests, la méthode n’a que 10% du pouvoir statistique des méthodes plus habituellement utilisées dont il est l’auteur. Ce qui l’a conduit à écrire un billet de blog au titre provocateur « GTEx jette 90% de ses données ».

Dans la discussion qui s’en est suivie, il y a plusieurs éléments. L’un est une défense spécifique de GTEx. Manolis fait remarquer à juste titre qu’ils n’ont pas encore publié leurs résultats, donc qu’il est un peu tôt pour critiquer leurs choix méthodologiques, et note aussi que (1) ayant beaucoup beaucoup de données, ils ont du prendre en compte l’efficacité computationnelle des méthodes (à savoir que CuffLinks plantait leurs ordinateurs apparemment), et (2) ils avaient contacté la bande à Lior pour avoir de l’aide, sans succès.

Un élément plus important pour moi est le rôle en effet des méthodes bioinformatiques dans de tels projets. Cela implique plusieurs niveaux. Le projet Big Science est sensé fournir des resources (des données réutilisables) et des conclusions biologiques. Si on ne comprend pas les méthodes, si elles ne sont pas connues et reconnues par ailleurs, alors (1) cela limite la réutilisation, et (2) cela diminue notre confiance dans leurs résultats. Ainsi dans mon labo on essaye d’utiliser les données RNA-seq d’ENCODE, mais ils ont utilisé la même méthode dont discute Lior, et cela nous gène pour faire confiance dans les données prétraitées qu’ils nous fournissent, sans compter que des membres de l’équipe ont perdu pas mal de temps à essayer de comprendre quelque chose qui n’était juste pas bien expliqué. Et du coup, on a du mal à reproduire des résultats sur lesquels on aimerait construire.

A  noter que Lior avait aussi écrit une critique d’ENCODE, disponible sur ArXiv seulement.

Certains ont répondu à la discussion que peu importe, nous embêtent les bioinformaticiens, toutes les méthodes donnent les mêmes résultats. D’où le hashtag #methodsmatter de Lior, et sa réponse ironique « toutes les données me donnent les mêmes résultats » (vu d’avion, c’est presque vrai). Et là je suis complètement d’accord avec Lior. Bien sûr, pour trouver que la myosine est exprimée dans le muscle, peu importe la méthode. Mais pour associer des formes différences de l’ARN d’un même gène à des variations inter-individuelles dans l’ADN régulateur proche du gène, et autres subtilités qui sont l’essentiel du message biologique que l’on cherche avec ces très gros jeux de données, oui cent fois oui les méthodes comptent, et c’est limite irresponsable de suggérer autrement. Il faut rappeler que (1) les gros jeux de données coutent cher, donc on veut en tirer le signal maximum, d’où l’importance de méthodes statistiques puissantes, et (2) la définition d’un biais c’est une méthode qui converge avec une confiance croissante vers un résultat faux lorsqu’on a plus de données. Donc gros jeux de données = importance de faire attention aux biais.

Finalement un point important à retenir de cette discussion, comme celle qui a suivi la publication d’ENCODE, c’est que grâce aux blogs et à Twitter ces gros projets se font sous la supervision de plus en plus proche et réactive d’une communauté qui n’a pas peur de faire connaître ses critiques, et que ces mêmes plateformes permettent aux scientifiques des gros projets de répondre, créant un dialogue constructif. Et ça c’est une très bonne nouvelle pour le progrès de la recherche en biologie et en sciences en général.

Note de dernière minute : il vient de sortir une grosse évaluation des méthodes RNA-seq, que je n’ai pas encore lue (communiqué de presse avec liens vers papiers – accès fermés), mais qui semble trouver que CuffLinks (de Lior) marche bien.

Mise à jour : de manière suprenante, les papiers de l’équipe GTEx, ENCODE, et ces évaluation de méthodes RNA-seq sont affichés comme reliés par l’EBI (voir communiqué de presse ci-dessus), pourtant l’évaluation n’inclut pas la méthode Flux Capacitor utilisée par ENCODE et GTEx. Cela semble moyennement cohérent a priori, mais je continue à suivre la discussion. A noter aussi qu’à la lecture, CuffLinks ne semble pas forcément en effet la meilleure méthode.

Notes sur ma semaine en sciences 4

cliquez sur l'image

cliquez sur l’image

  • Un bilan de 451 additifs alimentaires autorisés aux Etats-Unis entre 1997 et 2012 indique que l’expertise n’a jamais été indépendente, et qu’elle a été faite par un employé de la compagnie concernée dans 22% des cas. Clairement, un système à revoir. Article d’accès libre.
  • J’ai commencé à écrire ma prochaine demande de financement au Fonds national suisse pour la science (je sais, pour un français dire « fonds national » ça sonne bizarre). On peut poser la question de la pertinence de l’écriture de ces projets, sachant que le meilleur prédicteur du succès d’un chercheur est sa productivité passée. Donc en regardant la mienne, on peut raisonablement s’attendre à ce que premièrement je continue à obtenir des résultats et à les publier, deuxièmement ces résultats ne changent pas la face du monde, et troisièmement qu’ils soient quand même utiles et cités par des collègues. Mais cet exercice est quand même important et utile. Cela me force à réfléchir à la cohérence de ce qu’on veut faire, au contexte international, et à convaincre des collègues de la pertinence de nos projets. Je pense que cela vaut le coup.
  • Un compte-rendu intéressant d’analyse de la vigueur hybride dans le maïs cultivé : le fait qu’on obtient de meilleurs rendements en croisant deux souches pures bien choisies qu’en sélectionnant une souche seule (et c’est pourquoi la plupart des paysans rachètent des graines tous les ans, OGM ou pas).
  • Un collègue améliore la productivité du manioc en Colombie grâce aux champignons microscopiques, j’y reviendrais. Communiqué de presse, article libre d’accès.
  • Une nouvelle technique de compression de données spécifique aux génomes humains permet de ternir l’information génomique d’une personne en 2,5 Mb. A noter que cela suppose qu’on ait un génome de référence et qu’on ne code que les différences, donc le point de départ n’est que de 84 Mb, pas 3,2 Gb. C’est quand même 37% de mieux que le record précédent. Article (accès fermé).
  • Un prototype de riz OGM qui fournit un anticorps contre un virus mortel (rotavirus) dans le Tiers Monde (news dans Nature). Mais me direz-vous, y a qu’à les rendre riches au lieu de faire des biotechnologies (y a vraiment un commentaire comme ça hélas). Sérieusement, c’est encore loin de l’application sur le terrain, mais c’est une approche originale et intéressante. Le risque bien sur c’est qu’alors que c’est relativement facile d’adapter un vaccin aux changements d’un virus, un OGM qui produit un anticorps donné risque d’être compliqué à mettre à jour quand le virus va évoluer une résistance.
  • C’est officiel : si vous utilisez Gmail, vous abandonnez toute prétention à avoir une correspondence privée. Comme remarqué par Nicolas Le Novère, cela s’applique à toutes les communications passant par des tiers (en tous cas aux Etats-Unis).
  • Commentaire Slashdot que je trouve intéressant : la carrière de Steve Jobs aurait consisté à rendre réelles les promesses de la « mère de toutes les démos« .
  • Intéressant par rapport au débat sur le libre accès aux publications scientifiques (open access) : alors que certains collègues arguent que le libre accès pose problème dans le Tiers Monde (parce qu’il faut payer pour publier), une université nigérianne a arrété ses abonnements (qui coutent très cher) et se repose presque exclusivement sur le libre accès. Interview dans The Guardian.
  • Un billet de blog de Edzart Ernst, professeur de médecines alternatives, qui explique que sa formation de médecin ne comprenait pas d’apprentissage du pensée critique, et que c’est ses tentatives de comprendre l’homéopathie qui ont formé son esprit critique et son scepticisme.
  • Dan Graur attaque une étude de génomique, et l’auteur répond. Presque comme des grandes personnes. Blog de Graur.
  • Le poster présentant notre base de données Bgee sur l’expression des gènes et l’évolution pour la conférence ESEB (European society for evolutionary biology) est dans FigShare.
  • Ca nous est tous arrivés, mais Rosie Redfield le discute publiquement (comme toute sa science d’ailleurs) : des compétiteurs qui « oublient » de citer votre travail quand ils se basent dessus pour le leur.
  • Un petit ralage sur mon blog anglophone concernant l’abus du terme « dogme » dans les publications scientifiques.
  • Dans un parallèle que je trouve intéressant avec la conclusion de mon billet de lundi sur la génomique des cellules HeLa, un billet de blog qui note que les « Big Data » nous retournent à une vie de village sans vie privée.

Impact du maïs #OGM Bt sur l’environnement

Cliquez sur l'image

Cliquez sur l’image

Dans une discussion récente avec un collègue écologiste aux deux sens du terme, il m’a dit qu’il restait inquiet sur l’impact des OGM sur l’environnement. Mais il n’avait pas de références précises à me fournir. Entre temps j’ai trouvé un article que je ne connaissait pas mais qui a apparemment été très débattu, que nous allons donc regarder ensemble :

Rosi-Marshall et al. 2007 Toxins in transgenic crop byproducts may affect headwater stream ecosystems, Proc Natl Acad Sci USA 104: 16204-16208

En résumé, les auteurs ont examiné l’impact du maïs Bt sur des trichoptères, des insectes relativement proches des lépidoptères, qui vivent typiquement dans les cours d’eau. Le maïs Bt exprime un gène de toxine de Bacillus thuringiensis qui a été mis là pour tuer les lépidoptères (papillons etc), les diptères (mouches etc) et les coléoptères (scarabés etc). On peut donc s’attendre raisonablement à ce qu’il affecte aussi d’autres insectes proches. Comme les trichoptères vivent dans des cours d’eau qui peuvent être proches des champs de maïs, la transmission est aussi raisonable.

Les auteurs ont trouvé du pollen Bt dans 50% des trichoptères examinés à la saison du pollen. Au labo, l’espèce Lepidostoma liba avait une croissance ralentie lorsque nourrie entièrement au Bt par rapport à du maïs non OGM. Une autre espèce, Helicopsyche borealis, n’avait pas de différence de croissance mais de mortalité si. A noter qu’ils ont reçu des doses bien supérieures à celles trouvées dans les cours d’eau.

Il semble que ce papier a été pas mal critiqué, et pas mal cité (ISI, Google Scholar). Il est utilisé dans une revue récente comme exemple d’article attaqué injustement. Je dois dire qu’après avoir lu une attaque en règle, je tends à être d’accord. Les arguments contiennent pas mal d’arguties sur les nuances des différents types de Bt etc. Il y a deux points pertinents à mon sens : que la dose trouvée dans la nature est plus faible que celle utilisée au labo, mais cela était reconnu par Rosi-Marshall et al ; et que le Bt peut provenir d’autres sources, car il est utilisé en pulvérisation de manière courante. C’est vrai, et un point rarement soulevé par les opposants aux OGM est que le Bt est utilisé en pulvérisation dans l’agriculture bio !

Ma conclusion de cet article est que l’impact du Bt comme celui d’autres pesticides sur l’environnement semble insuffisamment étudié. En l’état des connaissances je ne vois pas de risque particulier lié à l’utilisation en OGM par rapport à la pulvérisation. Mais il est possible qu’il y ait des différences (positives ou négatives) dues à la manière dont les produits s’accumulent ou sont consommés par d’autres organismes. En principe, on s’attend à ce que la pulvérisation soit plus négative, parce qu’il faut en mettre plus et de manière moins discriminante. Je dirais dossier à suivre, mais plutôt pour le Bt en tant que tel que pour l’aspect OGM.

Deuxième billet de ma semaine OGM. Tous les billets avec le tag OGM.

ADN de Big Foot : comment être critique de la pseudo-science sans être méprisant ?

Cliquez sur l'image

Cliquez sur l’image

J’ai été contacté récemment pour donner mon avis sur le séquençage d’ADN de Big Foot (ou Sasquatch), le « yéti » nord américain. A l’époque où ce « résultat » avait été « publié » je n’avais pas réagi, vu qu’il était suffisamment couvert à mon avis sur Le bLoug et sur Strange Stuff and Funky Things.

Les guillemets un peu lourds ci-dessus, c’est parce que les auteurs ont écrit un article très bizarre, mal écrit, avec des vidéos et photos type Men in Black / X-files comme évidence à coté des information d’ADN, lequel ADN semble être un mélange d’humain et d’autres animaux. Les méthodes utilisées ont été de collecter des échantillons de poils auprès de personnes convaincues d’avoir Big Foot dans leur jardin ou leur bois. L’article ayant été suprenemment rejeté dans tous les journaux scientifiques contactés (de l’utilité de l’expertise par les pairs), les auteurs ont créé leur « journal« , qui est une page web moche qui fait très amateur, et qui ne contient qu’un article, le leur.

Ah et évidemment l’ADN qu’ils ont séquencé n’est pas publiquement disponible, officiellement parce que l’espèce Big Foot n’existe pas déjà dans les banques de données d’ADN. C’est vrai quoi, c’est pas comme s’ils avaient crée l’espèce Denisova quand il y avait besoin. Ah si. Donc article bizarrement écrit, site web étrange et créé exprès, données non disponibles. Pour soutenir des résultats hautement improbables. Pas de raisons de se méfier.

Sérieusement, le problème qui se pose à moi, c’est comment critiquer un truc pareil sans paraître hautain et méprisant ? Je dois déjà avoir échoué dans ce billet. L’argument « ça se voit à 100 km que c’est des conneries » ne sera pas très porteur auprés des personnes qui ont envie de croire qu’il y a quelque chose de vrai dans ces histoires, je le sens bien. Pourtant ça va être la réponse de tout scientifique qui jette un coup d’oeil à cette histoire. Démonter les résultats est une perte de temps manifeste, à la fois parce que c’est passer du temps à montrer qu’un truc clairement faux est faux, et parce que les partisans du complot fans de Big Foot, Yéti et Monstre du Loch Ness ne seront jamais convaincus.

On revient à un problème discuté à propos de Séralini (qui est un modèle de science comparé aux guignols dont il est question ici) : beaucoup de gens pensent que les scientifiques ont peur des résultats nouveaux et les écrasent ou les cachent, alors qu’on adore les résultats nouveaux. On est juste très stringeant quand il s’agit de les accepter. « Exceptional claims need exceptional evidence ». Si vous avez trouvé une espèce d’hominidé vivant à coté des humains sans être découverte depuis des millénaires, il faut nous le prouver, et une vidéo d’une couverture agitée hors champ (voir ici – cette vidéo est vraiment dans l’article) ça va pas le faire.

Il me semble qu’on a ici un problème de communication auquel je n’ai pas de solution.

La grosse expérience, la carte et l’aventure, trois types de « Big Science »

Cliquez sur l'image

Cliquez sur l’image

Deuxième billet sur le commentaire de Sean Eddy sur ENCODE et sur les réactions à ENCODE. Le premier était sur le projet génome aléatoire.

Ce deuxième billet est sur une classification que Sean propose des projets de « Big Science », ces gros projets scientifiques qui mobilisent de nombreuses équipes et de nombreux chercheurs et coûtent très cher.

  1. La grosse expérience. En principe pas différent d’une expérience classique, avec une hypothèse à tester, des contrôles positifs (on sait qu’on doit obtenir un signal) et négatifs (on sait qu’on ne doit pas en obtenir), et un plan pour la validation des résultats. La seule différence avec une expérience classique est le coût et l’infrastructure nécessaire. Exemple : les manips pour détecter le boson de Higgs.
  2. La carte. C’est la construction d’une resource commune à beaucoup de groupes et beaucoup de projets, pouvant servir à répondre ou aider à répondre à de nombreuses questions. Mais ça n’est pas en soi le test d’une hypothèse. Décider de faire une telle carte doit être basé sur le rapport coût / bénéfice de retirer cet argent au financement des petits projets, qui d’un côté répondent à des questions scientifiques, et d’une autre construisent de petits morceaux de la carte de manière désordonnée, sans coordination ni standards communs. Si c’est un succès, on a une super resource qui sert à plein de projets, l’exemple typique étant le génome humain (ou les vraies cartes géographiques, très utiles somme toute). Si c’est un échec, on a soit une resource très chère mais peu utilisée, soit une resource mal faite et donc pas utilisable. Pour Sean Eddy, ENCODE est une carte.
  3. L’aventure, ou en traduction litérale le coin (the wedge). Un effort massif vers un objectif arbitraire et très distant, dont le but est d’organiser, améliorer, et démocratiser des technologies. Le génome humain était en même temps ce type d’aventure, de même que de poser un humain sur la lune. Plus proche de nous, les projets « cerveau humain » en Europe et aux USA sont de ce type de grosse science. C’est un succès si de nouvelles technologies et de nouvelles façons de faire de la science en sortent et ont du succès. C’est un échec si ça s’englue dans la bureaucratie d’un gros projet sans fournir ni test d’hypothèse ni resource réutilisable.

A mon avis, ENCODE est en effet une carte. Une carte dont la principale valeur est d’être plus détaillée que la précédente, tout en étant la carte d’un territoire que nous connaissions déjà pour l’essentiel. Au 19ème siècle la France a établi des cartes d’Etat Major très détaillées, plus détaillées que la carte de Cassini du 18ème, ce qui était surement très utile. Mais ils n’ont pas découverte de montagnes, de fleuve ou de villes où on n’en connaissait pas. ENCODE c’est pareil, on connaissait en gros les gènes codants, les gènes non codant, les séquences régulatrices, mais on a gagné en détail. Le problème d’après Sean Eddy (et je suis d’accord), c’est qu’une carte a été vendue (au public mais aussi aux collègues scientifiques) comme un test d’hypothèse, ce que ça n’était pas.

Dan Graur n’est pas d’accord. Il pense que les problèmes méthodologiques d’ENCODE, et notamment l’usage de lignées cellulaires bizarres, le disqualifie comme carte utile. A court terme, je pense qu’il n’a pas tort, mais à moyen terme le consortium est en train de répéter les mêmes expériences sur des échantillons plus normaux de souris, et sur des cellules souches humaines, ce qui promet d’être très utile. De plus, Dan pense que la fonction est une état trop mouvant pour être cartographié, contrairement au génome. En cela, je ne suis pas d’accord avec lui. Il me semble que l’ensemble des fonctions génomiques dans un certain tissu, organe ou état cellulaire est pertinent et utile en tant que resource pour la biologie.

De manière amusante, lorsque j’ai diffusé mon opinion sur Twitter (« IMO, #ENCODE is about improving the map of a largely charted territory #andweneedgoodmaps. »), Ewan Birney, coordinateur d’ENCODE, l’a retweeté. Ce qui tend à indiquer qu’il n’est pas totalement en désaccord…

Le génome aléatoire, un contrôle pour interpréter 15 To de données sur le génome humain

Cliquez sur l'image

Cliquez sur l’image (lien corrigé)

Il y a un nouveau papier de commentaire sur ENCODE qui est sorti, qui est court mais contient plusieurs points intéressants, donc je vais le discuter dans deux billets, dont ceci est le premier.

Comme discuté précédemment (voir ici et ici), ENCODE est un énorme consortium d’expériences pour déterminer l’activité et la fonction du génome humain. Les résultats d’ENCODE et surtout la manière dont ils ont été rapportés ont fait débat, parce qu’ils ont rapporté comme fonctionnel tout morceau d’ADN avec une activité biochimique mesurable de manière reproductible. Or il est possible (et selon beaucoup, probable) que de l’ADN qui n’a aucune fonction particulière dans l’organisme ait une activité biochimique reproductible.

Dans ce papier, Sean Eddy propose une expérience de contrôle conceptuellement simple :

To clarify what noise means, I propose the Random Genome Project. Suppose we put a few million bases of entirely random synthetic DNA into a human cell, and do an ENCODE project on it. Will it be reproducibly transcribed into mRNA-like transcripts, reproducibly bound by DNA-binding proteins, and reproducibly wrapped around histones marked by specific chromatin modifications? I think yes.

L’idée est effectivement simple : l’activité biochimique d’ADN aléatoire artificiel dans le même contexte cellulaire qu’ENCODE nous donne une mesure du bruit de fond de ces expériences. Une cellule est pleine d’enzyme modifiant l’ADN, de protéines liant l’ADN, et d’enzymes modifiant les protéines liées à l’ADN. Elles vont forcément interagir avec certains morceaux d’ADN aléatoire, pour deux raisons : certains sites d’interaction spécifiques seront dans cet ADN par hasard (de nombreux sites reconnus sont courts) ; et la spécificité des interactions n’est jamais parfaite, c’est une question d’équilibre chimique de liaisons faibles. Un facteur spécifique de ACGT fixera ACGT plus fréquemment que AGGT, mais fixera AGGT avec une certaine fréquence … mesurable et reproductible.

Une fois une telle expérience faite, seul l’excès d’activité mesurée par rapport à ce contrôle devrait être interprété comme ayant une pertinence biologique potentielle.

Une remarque importante de Sean : dans cet ADN aléatoire il y aura surement des morceaux qui non seulement auront une activité mesurable importante, mais dont la délétion provoquerait un effet notable (un phénotype). Parce que même si cet ADN a été introduit sans aucune fonction ni prévue artificiellement ni sélectionnée naturellement, de fixer un facteur le rend moins disponible pour d’autres régions, d’ouvrir l’ADN rend les régions proches plus faciles à ouvrir aussi, etc. Ceci pose un problème important lorsque l’on sait que la mesure considérée la plus rigoureuse et « finale » pour prouver une fonction est exactement de trouver un phénotype après délétion (ou autre pertubation majeure).

A noter qu’il faudrait tester cet ADN aléatoire dans tous les types de cellules testés par ailleurs, parce que le bruit de fond sera spécifique des protéines présentes dans ces cellules.

A noter aussi que cette expérience reste très minimale, parce que notre ADN contient plein de morceaux possiblement (probablement ?) inutiles mais pas aléatoires du tout. Par exemple quand un morceau d’ADN égoïste qui parasite notre génome (un transposon) se casse la gueule, on a : une ancienne « fonction » qui n’a jamais servi la cellule ou l’organisme, un morceau d’ADN qui n’a même plus cette fonction, et pourtant un morceau d’ADN qui a toute la structure et la plupart des séquences spécifiques pour fonctionner (si votre voiture ne marche plus elle ne devient pas un blob de métal et de plastique, elle garde la plupart des caractéristiques d’une voiture).

Finalement, pour s’amuser un peu, lire la réaction outragée de Dan Graur à ce que Sean Eddy rejette dos-à-dos ENCODE et la critique de Dan.

HeLa ! A qui est ce génome ?

En biologie moléculaire, on utilise beaucoup des cultures cellulaires, à savoir qu’on a les cellules dans une boîte de Petri pour étudier la manière dont elles fonctionnent. Mais la plupart de nos cellules ne se laissent pas cultiver facilement, et c’était encore plus vrai avant les progrès récents concernant les cellules souches. Donc on utilise beaucoup des cellules dérivées de tumeurs, qui elles se maintiennent bien en culture.

La lignée probablement la plus célèbre est la lignée HeLa, dérivée d’une tumeur d’une pauvre femme noire dans l’Amérique des années 50, Henrietta Lacks. A l’époque, on n’avait pas jugé bon de lui demander son avis, ni à sa famille. Et les cellules HeLa ont été utilisées, et continuent d’être utilisées, dans un nombre énorme d’études de biologie.

Or deux choses : un, ces cellules, comme toutes les cellules dérivées de tumeur gardées longtemps en culture, ont subi beaucoup de mutations, y compris des très grosses, et leur génome est très différent de celui d’une cellule humaine « normale ». Deux, on n’est plus dans l’ère de la biologie moléculaire, mais dans celle de la génomique, donc étudier un génome anormal en faisant comme s’il était normal pose problème.

Donc récemment des chercheurs de l’EMBL (le labo européen de biologie moléculaire) ont publié le génome de HeLa (enfin, un génome, parce que je parie que différentes cultures cellulaires ont différents génomes). Ce qui est très bien d’un point de vue purement de la compréhension de la biologie, parce qu’on peut mettre les expériences précédentes en contexte.

Mais très rapidement, des personnes, au premier chef desquels Jonathan Eisen, ont émis des doutes sur l’aspect éthique du séquençage du génome dérivé de Henrietta Lacks en l’absence de tout consentement éclairé. Deux arguments s’affrontent : on peut considérer que ce génome est tellement dérivé et bizarre par rapport à l’original qu’il n’a plus grand chose à voir avec la famille Lacks ; les cellules HeLa sont une forme de vie à part, pour laquelle un consentement éclairé n’est pas nécessaire. Ou on peut considérer que c’est bien le génome de Henrietta Lacks, même avec des mutations supplémentaires, et qu’il fallait donc un consentement. A cela s’ajoute le fait que Henrietta est morte depuis longtemps, donc c’est à ses petits-enfants qui n’ont que 1/4 de son génome en moyenne qu’il faudrait demander, et l’historique sordide de l’exploitation des cellules sans consentement ni aucune forme de réflexion éthique depuis les années 50. Je n’ai pas le temps d’aller dans tous les aspects du débat en cours, Eisen maintient une excellente liste des réactions en anglais, mais deux points intéressants :

Au blog Genomes Unzipped, ils ont montré qu’à partir des expériences déjà publiées on peut déjà reconstruire beaucoup des variants génétiques d’Henrietta Lacks.

Et ceci pose à nouveau la question posée par le premier génome Aborigène (voir aussi Tom Roud), de savoir à qui appartient l’information dans un génome, sachant qu’il est partagé avec votre famille et de manière plus large les personnes venant de la même région que vous.

C’est tellement compliqué on ne peut jamais savoir ! Pas de vaccins, pas d’OGM et pas de jus de tomate !

nepas

cliquez sur l’image et goutez l’humour suisse

Le principe de précaution dans sa forme rationnelle est une réaction qui me paraît tout-à-fait sensée face à un techno-optimisme béat (qui n’a guère plus cours depuis un très bon moment quand même je pense) et face à de potentielles élites ne se préoccupant pas des risques pour la populace (voir discussion sur le test Erin Brokovitch).

Mais ces temps-ci j’ai surtout l’impression d’avoir affaire au principe de au-secours-j’ai-peur-je-comprend-pas-et-je-ne-veux-pas-comprendre. Ce qui est frustrant pour un scientifique dont la passion est de comprendre les choses justement. Et si possible prendre en compte cette compréhension dans le choix raisonné des actions.

Point de départ, deux exemples récents ayant affecté des blogs du C@fé des sciences (discussion aussi chez Sirtin).

En commentaire d’un billet de Sirtin sur les micro-ondes, un certain Nirvan s’inquiète du mouvement des molécules d’eau qu’il/elle ingère dans les aliments réchauffés au micro-onde. En réponse, lien vers l’excellent Podcast science, ainsi qu’une comparaison très raisonable de Nima Yeganefar de l’excellent blog Sham and science sur lequel on va revenir, et que je cite parce que c’est important :

Il est certainement plus risqué de prendre sa voiture pour aller au travail tous les jours (risque mis en évidence scientifiquement, mesuré, connu) que de manger des aliments réchauffés par micro onde (risque hypothétique, jamais mis en évidence, où on ne voit même pas un mécanisme possible).

C’est important parce que nombre des peurs que l’on entend évoquer à propos de techniques diverses n’ont aucun mécanisme envisagé. Par exemple si je vois une grosse bête que je ne connais pas, je peux me méfier, il existe un mécanisme « grosse bête attaque humain » bien connu. Plus technique, si on met au point un médicament pour qu’il affecte ma maladie, ça veut dire que ce produit est actif dans mon organisme, donc il y a un risque d’effets secondaires non déraisonnable. D’où les tests extensifs et très couteux imposés à l’industrie pharmaceutique (mais pas homéopathique parce qu’on sait qu’une pilule de sucre et d’eau ne peut faire ni mal ni bien…), qui conduisent à la non commercialisation de la grande majorité des composés prometteurs. Et il reste que même après un max de tests, il peut y avoir des erreurs, et même quand il n’y a pas erreur, presque tous les médicaments sont dangereux à la mauvaise dose ou en l’absence de pathologie. Donc vente en pharmacie. Mais le mécanisme des micro-ondes on le connaît bien (la physique c’est vachement plus simple que la biologie), et on ne voit pas en quoi ça rend les aliments dangereux en soi (pour ce qui est de chauffer des aliments dans du plastique, c’est une autre affaire – il peut y avoir des risques).

Deuxième histoire sur un blog du C@fé des sciences. Sham and science justement, que je vous recommende dans le genre anti-bétises (et anti-bétise) a écrit un bon billet sur la peur des vaccins et ses conséquences funestes. Ca n’a pas manqué, réaction de militants anti-vaccins ; je vous met un lien vers la réaction de Sham and science, pas vers les imbéciles tueurs d’enfants (vous voulez que j’appelle ça comment des gens qui par méconnaissance active cherchent à empécher les gens de sauver les enfants de maladies mortelles et préventibles ?). Les raisonnement m’intéresse parce qu’il est plus proche de la biologie, et se rapproche aussi de ce que l’on entend sur les OGM, que dont j’ai causé plusieurs fois sur ce blog.

En gros, la biologie ça serait très compliqué (vrai), en équilibre naturel (mouais bof), donc il ne faudrait surtout jamais la pertuber, surtout avec des choses qu’on n’a jamais fait. On voit bien ce raisonnement dans une vidéo de PH Gouyon où il explique que les OGM sont dangereux parce qu’on ne peut jamais savoir ce qui va se passer quand on met un gène dans un nouvel environnement génique. Même si ce gène était dans un autre aliment que vous mangiez, même si le produit de ce gène était déjà dans votre alimentation, là, interaction, paf, on peut pas savoir.

Alors, premièrement, on peut chercher à savoir au lieu de dire « on peut pas ». Ca s’appelle la recherche scientifique, et en ce qui concerne les OGM c’est freiné par les arracheurs qui saccagent régulièrement les champs expérimentaux universitaires. Donc si on est empéché de chercher à savoir, c’est sur que c’est dur de savoir. Mais globalement y a des études faites ailleurs qu’en Europe, et y a des gens et du bétail qui mangent des OGM à grande échelle, donc on peut à-peu-près savoir. Pour les vaccins, c’est encore mieux, la recherche se fait sans arrachage et ça fait super longtemps qu’on observe les gens qui se font vacciner (si vous avez des enfants, vous savez qu’ils voient beaucoup le pédiatre au début de leur vie, avant pendant après les vaccins).

Deuxièmement, en ce qui concerne les OGM, on revient toujours au même point, qui est qu’il y en a de toutes sortes. Il y a donc des OGM dans lesquels on a mis dans une variété de riz un gène d’une autre variété de riz. Je pense qu’on a une certaine expérience de ce que ce gène fait dans un contexte (très compliqué je vous l’accorde) de riz. En ce qui concerne les vaccins, on a une très bonne idée de comment fonctionne le système immunitaire. On revient au point sur les médicaments en général : si c’est actif dans votre corps, ça ne peut pas être sans risques. C’est donc une question de coût-bénéfice. Sauver les vies de millions d’enfants et d’adultes tous les ans à coup sûr, contre le risque qu’il y ait peut-être un effet secondaire super rare ou super pas grave (seules possibilités pour qu’on ne l’ait pas encore remarqué) ? J’hésite.

Notez que c’est vrai que la biologie c’est compliqué, et qu’on peut découvrir des choses qu’on ne connaissait pas. Notez aussi que c’est les scientifiques qui les découvrent et les publient et avertissent le public, pas les pseudo-scientifiques conspirationistes. Notez aussi que plus notre connaissance avance, plus les problèmes qu’on découvre ont des chances d’être rares ou peu graves pour pas qu’on les ait vu avant. Ainsi, le mélange du jus de pamplemousse avec certains médicaments provoque des effets secondaires pouvant être graves. On est dans un cas pas hyper fréquent, et décrit dans la litérature scientifique depuis plus de 20 ans, mais il a fallu du temps pour bien vérifier. Un point à relever c’est que le mécanisme en cause est compréhensible, connu, et cohérent avec nos connaissances précédentes : les enzymes P450 sont connues depuis très longtemps pour leur rôle de détoxification qui les poussent à dégrader nos médicaments. Donc les dosages tiennent compte de leur effet et on prend assez de médicament pour en dégrader et encore en avoir. Des populations produisant des formes plus ou moins actives de ces enzymes ont donc besoin de doses différentes de médicaments. Le jus de pamplemousse contient des composés qui sont des inhibiteurs de certaines P450 (au fait, c’est dégueulasse que les principaux articles sur ce sujet de santé publique ne soient pas libre d’accès).

Revenons à l’argument : c’est compliqué, au secours. Je voudrais vous faire remarquer deux choses : un, nous avons tous un génome différent. Non seulement nous avons une combinaison d’allèles hérités de nos parents qui est probablement unique, sauf les vrais jumeaux, mais nous avons chacun une centaine de mutations nouvelles. Deux, chaque individu animal ou plante que nous mangeons, de même (avec moins de variété dans les espèces domestiques, mais d’un autre coté plein de variété dans par exemple les bactéries des fromages). Donc tous les jours vous réalisez dans votre alimentation des mélanges biologiques complexes jamais vu avant. Et vous survivez à la plupart de vos repas ! Waouh. Bon on peut minimiser cela en mangeant tous les repas la même chose très peu variée, mais je prends les paris sur ce qui sera meilleur pour la santé, ça ou un régime varié n’hésitant pas à essayer de nouvelles choses. Sans compter le bénéfice gustatif.

En fait un système peut être complexe mais avoir des comportements robustes, et être en grande partie prédictible. Dire à tout bout de champ « c’est compliqué, faut pas chercher à comprendre, faut rien toucher », ça n’avance pas beaucoup les choses. Reconnaître la complexité (et je vous mets au défi de trouver un biologiste, un médecin, un agronome qui la nie) et travailler avec, oui ça avance la connaissance. Et reconnaître que tous nos choix sont une question de gestion de risques jamais nuls, et de rapport coût / bénéfice, peut permettre de faire des choix raisonnés. La pondération des coûts et des bénéfices peut être très subjective, mais il faut le faire en connaissance de cause.

Notre génome n’est pas fonctionnel à 80% et je reste poli, moi #ENCODE

girafe

Cliquez sur l’image

Vous vous rappelez d’ENCODE ? Un méga gros projet de caractérisation de la fonction du génome humain, qui a publié ses résultats en septembre. J’en avais causé ici, et il y avait aussi un bon billet sur le blog bioinfo-fr. Comme discuté à l’époque, l’affirmation selon laquelle 80% du génome était supposément fonctionnelle avait causé pas mal de débats à l’époque, avec notamment les chercheurs en évolution des génomes très peu convaincus, c’est le moins qu’on puisse dire.

Critiquer sur des blogs, c’est bien, mais pour que cela ait un impact dans la communauté scientifique, il faut publier un article dans une revue sérieuse, et il faut que cet article soit lu. Dan Graur et collègues viennent de publier un article remarquable à bien des égards, avec ces objectifs à coeur (et peut-être un tout petit peu l’objectif de faire parler d’eux 😉 ). Déclaration de conflits d’intérêts : j’ai travaillé avec Dan en postdoc il y a longtemps.

L’article est :
On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE, Genome Biology and Evolution online before print

Le ton est … disons inhabituel dans un article scientifique. Je vous invite à aller le lire si vous êtes à l’aise en anglais (il est Libre d’accès). Là pour le coup on a un article scientifique qui n’est pas écrit de manière chiante ! Dan est un habitué du coup, ayant écrit dans le passé les célèbres articles suivants :

Reading the entrails of chickens: molecular timescales of evolution and the illusion of precision. Trends Genet. 2004 Feb;20(2):80-6. (Critique très dure des datations moléculaires, voir billet récent sur les mammifères.)

The Permian bacterium that isn’t. Mol Biol Evol. 2001 Jun;18(6):1143-6 (Démontage en règle d’un article rapportant une soi-disant bactérie vivante de 250 Millions d’années d’âge.)

Le ton surprenant de l’article sur ENCODE inclut des phrases telles que :

ENCODE accomplishes these aims mainly by playing fast and loose with the term “function,” by divorcing genomic analysis from its evolutionary context and ignoring a century of population genetics theory, and by employing methods that consistently overestimate functionality, while at the same time being very careful that these estimates do not reach 100%. More generally, the ENCODE Consortium has fallen trap to the genomic equivalent of the human propensity to see meaningful patterns in random data.

Sur le fond, que disent-ils ?

D’abord, qu’il faut distinguer en biologie entre la fonction « sélectionnée », c’est-à-dire qui a un impact sur la survie et la reproduction de l’organisme, par exemple pour le coeur pomper le sang, et la fonction « causale », par exemple pour le coeur faire bouboum-bouboum. La fonction causale existe, elle n’est pas fausse, mais elle n’a que peu d’intérêt pour comprendre la biologie. Graur et al. accusent le consortium ENCODE d’avoir confondu ces deux sens de fonction, en rapportant comme fonctionnel de manière pertinente (= sélectionnée même si ENCODE ne le dit pas) tout ce qui a une fonction détectable expérimentalement. Ce qu’un commentateur de mon billet précédent a excellemment résumé par « ça bouge quand on l’agite ».

Le titre de l’article s’explique par l’affirmation de Graur et al. que toute fonction pertinente doit pouvoir être cassée, et le sera si le temps passe et qu’aucune sélection ne l’empêche. Ils affirment que la définition utilisée par ENCODE revient donc à dire qu’il y a des fonctions équivalentes à une télévision immortelle. Rigolo mais bon passons aux choses sérieuses.

Ils sont conscients qu’il peut être difficile de détecter la sélection, qui ne se traduit pas forcément par un ADN parfaitement conservé, mais citent des arguments connus en génétique des populations comme le coût de la sélection sur les mutations dans des régions fonctionnelles (mutational load) pour dire que 80% fonctionnel paraît très invraisemblable en l’état de nos connaissances. Ils citent une étude liée à ENCODE (mais un peu à part) qui trouve au maximum 9% de notre génome sous pression sélective.

Une critique particulièrement dure de la logique d’ENCODE, et probablement correcte est qu’ils les accusent du sophisme (raisonnement erroné) de l’affirmation du conséquent :

  • des régions fonctionnelles du génomes ont une propriété (sont transcrites, l’ADN est accessibles aux enyzmes, etc) ;
  • on trouve beaucoup d’ADN qui a cette propriété ;
  • donc tout cet ADN est des régions fonctionnelles.

Or on sait que tous les processus moléculaires dans une cellule ont une composante stochastique (au hasard quoi), parce qu’on a affaire à très peu de molécules.

Graur et al. critiquent ensuite les 5 principale propriétés utilisées par ENCODE :

  • La transcription, à savoir que l’ADN est copié en ARN qui sert à être traduit en protéines, qui font des choses (enzymes, muscles, tout ça). On sait que des régions non fonctionnelles sont transcrites, notamment les introns, qui sont découpés de l’ARN avant traduction. De même les pseudogènes ou les transposons défaillants, tous transcrits, connus depuis longtemps pour leurs absence de fonction (en tous cas liée à la transcription). A noter qu’on ne dit pas juste que ces choses sont non fonctionnelles parce qu’on ne sait pas ce qu’elles font. Par exemple Graur et al. citent une étude qui a enlevé 96 introns de levures et n’en ont trouvé que 3 qui ont un impact sur la croissance. Or les levures ont un génome beaucoup plus sélectionné que nous, ayant des tailles de population beaucoup beaucoup plus grandes.
  • Les modifications des histones, les protéines qui organisent l’ADN dans la cellule. Une étude de 2010 a trouvé que seul 2% de ces modifications chimiques affectent la fonction d’une manière détectable. On peut avoir raté des trucs, mais dire que toutes ces modifications sont fonctionnelles semble légèrement exagéré en effet.
  • L’ouverture de la chromatine, à savoir que l’ADN est accessible aux protéines. Dans ce cas, ils font une simple affirmation du conséquent, rien à dire de plus.
  • La liaison par des facteurs de transcription, les protéines qui activent ou répressent les gènes. Graur et al ne sont pas convaincus par des sites de liaison détectés de 400 à 800 nucléotides alors que tous les sites de liaison bien déterminés sont de l’ordre de 6 à 14 nucléotides. Ca se discute. Bref.
  • La méthylation du dinucléotide CpG. Bon c’est technique, mais Graur défendent, probablement à raison, que la méthylation est simplement une propriété chimique de CpG et ne dit rien sur la fonction locale de l’ADN.

Une critique très importante, que je traite à part bien que dans le papier elle soit inclue dans le point sur la transcription, est que ENCODE a largement utilisé des cellules tumorales (des cancers en boite de Petri). Il y a une bonne raison pratique : on en a plein, et il y avait besoin de beaucoup de matériel pour faire ENCODE. Mais voilà, dans ces cellules tout est détraqué, et on sait que ni la transcription, ni la structure de l’ADN ne sont comme dans une cellule de notre corps. Non seulement c’est détraqué, mais dans le sense de davantage de transcription et davantage d’activité dans tous les sens. Je confirme, vu que dans mon labo on a essayé d’utiliser ces données et on a du abandonner pour cette raison (pas que ça soit inutile, mais pas utile pour comprendre l’évolution humaine qui nous intéresse).

Une critique un peu technique est qu’apparemment dans leurs statistiques ENCODE a préféré minimiser les faux négatifs (ne rien rater, au risque de détecter des erreurs) que les faux positifs (ne détecter que des trucs corrects, au risque de rater des choses).

Graur et al. discutent de manière assez technique, et correcte (Graur est auteur du livre de référence en évolution moléculaire), des erreurs de biologie évolutive dans la compréhension du « junk DNA » par certains biologistes des génomes. Le plus important à comprendre c’est qu’on ne s’attend pas, sur des bases théoriques solides, à ce que le génome d’organismes à petite population tels que les mammifères (petite par rapport au nombre de bactéries par exemple) soit entièrement fonctionnel, mais au contraire qu’il contiennent beaucoup de choses qui sont inutiles et se sont accumulées par hasard.

Finalement, ils ont une réflexion que je trouve très intéressante sur le contraste entre « grosse science » (CERN, génome humain, etc) et « petite science » (le labo normal où chacun fait ses expériences). Ils proposent que le rôle principal de la grosse science est de générer des données, mais pas de les interpréter, ce qui doit être fait par des chercheurs individuels. Très méchamment, ils disent qu’ENCODE a fait comme les théologiens, ils ont cherché à donner un sens à chaque lettre du texte.

Et pour finir, un peu de ton irrévérent. Ils citent un leader du projet génome humain disant qu’ENCODE est le Google Maps du génome humain, en commentant que non, ENCODE est encore pire que Apple Maps. Puis citent l’adage selon lequel « si c’est trop beau pour être vrai, c’est que c’est trop beau pour être vrai. »

Et le coup de grâce :

The ENCODE results were predicted by one of its lead authors to necessitate the rewriting of textbooks (Pennisi 2012). We agree, many textbooks dealing with marketing, mass-media hype, and public relations may well have to be rewritten.