Archives pour la catégorie éthique

ADN partout 3/3 : lire l’ADN est une technique très générale, aux applications infinies donc inconnues

dilbert_kit

Pourquoi est-ce que la démocratisation et la distribution ubiquitaire potentielle du séquençage d’ADN doivent vous concerner davantage que, disons, des microscopes de poche ou des chromatographes moins chers ? C’est parce que l’ADN est une molécule qui code de l’information. Les types d’informations codés et les usages que l’on peut en faire sont donc extrêmement divers. Ils sont illustrés mais certainement pas listés de manière exhaustive dans le billet précédent. L’ADN est le support de l’information, et c’est à cette information que le séquençage nous donnes accès. Quelque part, c’est aussi général que « savoir lire » : on peut tout lire.

Cette généralité du code donne à la démocratisation potentielle du séquençage d’ADN le potentiel d’applications révolutionaires ou triviales, mais doit en tous cas être compris pour bien être préparé à ce qui arrive. L’ADN contient l’information de la généalogie et du groupe ethnique, des maladies génétiques et des variations normales, des microbes que l’on porte et de ce que l’on a mangé.

Pour être clair : je ne suis pas contre le séquençage d’ADN, j’en fais moi-même  ;). Mais il me semble que nos sociétés avancent vers un avenir proche où le pouvoir de cette approche sera libéré, sans être prêtes du tout. Il y a ceux qui ont peur de tout, et ceux qui n’ont peur de rien. Comment faire pour avoir un débat pertinent et qui ne soit pas trop tard ?

ADN partout 2/3 : Séquençage d’ADN dans vos toilettes et à l’aéroport ?

une BD sympa même si le rapport est distant

une BD sympa même si le rapport est distant : cliquez et lisez

Il semble acquis que le séquençage d’ADN suit une trajectoire similaire à celle de l’informatique, mais en plus rapide (voir billet précédent). Lorsque le prix baisse à ce point, des applications qui étaient inimaginables peuvent devenir routinières. Pour l’informatique on voit ce que ça donne (y pas que les smartphones, quand le réparateur est venu j’ai appris que notre frigo a deux cartes mères…). Et pour le séquençage d’ADN, ça peut donner quoi ?

Un article récent propose justement des réponses à cette question, inspirons-nous en. Avec un grain de sel, l’auteur de l’article est très techno-optimiste, et serait probablement qualifié de scientisme par Cécile Michaut (voir ce billet / débat).

Yaniv Erlich 2015 A vision for ubiquitous sequencing. Genome Res. 2015. 25: 1411-1416 doi:10.1101/gr.191692.115

Yaniv distingue les « plateformes de séquençage » des « senseurs de séquençage ». Une plateforme de séquençage peut être une grosse machine statique, et doit être précise car lire de nouvelles séquences d’ADN inconnues. Un senseur de séquençage doit être petit et rapide, et doit plutôt reconnaître des séquences d’ADN connues.

T1.medium

Alors, quelles applications imagine Yaniv ?

Séquençage à la maison : des appareils domestiques sensibles à l’ADN
–> des toilettes intelligentes ! Bin oui, y a déjà un branchement à l’eau (pour les réactifs chimiques) et une collecte quotidienne de matériel biologique. Et en général il y a de la place en dessous, là où ça prend la poussière. Que peut-on voir dans ce « matériel biologique » ? La flore intestinale, indicateur de santé et plus généralement d’état physiologique. La nouriture (bin tiens), donc un suivi individuel de si on fait bien son régime, encore plus énervant que les sonneries de ceinture pas attachée en voiture et que les montres qui rappellent qu’on n’a pas assez marché. « Vous avez mangé beaucoup de sucreries aujourd’hui, or votre smartwatch me dit que vous avez à peine marché. » L’ADN de la personne, qui normalement ne change pas trop ; mais un cas où il change, ce sont les cancers. Le dépistage très précoce des cancers, ça ça peut être intéressant. On rigole, mais les toilettes sont une piste très sérieuse dans la mesure où il y a très peu de changements à faire à notre maison et à nos habitudes pour que ça marche.

Séquenceur grand public à acheter et utiliser où on veut : j’admets, même si ça devient possible, les applications ne me paraissent pas évidentes. Accessoirement, la régulation d’un séquenceur d’ADN généraliste (pas programmé spécifiquement pour reconnaître la flore intestinale par exemple) ne me paraît pas évidente du tout. Ceci dit, il y a eu beaucoup de réflexions sur ce que les gens accepteraient ou pas avant les smartphones, et quand l’iphone est sorti, on a vu : les gens acceptent tout si ça leur permet de partager des photos de chatons gratos.

Applications médicales et santé : C’est le gros morceau évident. Mais dans les détails, on peut penser à des applications pas si évidentes :
• séquençage rapide aux contrôles de sécurité des aéroports ; Yaniv pense surtout à la détection de maladies contagieuses, pour limiter les épidémies ; tout le monde à part lui se demande s’il fait confiance à la sécurité des aéroports avec son ADN.
• plus évident, le séquenceur portable pour médecins. Obtenir des résultats rapides et fiables sur le terrin, même en cas de crise humanitaire ; ou même à l’hôpital sans délai d’aller-retour à un labo d’analyses.
• et si on branche le séquenceur domestique sur le réseau de l’hôpital ? Des données sur le patient fiables, précises et en temps réel, notamment sur les maladies infectieuses.
• un peu similaire aux contrôles d’aéroport mais peut-être plus faisable (me semble-t-il), un suivi constant de points clés pour connaître la diffusion des maladies, telles que bouches d’aération, points d’épuration d’eau, les systèmes de circulation d’eau de batiments collectifs, etc.
• de même à l’hôpital, un séquenceur qui analyse de petits échantillons à intervalles courts et réguliers, pour un suivi en temps réel des patients.

Applications légales et de sécurité : Ah on rigole moins, là.
• séquençage rapide des « indices ADN » sur la scène même du crime ; admettons, encore qu’il faille avoir accès une base de données de suspects de manière sécurisée sur ledits lieux du crime, ce qui n’est pas évident. Mais ça pourrait je pense permettre d’innocenter rapidement quelqu’un, d’éviter une fausse piste.
• « identification positive de la cible » par les militaires ; permettez-moi d’avoir des doutes sur l’applicabilité pratique dans un contexte militaire de l’attente du résultats d’une analyse ADN.
• identification à la sécurité des aéroports : vous le sentiez venir quand ils mis des séquenceurs pour microbes, hein ? Ce qui est intéressant ceci dit c’est qu’on peut potentiellement identifier une personne sans l’avoir elle-même dans sa bases de données, grâce au partage d’information génétique au sein d’une famille (voir ce vieux billet à moi), par exemple pour retrouver de jeunes fugueurs.
Je me dois à ce point de citer une phrase de l’article (à propos d’identification de noms de familles depuis l’ADN) qui montre à la fois le potentiel des méthodes et (à mon avis) l’optimisme de Yaniv :

With careful implementation that is sensitive to genetic privacy and cultural issues (Kim and Katsanis 2013), such technology at checkpoints could play a role in fighting human trafficking

Oui ça peut marcher avec une mise en place très prudente qui fait très attention à tous les risques et sensibilités culturelles etc, mais ça peut aussi marcher sans. C’est même beaucoup plus facile sans les précautions. Alors, où va-t-on ?

Un point technique à noter sur tous les aspects d’identification d’individus c’est qu’à partir du moment où l’on sait quelle espèce on cherche (contrairement aux pathogènes) et où l’on connait bien la variabilité génétique présente dans l’espèce, bref dans le cas des humains, il y a besoin de peu séquencer pour avoir une identification fiable.

Industrie alimentaire: le séquençage d’ADN peut notamment servir au contrôle qualité :
• intégré dans la chaîne de production.
• spécifique pour des risques connus : champignons vénéneux, niveau de bactéries pathogènes dans la viande, traces d’allergènes, etc.
Par ailleurs, on peut imaginer un système de « code barre » pour authentifier des produits : une séquence d’ADN unique artificielle introduite dans des produits permettant de les reconnaître à coup sûr, pour les éviter ou s’assurer qu’on les a bien obtenus. Au cas où vous pensiez que ce soit difficile, ce type de technique de code barres ADN est utilisé en routine dans de nombreuses expériences de biologie moléculaire.
• codes barres ADN sur les aliments plus toilettes séquenceuses = aide au régime ! Killer app !

Bon c’est sympa tout ça, mais qu’en est-il de la faisabilité ? Parce que même si le prix du séquençage d’ADN baisse, il faut encore le faire. Or à l’heure actuelle il faut quand même préparer les échantillons d’ADN avant séquençage, et cette préparation est relativement longue (autant pour le séquençage en temps réel) et compliquée (autant pour le séquenceur à la maison). Mais : de nouvelles approches en développement promettent de diminuer les étapes de pré-traitement. Il n’est pas inimaginable qu’on puisse diminuer cela à un point où le séquençage ubituitaire devienne réellement praticable. Il faut quand même être conscient que le prix n’est pas la seule limitation. Les réactifs utilisés doivent être pour le moment stockés à différentes températures, souvent +4°C (frigo) ou -20°C (congélo), et se gardent mal. Yaniv propose deux pistes à cela : l’utilisation de réactifs lyophilisés que l’on réhydrate au dernier moment, peut-être même en cartouches toutes prêtes. Et des technologies solides plutôt que liquides, grâce aux nanotechnologies. Là aussi c’est moins science-fiction qu’on ne pourrait le penser, le séquenceur MinION ou la technique de la société BioNano, par exemple, reposent sur des nanopores et une part de nanotechnologie.

Un autre problème pratique est l’analyse des données : les séquences d’ADN sont inutiles sans analyse bioinformatique. On peut mettre le logiciel sur le séquenceur, mais il faut aussi connaître les séquences de référence auxquelles comparer, qui peuvent être très nombreuses (donc prendre beaucoup de place), et qui peuvent n’avoir d’intérêt que si elles sont à jour. On parle beaucoup de « cloud computing », d’envoyer les séquences chez un service via internet qui vous renvoie le résultat du calcul, mais avec les quantités de données que l’on a en séquençage d’ADN il faut prévoir de très bonnes bandes passantes, ce qui limite les applications du type médecine de brousse. Il y a aussi le problème que si le séquençage est rapide et que l’analyse prend 24h, on n’a pas vraiment la réponse de suite. Il faut donc travailler sur des méthodes bioinformatiques permettant une réponse « dès que possible », avec analyse des données en temps réel et rapport dès qu’on a la réponse cherchée (espèce de bactérie, individu recherché, etc). C’est faisable, mais ce sont des défis intéressants.

Il y a d’autres problèmes, statistiques. Par exemple, pour reconnaître un humain d’un groupe très étudié (les européens de l’ouest, au hasard), on aura davantage de résolution que pour une population africaine très peu étudié. Du coup, les chances de se tromper d’individu jusque parce qu’il a la bonne (ou la mauvaise) ethnicité se posera. Pour la microbiologie, reconnaître une espèce que l’on soupçonne être présente (E. coli dans la nourriture non traitée) est facile, reconnaître n’importe quelle espèce quand on ne sait pas ce que l’on cherche, et qu’on ne connait qu’une petite partie de toutes les espèces existantes, et nettement plus difficile.

Et bien sûr, il y a les implications « éthiques, légales et sociales ». On sent bien dans le papier que ce n’est pas ce qui intéresse Yaniv le plus, et peut-être a-t-il raison dans la mesure où son travail est d’explorer ce qui est techniquement possible, mais ça m’a quand même un peu mal à l’aise en lisant un papier par ailleurs très intéressant. D’autant que ces implications peuvent être le plus grand obstacle à la mise en place des solutions qu’il imagine.

D’abord, il existe dans de nombreux pays des lois interdisant ou complicant la collecte d’échantillons humains. Il faut noter qu’en fait nous laissons tous des échantillons partout derrière nous tout le temps, la question est donc leur usage délibéré. L’ADN humain est partout.

Yaniv suggère des messages d’avertissement aux utilisateurs, ou des mécanismes de suppression des séquences lues dès qu’elles ont été analysées, voire de suppression des séquences humaines avant analyse lorsque l’on cherche des séquences bactériennes (par exemple). Mouais, parce qu’on sait que tout le monde lit attentivement les messages d’avertissement des logiciels, apps, pages web, et smartphones que nous utilisons. Et nous faisons totalement confiance à Facebook, Ashley Madison, et demain Nesté ou la sécurité des aéroports, pour effacer les données compromettantes ou personnelles.

Un petit exemple de problème de vie privée pour finir : si des toilettes « intelligentes » peuvent lire l’ADN, elles peuvent savoir si quelqu’un d’extérieur à la famille est venu et a utilisé les toilettes, voire si cette personne vient régulièrement, par exemple quand l’un des partenaires d’un couple est absent…

Bref, tout est possible et rien n’est résolu.

Tout se qui est possible sera-t-il fait ? Brève sur l’édition de génomes humains #GeneEditSummit

cliquez pour des savant fous et solitaires

cliquez pour des savant fous et solitaires

Il y a une conférence en cours sur les aspects éthiques de l’édition de gènes et génomes humains. Ca a notamment été couvert par Le Monde (payant). La conférence a été organisée parce que la technique CRISPR/Cas9 (voir ici et ici) et ses dérivés permettent des modifications aisées des génomes. Et si c’est possible chez la souris ou le cochon, c’est possible chez l’humain (voir ici et ici).

Je ne vais pas écrire longuement sur le sujet maintenant, mais juste noter le tweet suivant de Paul Knoepfler, chercheur et blogueur sur les cellules souches (on a parlé de son blog ipscell ici) :

Philip Campbell est l’éditeur en chef de Nature, le journal scientifique le plus prestigieux de la planète. Et ce qu’il nous dit c’est que (1) des scientifiques font des expériences d’édition de lignée germinale (spermatozoïdes et ovules) humains, (2) ils soumettent les résults à Nature, (3) Nature refuse, (4) parce qu’ils n’ont pas suivi les règles éthiques du journal.

Il parait difficile d’en conclure autre chose que « si c’est faisable, ça sera fait ». Et que nos commentaires éthiques n’y changeront pas grand chose. Mais peut-être suis-je trop pessimiste. En tous cas, ça me parait un problème autrement plus urgent que les sempiternelles bisbilles autour des OGM en agriculture.

Voir aussi ce tweet par exemple, George Church étant un généticien très connu et favorable au laissez faire en la matière :

Je recommande de regarder les « top tweets » si vous êtes intéressés : https://twitter.com/hashtag/GeneEditSummit

Cellules souches à l’acide, c’est fini. Quelles conséquences pour la recherche et le rôle des réseaux sociaux?

Cliquez sur l'image

Cliquez sur l’image

Bin voilà, c’est fini. La grande promesse des cellules souches miracles obtenues rapidement pas cher (voir ce billet) est enterrée par le journal qui l’a publiée : Nature a retiré les deux papiers et le commentaire enthousiaste publié en même temps (voir aussi ce billet).

Je suis sur que beaucoup de choses vont être dites et écrites sur ce bazar, mais je voudrais juste revenir ici sur le rôle des médias sociaux, et l’interaction avec la publication classique (voir ce billet pour les types de publication). Pour simplifier, je vais partir du résumé sur le site retractionwatch et de l’excellent blog ipscell.

On rappelle que de nombreux lecteurs (biologistes) du papier ont remarqué et rapporté très rapidement des problèmes potentiels. Mais Nature dit que l’expertise avant publication (peer review) n’aurait pas pu le détecter. Comment cela se fait-il ? Des experts aguerris ne peuvent pas voir ce que voient des doctorants qui lisent le papier ?

En tous cas, Nature dit qu’ils vont maintenant faire plus attention aux figures. Vrai ? Chiche ? Parce qu’à l’heure d’internet, et contrairement aux bons journaux spécialisés, ils ne demandent toujours pas les photos originales en haute définition apparemment. Et ils ont quand même une phrase très étrange dans leur éditorial :

When figures often involve many panels, panels duplicated between figures may, in practice, be impossible for journals to police routinely without disproportionate editorial effort

Euh, le journal scientifique le plus célèbre du monde, dont les abonnements sont très chers, trouve que c’est trop de boulot de vérifier qu’il n’y a pas d’images dupliquées dans les articles qu’ils acceptent ? Et on nous fait ch..r avec les soit-disant problèmes de qualité de PLOS One ?

Et le point où je veux en venir : dans cet éditorial, Nature ne met pas en avant le rôle clé qu’ont joué les réseaux sociaux et les scientifiques qui y sont actifs. Ce sont des forums anonymes et des billets de blog qui ont pointé les problèmes, qui ont rapporté les tentatives de reproduction, et qui ont poussé à une réaction finalement assez rapide des instituts concernés, et d’abord le RIKEN au Japon (Harvard a été nettement moins réactif). Et ensuite Nature a réagi à l’enquête du RIKEN, mais sans ces médias sociaux, il est douteux que cela se soit passé aussi vite.

Et c’est à nouveau très important : comme discuté dans de précédents billets, les articles qui font sensation, qui rapportent des résultats très surprenants et/ou très intéressants, souvent dans de grandes revues un peu « magazine » comme Nature ou Science, sont maintenant sous le scrutin public de milliers de scientifiques pas forcément prestigieux, qui n’auraient pas voix au chapitre s’ils devaient attendre que Nature ou autre leur demande leur avis, mais qui sont rigoureux et passionés et ne laissent pas passer les bétises. Je pense que Nature en a conscience, et ne voit pas cela comme un progrès, avec leurs éditeurs professionnels et leurs abonnements hors de prix. Mais pour la science, pour la communauté scientifique, et pour la confiance que vous pouvez nous faire au bout du compte, je pense que c’est bien un progrès.

Discussion #FacebookExperiment, la suite

Cliquez sur l'image pour un quizz : how addicted to Facebook are you?

Cliquez sur l’image pour un quizz : how addicted to Facebook are you?

Suite à la découverte par internet le week-end dernier que Facebook avait publié une étude manipulant leurs utilisateurs, il y a eu beaucoup de discussions, et les débats reviennent pour l’essentiel à deux positions :

  • c’est inacceptable de manipuler les gens, et l’acceptation des conditions générales d’utilisation ne vaut pas consentement ;
  • pourquoi en faire toute une histoire ? de toutes façons la publicité, Google, et l’usage habituel de Facebook, nous manipulent bien plus tout le temps, et rien de plus grave que ça n’a été fait.

Voir par exemple (en français) le forum linuxfr ou la position de l’Agence Science Presse, ou (en anglais) le forum Slashdot.

Le commentaire de Pascal Lapointe (de l’ASP) sur le billet précédent apporte un éclairage intéressant : il distingue l’obligation absolue de consentement éclairé, d’une obligation peut-être moins évidente en sciences sociales. Mais il se trouve que le blog Pharyngula cite les principes de l’association américaine de psychologie, qui dit clairement que le consentement éclairé est nécessaire, dans des termes aisément compréhensibles.

De plus, les auteurs de l’étude en sont conscients, puisque premièrement ils disent qu’ils ont ce fameux consentement dans l’article, et deuxièment, et très grave, ils ont rajouté la mention d’études scientifiques dans les termes d’usage de Facebook… après l’étude ! (via The Guardian.) L’article lié note aussi que des mineurs ont pu participer à l’étude, ce qui est normalement très très encadré.

Ca me semble vraiment un aspect très grave de cette affaire. Ils savaient que le consentement éclairé était nécessaire, et ils ne l’ont pas fait. A mon sens, ceci devrait conduire à la rétraction de l’article dans PNAS.

Concernant l’argument « mais on se fait manipuler tout le temps ». On est sensé en être informé. La publicité est séparée de l’information, et marquée en tant que telle. Il est malhonnête, et dangereux, de présenter de la publicité comme de l’information. Or ici Facebook n’a pas « manipulé » les gens sensu publicité, ils ont modifié les nouvelles que des personnes recevaient d’autres personnes, à leur insu, et à des fins d’observer leurs réactions. C’est très différent de la publicité, y compris celle sur Google et Facebook. (Et si vous voulez dire qu’en général Facebook est dangereux… bien d’accord, je n’y suis pas.)

Je remarque cet argument surtout de la part de geeks / informaticiens qui connaissent bien le monde des géants de l’internet, et nettement moins le monde aux règles stringentes de la recherche. Ces règles ont des raisons historiques : il y a eu des abus, et on veut les éviter. C’est pas parce que le web est jeune qu’il peut ignorer cette histoire.

Un excellent article dans le New York Times fait remarquer un autre point : parmi les 700’000 personnes manipulées à leur insu, on n’a aucun moyen de savoir combien étaient dépressives ou suicidaires (et voir ci-dessus sur la possibilité que des adolescents aient participé). Lorsqu’il y a un consentement éclairé et un dispositif expérimental standard, les personnes à risque sont écartées de l’étude. Il peut y avoir des personnes suicidées ou internées suite à cette étude, comment le saurions-nous ? Les 700’000 n’ont toujours pas été informées qu’elles aient participé.

Pour finir sur une note plus légère, j’ai redécouvert via linuxfr un site qui présente les conditions d’utilisation de différents services internet sous forme aisément compréhensibles : cliquez sur l’image ci-dessous. Un excellent service !

facebook_tosdr

Mise à jour importante : le journal PNAS a ouvert les commentaires (via Pascal Lappointe). L’étude et son éthique sont défendues par l’auteur sénior de l’étude mentionnée dans mon précédent billet, qui a manipulé la mobilisation politique des gens durant une élection. Les autres intervenants ne sont pas d’accord avec lui. Moi non plus, pour les raisons expliquées ci-dessus.

Vous utilisez Facebook, vous êtes donc volontaire pour être manipulé expérimentalement #FacebookExperiment

cliquez sur l'image

cliquez sur l’image

[Si vous tombez sur ce billet maintenant, sachez qu’il y a une suite ici.]

Je ne sais pas pourquoi on se fait ch..r dans les hopitaux universitaires du monde entier à réfléchir à des consentements éclairés qui couvrent tous les cas de figure tout en permettant aux patients de comprendre de quoi il retourne avant de donner leur sang. Facebook et le journal de l’académie américaine des sciences (PNAS = Proceedings of the National Academy of Sciences USA) viennent de nous montrer que ce n’est absolument pas nécessaire. On peut apparemment manipuler les gens expérimentalement comme bon nous semble du moment qu’ils ont signé un accord de « conditions générales d’utilisation« , vous savez le long truc légal sur lequel vous cliquez toujours « oui » pour accéder à la suite.

Dans une étude publiée le 17 juin dans PNAS donc, les gens de Facebook ont fait exactement ça : manipuler les gens puisqu’ils étaient apparemment d’acord, ayant signé les CGU (EULA en anglais). L’étude a commencé à faire pas mal de bruit à ce que j’ai vu ce week-end, et voici ce que j’en sais pour le moment. (Ca y est, pendant que je préparais le billet ça a atteint les médias français.)

D’abord, le papier est open access, donc vous pouvez le lire : Kramer et al 2014 Experimental evidence of massive-scale emotional contagion through social networks PNAS 111: 8788–8790.

Quand on dit qu’ils ont manipulé les gens, voici un extrait de l’article :

The experiment manipulated the extent to which people (N = 689,003) were exposed to emotional expressions in their News Feed. This tested whether exposure to emotions led people to change their own posting behaviors, in particular whether exposure to emotional content led people to post content that was consistent with the exposure—thereby testing whether exposure to verbal affective expressions leads to similar verbal expressions, a form of emotional contagion. People who viewed Facebook in English were qualified for selection into the experiment.

Mais la phrase clé est celle-ci :

it was consistent with Facebook’s Data Use Policy, to which all users agree prior to creating an account on Facebook, constituting informed consent for this research.

En d’autres termes, ils ont manipulé les gens à des fins expérimentales en considérant que le fait d’avoir accepté les conditions générales d’utilisation de Facebook suffit comme consentement éclairé (si si ils écrivent « informed consent »). Ceci alors que celles de Facebook sont connues pour être particulièrement peu claires et succeptibles de changer.

Autre truc bizarre : l’étude a été faite par des personnes affiliées à Facebook, et ils déclarent no conflict of interest. Il me semble que Facebook les paye, et bénéficie des résultats de cette étude, non ?

Il y a un énorme débat en anglais que je n’ai pas lu ici, pour ceux qui ont le temps. Aussi à l’heure où j’écris ces lignes, la discussion démarre juste sur PubPeer, un forum dédié aux problèmes avec les articles scientifiques. Et beaucoup d’activité (avec comme d’hab pas mal de bruit) sur Twitter sous #FacebookExperiment (mais peu en français pour autant que je vois). Un bon point de vue sur le blog Pharyngula aussi (qui cite notamment des passages clés des instructions aux chercheurs). Oh et un autre point de vue documenté intéressant ici.

Un échange que je trouve éclairant sur Twitter :

ToU = terms of use. Les deux sont des chercheurs en génomique / bioinformatique. Et justement en génomique on a de gros problèmes avec le consentement éclairé, parce qu’on a souvent des possibilités techniques qui apparaissent en cours d’expérience qui n’existaient pas au départ, donc il est très difficile d’informer. Quand je pense que je me suis embêté dans des discussions avec des avocats et philosophes sur le sujet (et je ne travaille même pas directement avec des données cliniques), alors qu’il suffisait de leur faire signer un accord général d’utilisation de la médecine qui dise en petit « et on fera ce que bon nous semble avec vous, vos données et votre santé », signez ou vous ne serez pas soignés. Trop facile.

Yaniv Erlich continue à défendre l’étude, ou en tous cas à critiquer ses critiques, sur Twitter. Il a notamment fait remarquer les articles plus anciens suivants, qui manipulent aussi les utilisateurs Facebook :

Aral & Walker 2012. Identifying Influential and Susceptible Members of Social Networks. Science 337: 337-341

Dans celui-ci ils ont recruté des utilisateurs par publicité à utiliser une application de partage d’opinions sur le cinéma. Je ne trouve nulle part dans l’article ou les méthodes supplémentaires de mention de « consent » (informed ou pas). Par contre la manipulation n’était pas directe : ils ont juste observé a posteriori comment les gens étaient influencés par les opinions de leurs amis, mais ces opinions étaient authentiques.

Bond et al. 2012. A 61-million-person experiment in social influence and political mobilization. Nature 489: 295–298

Ici c’est plus inquiétant, ils ont envoyé ou pas à des gens des messages de mobilisation politique pendant des élections, pour voir s’ils iraient davantage voter, avec un recrutement qui rappelle celui de l’expérience récente de Facebook :

To test the hypothesis that political behaviour can spread through an online social network, we conducted a randomized controlled trial with all users of at least 18 years of age in the United States who accessed the Facebook website on 2 November 2010, the day of the US congressional elections. Users were randomly assigned to a ‘social message’ group, an ‘informational message’ group or a control group. The social message group (n = 60,055,176) was shown a statement at the top of their ‘News Feed’. This message encouraged the user to vote, provided a link to find local polling places, showed a clickable button reading ‘I Voted’, showed a counter indicating how many other Facebook users had previously reported voting, and displayed up to six small randomly selected ‘profile pictures’ of the user’s Facebook friends who had already clicked the I Voted button (Fig. 1). The informational message group (n = 611,044) was shown the message, poll information, counter and button, but they were not shown any faces of friends. The control group (n = 613,096) did not receive any message at the top of their News Feed.

A nouveau, aucune mention du terme « consent« . Juste ceci dans les méthodes supplémentaires :

The research design for this study was reviewed and approved by the University of California, San Diego Human Research Protections Program (protocol #101273).

C’est un peu court, jeune homme ! On pouvait dire… Oh ! Dieu !… bien des choses en somme sur le fait d’inciter ou décourager des gens de voter dans une élection fédérale.

Finalement, Yaniv signale celui-ci, qui ne manipule pas à proprement parler les utilisateurs, mais étudie juste l’effet d’un changement dans Facebook, qui proposait aux gens d’afficher leur statut de donneur d’organes, ce qui me parait légitime :

Cameron et al. 2013. Social Media and Organ Donor Registration: The Facebook Effect. American Journal of Transplantation 13: 2059–2065

Continue la lecture

Comment écrire un mauvais article : tests multiples, corrélation = causalité, et communiqué de presse mensonger

Cliquez sur l'image

Cliquez sur l’image

Lior Pachter, le lonely cow boy de la bioinformatique, a dégainé à nouveau il y quelques temps (j’ai pris du retard dans la rédaction de billets), mais pour changer il n’a pas attaqué un gros joueur de la bioinformatique (voir ce bilet et celui-ci), mais un article qui a fait pas mal de bruit en début d’année aux Etats-Unis :

J.M. Gilman et al.Cannabis Use Is Quantitatively Associated with Nucleus Accumbens and Amygdala Abnormalities in Young Adult Recreational Users, Neurology of Disease, 34 (2014), 5529–5538.

D’après le communiqué de presse et les interviews de l’auteur, l’article montrerait que même une consommation faible de marijuana cause des lésions au cerveau. C’est possible que ce soit le cas, mais le papier ne montre pas cela. Je vous fais un résumé des erreurs, pour le détail lisez le billet (en anglais) de Lior.

  • Echantillonage faible et biaisé : seulement 20 personnes, et les personnes présentées comme fumeurs occasionnels fumaient en moyenne plus de 10 joints par semaine. On n’a pas la même définition d’occasionnel que l’auteur apparemment.
  • Tests multiples mal corrigés : plus de 120 tests, sans correction appropriée (rappel : quand on fait plein de tests, certains apparaissent significatifs par hasard, sauf si on corrige de manière appropriée). Pire, des tests qui ne passent même pas les critères insuffisants des auteurs sont quand même discutés comme s’ils étaient significatifs, et mis en gras dans les tableaux.
  • Bien sur, les données ne sont pas disponibles, donc on ne peut rien vérifier.
  • Des résultats pas significatifs dans l’article sont discutés comme significatifs par l’auteur dans la presse.
  • Au final, même si tout était bien fait (et rien ne semble l’être), l’étude ne pourrait montrer qu’une association corrélative, avec une causalité inconnue. Mais l’auteur a conclut sur une causalité.

Pourquoi est-ce que je discute ceci malgré mon retard à réagir ? Parce que les mêmes mécanismes sont à l’oeuvre dans de nombreux cas où une étude isolée est utilisée pour appuyer une position qui a un certain appui social.

La saga des cellules souches continue à nous éclairer sur le fonctionnement de la science (à défaut de celui des cellules)

Cliquez sur l'image

Cliquez sur l’image

Bon alors l’histoire des cellules souches magiques, ça ne s’améliore pas (1ère partie, 2ème partie). Un des auteurs, Teru Wakayama, appelle l’article à être retiré, la 1ère auteure (Haruko Obokata, qui a fait les manips) demande à ce que sa thèse soit rétractée, que du bon. Et l’institut où les manips ont été en grande partie faites, le RIKEN au Japon, dit en conférence de presse qu’ils « ne peuvent pas conclure que les résultats sont totalement faux ». La confiance règne. Suivez tout en anglais sur l’excellent blog http://www.ipscell.com de @pknoepfler.

Dans ce nauvrage en temps réel, ce qui est intéressant à observer c’est la dynamique sociale du fonctionnement de la communauté scientifique. Quand on apprend la science, au niveau le plus simple, on apprend que les scientifiques sont très critiques, font très attention, remettent en cause leurs hypothèses dès que ça cloche, etc. Puis dans un deuxième temps, si on s’y intéresse, on apprend que non les scientifiques y en a des arrogants et des égoïstes, certains sont aveuglés par leurs préjugés et d’autres attachent leur carrière à une hypothèse et ne veulent plus en démordre, y a des vieux qui ne veulent pas des nouvelles méthodes et des jeunes qui répètent les erreurs passées par ignorance… Et si on arrête là, on a une bien piètre image de la science.

Le truc, c’est que tout ça c’est vrai, mais que ce qui importe c’est la manière dont fonctionne la communauté scientifique. La recherche scientifique, malgré les Géo Trouvetout populaires de la BD aux films et aux livres, est une oeuvre et une aventure collectives. Ce qui importe, ce n’est pas si un individu admet ou pas s’être trompé (bien que ça soit mieux s’il le fait), c’est si la communauté reconnaît l’erreur et agit en conséquence. A savoir, corrige les hypothèses et met en place de nouveaux tests.

Dans le cas des cellules souches, on a de tout :

  • Comme dit ci-dissus, Obokata n’a pas (pas encore ? à ma connaissance) déclaré l’étude non valide, mais elle déclare sa thèse sur le sujet non valide, une démarche très rare et relativement radicale.
  • Comme aussi dit, un des co-auteurs appelle les papiers à être rétractés, donc à admettre qu’ils ne rapportent pas l’évidence qu’ils disent rapporter.
  • Par contre l’auteur sénior, le chef de l’étude, Vacanti, maintient mordicus que c’est valide.
  • Le RIKEN, où travaille Obokata, a démarré une enquête interne, communique en permanence, et fait preuve d’une grande transparence (apparente au moins) dans sa recherche de la vérité. On peut craindre qu’ils ne visent à transformer Obokata en bouc émissaire (chèvre émissaire pour une femme ?) de cette histoire, mais au moins ils font quelque chose.
  • Harvard, où une partie du travail a été fait, se tait. Donc à notre connaissance ne fait pas d’enquête comme le RIKEN.
  • Certains chercheurs sur les cellules souches, comme détaillé précédemment, cherchent à établir collectivement la reproductibilité des expériences, et communiquent ouvertement sur les problèmes découverts.
  • Pendant ce temps, d’autres chercheurs bien établis dans le monde des cellules souches trouvent tout ce déballage de bien mauvais gout, et préféreraient que le linge sale soit lavé en famille. Ce qui pourrait bien entendu être l’occasion d’affirmer au monde qu’il n’est pas si sale que ça, et surtout éviter que l’on constate du linge sale dans d’autres labos je suppose.

Nous voyons donc en direct live la nature auto-correctrice de la science, et les résistances locales que cette auto-correction suscite toujours. Les pessimistes se focaliseront sur le verre à moitié vide : le silence d’Harvard, l’entêtement de Vacanti, les réticences de certains pontes à discuter de cette histoire. Les optimistes se focaliseront sur le verre à moitié plein : le démontage du papier et les nombreuses tentatives de reproduction des expériences en quelques semaines à peine, les discussions publiques jusque dans les pages de Nature et de certains journaux grand public (surtout au Japon), la réaction ouverte du RIKEN, la prudence aussi des critiques. Moi je vois le verre plus qu’à moitié plein : c’est important de ne pas se focaliser sur les faiblesses d’une personne ou une autre, mais de voir le fonctionnement communautaire. (Et aussi d’être très critique quand dans certains cas une communauté scientifique disfonctionne, mais c’est nettement plus rare.)

Pour mille balles, t’as un génome humain

cliquez sur l'image

cliquez sur l’image

Announce fracassante cette semaine dans le monde du séquençage d’ADN : la société Illumina, leader du domaine, va commercialiser deux nouvelles machines : le NextSeq 500, qui vise le marché des « petits » clients, et le HiSeq X 10, qui vise au contraire les très gros centres. (Pour le contexte du séquençage ADN moderne, je vous recommande ce billet sur le blog BiopSci.)

Le NextSeq 500, c’est pour reprendre le marché de l’entrée de gamme apparemment, notamment par rapport à Ion Torrent. D’après un blog généralement bien informé le NextSeq tuerait Ion Torrent, mais à $250’000 contre $80’000 pour Ion Torrent ça ne me paraît pas si évident.

Mais le plus important dans cette annonce est le X10. Illumina promet avec cette machine de passer la barre symbolique des $1000 pour un génome humain. Mais il faut y mettre le prix du ticket d’entrée : il faut acheter minimum 10 machines, et pour que ça vaille le coup, il faut les faire tourner en permanence. Dans ces conditions, vous séquencez 18’000 génomes par an. Le prix inclut également le logiciel pour analyser les données, et donc ce que vous obtenez c’est les variations entre humains : ce qui dans notre ADN fait que chacun de nous est unique (pas encore clair pour moi si c’est seulement les mutations d’une base, ou aussi les gros changements). Ces variations peuvent être déjà connues ou nouvelles, cela peut être un génome sain ou tumoral. Par contre, grosse limitation, le logiciel limite l’usage à l’humain seulement. Ceci alors que la technique est clairement applicable telle quelle à n’importe quelle espèce, de l’ADN c’est de l’ADN.

Point intéressant, les $1000 comprennent l’amortissement de la machine et les personnels pour la faire fonctionner, donc c’est pour de vrai. Par contre les scientifiques ou médecins pour interpréter les résultats, c’est autre chose. D’ailleurs c’est là que le goulot d’étranglement risque d’être, et partout dans le monde on pousse à intégrer davantage la génomique et la bioinformatique au cursus des médecins.

Illumina annonce donc avoir ajouté un nouveau point au graphe de la décroissance du coût du séquençage, nettement plus rapide que la décroissance du coût informatique (loi de Moore) depuis quelques années déjà :

moore_illumina

Image prise dans la doc publicitaire d’Illumina, donc je ne garanti pas la véracité, surtout du dernier point (ajouté par eux)

A noter qu’avec cette annonce pas mal de collègues commencent à s’inquiéter de la situation de quasi-monopole, ou en tous cas de très forte dominance (style Google ou Facebook), d’Illumina sur le séquençage d’ADN. Ce n’est pas trivial, il s’agit de lire nos génomes, d’obtenir des informations sur les mutations médicalement pertinentes ou la biodiversité. Un point qui me dérange depuis l’arrivée des nouvelles technologies de séquençage c’est qu’elles sont toutes basées sur des protocoles propriétaires auxquels on est obligés de faire confiance. Dans l’autre sens, quand un système comme Illumina domine suffisamment longtemps (c’est aussi le cas d’Affymétrix dans un autre domaine de biologie), les alternatives logicielles et statistiques ouvertes et potentiellement concurentes voient le jour et sont testés et améliorées (voir billet sur les méthodes bioinformatiques en génomique).

Alors à quoi vont servir ces machines ? Des petits pays ont déjà annoncé leur ambition de séquencer les génomes de toute la population, comme les îles Faroe, et la Grande Bretagne et l’Arabie saoudite veulent séquencer 100’000 patients chacun. On se rapproche du séquençage du génome de chaque nouveau-né à la naissance. Bien sur, ça n’est pas parce qu’on peut le faire qu’on doit le faire (voir billet sur les limites de la science). Mais clairement, on le peut. Il est temps d’ouvrir sérieusement la discussion pour savoir si on doit le faire.

En tous cas, GATTACA GATACA approche à grands pas, que nous soyons prêts ou non.

Les méthodes bioinformatiques utilisées en génomique sont importantes #methodsmatter #BigScience

cliquez sur l'image

cliquez sur l’image

A l’occasion du projet ENCODE, j’ai déjà évoqué les avantages et inconvénients de la Big Science en biologie (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). Il y a en ce moment un débat très animé sur blogs et Twitter, concernant une question importante sur ces gros projets : les méthodes bioinformatiques utilisées.

Cela a commencé par ce billet de Lior Pachter, suivi de ce commentaire de Jeff Leek, et ce droit de réponse sur le blog de Lior. Si la question vous intéresse, je vous conseille fortement de lire non seulement les billets mais les commentaires. Il y a également une discussion Twitter intense, avec notamment les tweets de Lior, de Manolis Dermitzakis, et de Tuuli Lappalainen, et les hashtags #GTEx et #methodsmatter. La discussion comprend du beau monde en génomique et en bioinformatique. Quel est le débat ?

La discussion porte sur l’analyse de données de RNA-seq. Les gènes s’expriment (sont actifs) en étant transcrits en ARN. Plus un gène est actif, plus il y a d’ARN. Dans le RNA-seq, on séquence (on lit) des tas de petits morceaux d’ARN. On a davantage de morceaux lus pour les ARN correspondant aux gènes plus exprimés. Bon résumé de la méthode dans deux billets du site Bioinfo-fr : Analyse des données de séquençage à ARN et L’analyse de données RNA-seq: mode d’emploi. Ce deuxième fait aussi apparaître certains des soucis qu’on peut avoir.

Lior Pachter a remarqué que plusieurs gros projets, certains publiés comme ENCODE, d’autre encore en cours comme GTEx, utilisent une méthode bioinformatique de traitement du RNA-seq qui n’a jamais été publiée en tant que telle, donc n’est pas décrite formellement, n’a pas été évaluée, et n’a jamais été utilisée hors dédits consortiums (les auteurs de la méthode sont membres des consortiums Big Science en question). Il a essayé de comprendre la méthode (et Lior n’est pas un nul, il est notamment auteur de la méthode la plus utilisée, CuffLinks), sans grand succès, puis il l’a testée empiriquement sur les données de GTEx, parce que c’est ça qui l’intéressait. Et d’après ses tests, la méthode n’a que 10% du pouvoir statistique des méthodes plus habituellement utilisées dont il est l’auteur. Ce qui l’a conduit à écrire un billet de blog au titre provocateur « GTEx jette 90% de ses données ».

Dans la discussion qui s’en est suivie, il y a plusieurs éléments. L’un est une défense spécifique de GTEx. Manolis fait remarquer à juste titre qu’ils n’ont pas encore publié leurs résultats, donc qu’il est un peu tôt pour critiquer leurs choix méthodologiques, et note aussi que (1) ayant beaucoup beaucoup de données, ils ont du prendre en compte l’efficacité computationnelle des méthodes (à savoir que CuffLinks plantait leurs ordinateurs apparemment), et (2) ils avaient contacté la bande à Lior pour avoir de l’aide, sans succès.

Un élément plus important pour moi est le rôle en effet des méthodes bioinformatiques dans de tels projets. Cela implique plusieurs niveaux. Le projet Big Science est sensé fournir des resources (des données réutilisables) et des conclusions biologiques. Si on ne comprend pas les méthodes, si elles ne sont pas connues et reconnues par ailleurs, alors (1) cela limite la réutilisation, et (2) cela diminue notre confiance dans leurs résultats. Ainsi dans mon labo on essaye d’utiliser les données RNA-seq d’ENCODE, mais ils ont utilisé la même méthode dont discute Lior, et cela nous gène pour faire confiance dans les données prétraitées qu’ils nous fournissent, sans compter que des membres de l’équipe ont perdu pas mal de temps à essayer de comprendre quelque chose qui n’était juste pas bien expliqué. Et du coup, on a du mal à reproduire des résultats sur lesquels on aimerait construire.

A  noter que Lior avait aussi écrit une critique d’ENCODE, disponible sur ArXiv seulement.

Certains ont répondu à la discussion que peu importe, nous embêtent les bioinformaticiens, toutes les méthodes donnent les mêmes résultats. D’où le hashtag #methodsmatter de Lior, et sa réponse ironique « toutes les données me donnent les mêmes résultats » (vu d’avion, c’est presque vrai). Et là je suis complètement d’accord avec Lior. Bien sûr, pour trouver que la myosine est exprimée dans le muscle, peu importe la méthode. Mais pour associer des formes différences de l’ARN d’un même gène à des variations inter-individuelles dans l’ADN régulateur proche du gène, et autres subtilités qui sont l’essentiel du message biologique que l’on cherche avec ces très gros jeux de données, oui cent fois oui les méthodes comptent, et c’est limite irresponsable de suggérer autrement. Il faut rappeler que (1) les gros jeux de données coutent cher, donc on veut en tirer le signal maximum, d’où l’importance de méthodes statistiques puissantes, et (2) la définition d’un biais c’est une méthode qui converge avec une confiance croissante vers un résultat faux lorsqu’on a plus de données. Donc gros jeux de données = importance de faire attention aux biais.

Finalement un point important à retenir de cette discussion, comme celle qui a suivi la publication d’ENCODE, c’est que grâce aux blogs et à Twitter ces gros projets se font sous la supervision de plus en plus proche et réactive d’une communauté qui n’a pas peur de faire connaître ses critiques, et que ces mêmes plateformes permettent aux scientifiques des gros projets de répondre, créant un dialogue constructif. Et ça c’est une très bonne nouvelle pour le progrès de la recherche en biologie et en sciences en général.

Note de dernière minute : il vient de sortir une grosse évaluation des méthodes RNA-seq, que je n’ai pas encore lue (communiqué de presse avec liens vers papiers – accès fermés), mais qui semble trouver que CuffLinks (de Lior) marche bien.

Mise à jour : de manière suprenante, les papiers de l’équipe GTEx, ENCODE, et ces évaluation de méthodes RNA-seq sont affichés comme reliés par l’EBI (voir communiqué de presse ci-dessus), pourtant l’évaluation n’inclut pas la méthode Flux Capacitor utilisée par ENCODE et GTEx. Cela semble moyennement cohérent a priori, mais je continue à suivre la discussion. A noter aussi qu’à la lecture, CuffLinks ne semble pas forcément en effet la meilleure méthode.