Archives pour la catégorie bioinformatique

Séquençage de virus en temps réel sur le terrain : ça arrive pour Ebola

Fin 2015 je vous ai embêté avec les promesses du séquençage de l’ADN partout tout le temps facile pas cher. Un billet ultra rapide pour dire que ça y est, ça arrive pour de vrai :

Quick et al (centaine de co-auteurs) 2016 Real-time, portable genome sequencing for Ebola surveillance Nature doi:10.1038/nature16996

Je cite, ça vaut le coup :

In April 2015 this system was transported in standard airline luggage to Guinea and used for real-time genomic surveillance of the ongoing epidemic. We present sequence data and analysis of 142 EBOV samples collected during the period March to October 2015. We were able to generate results less than 24 h after receiving an Ebola-positive sample, with the sequencing process taking as little as 15–60 min.

Voilà, on peut amener le séquenceur dans ses bagages, aller sur le terrain, et obtenir des séquences d’ADN permettant d’identifier les souches et les mutations dans les 24h, dont moins d’une heure de séquençage proprement dit.

en a, les bagages, en d, le labo. voilà.

en a, les bagages, en d, le labo. voilà.

Pas pour prêcher pour ma paroisse, mais la mise au point d’une bonne méthode bioinformatique a été clé pour que ça soit utile. Avec ça, ils peuvent par exemple tracer l’évolution du virus en temps presque réel :

nature16996-f3

Seule point à noter, dans ce cas leur protocole dépendait du fait qu’ils connaissaient déjà le virus, afin de l’amplifier in vitro. Si ce n’est pas le cas, ça sera possible aussi, mais plus compliqué, car il faudra séquencer de plus petites quantités d’ADN.

Vent de folie dans les journaux scientifiques: 2- halte aux parasites qui osent analyser les données

Après le dogme cladiste issu du fond des ages, un nouvel épisode de « maman j’ai raté le 21ème siècle », avec l’éditorial du New England Journal of Medicine du 21 janvier. Contrairement au journal Cladistics (voir billet précédent), NEJM est très connu et reconnu, l’un des plus prestigieux de la recherche en médecine :

Dan L. Longo, M.D.*, and Jeffrey M. Drazen, M.D.* Data sharing N Engl J Med 2016; 374:276-277
* M.D. = medical doctor, parce que pour les chercheurs en médecine les titres sont souvent importants ; no comment.

Que dit l’éditorial (j’ai mis une version rapidement annotée sur Dropbox ici) ? Après avoir dit quelques mots sur la beauté théorique du partage des données, ça se gâte :

The first concern is that someone not involved in the generation and collection of the data may not understand the choices made in defining the parameters.

Les éditorialistes s’inquiètent de ce que des chercheurs n’ayant pas participé à la collecte des données ne comprennent pas les subtilités de ces données, et donc les interprètent mal. Donc ils pensent que le rapport des méthodes dans les articles, et les informations fournies avec les données, ne suffisent pas à comprendre ce qui a été fait ? C’est très inquiétant. En science, on doit rapporter les choses de manière reproductible (voir débat à propos du code scientifique).

Ca devient pire :

A second concern held by some is that a new class of research person will emerge — people who had nothing to do with the design and execution of the study but use another group’s data for their own ends, possibly stealing from the research productivity planned by the data gatherers, or even use the data to try to disprove what the original investigators had posited.

Et d’une, il risque d’émerger une classe de gens qui volent la productivité des collecteurs de données (noble occupation on le comprend). Enchanté, moi je suis prof de bioinformatique depuis 2005, et je fais ça depuis le milieu des années 1990. Margaret Dayhoff a publié le premier atlas de séquences et structures de protéines en 1965 (pas trouvé de version en ligne), et Grantham et al (conflit d’intérêts : j’ai cosigné des articles avec deux des « et al ») ont découvert que différentes espèces utilisaient le code génétique universel de manière subtilement différente en analysant toutes les séquences d’ADN alors disponibles en 1980.

Et de deux, les éditorialistes ont peur que « même » de vils chercheurs utilisent les données des gentils collecteurs de données pour tenter d’invalider les hypothèses de départ. Mais c’est que ça oserait faire de la science ces vauriens ! (Bon, conflit d’intérêt, c’est ce que je fais moi, voir ici en anglais par exemple.)

On arrive à la phrase qui a le plus enflammé les réseaux sociaux des scientifiques :

There is concern among some front-line researchers that the system will be taken over by what some researchers have characterized as “research parasites.”

Ah on est des parasites ? Hop, hashtags Twitter #Iamaresearchparasite, #researchparasites et #researchparasite. Alors, là ça a réagi de partout : le storify.

Soyons justes, l’éditorial propose une solution : quand on veut analyser des données, on doit concevoir une hypothèse non évidente, contacter les auteurs de l’étude d’origine, et établir une fructueuse collaboration entre gens bien nés. Ca n’arrive en effet jamais de manière légitime que l’on veuille analyser les données de centaines d’expériences, que l’on veuille remettre en cause les analyses telles que publiées, ou que l’on veuille analyser des données publiées il y a des années par des personnes parties à la retraite ou ayant arrété de faire de la recherche. Et bien entendu ceux qui génèrent des données intéressantes ont le temps de prendre en compte et répondre de manière appropriée à toutes les demandes qui pourraient leur être faites (génome humain : plus de 18000 citations). Le bioinformaticien Claus Wilke donne sur son blog l’histoire intéressante d’un cas où il a du promettre de co-signer un papier pour avoir les données sur un soit-disant effet du jaune d’oeuf qui serait aussi mauvais pour la santé que le tabac. Ayant eu les données, il a refait l’analyse, trouvé que l’analyse de départ était faussée, et que l’hypothèse ne tenait pas. Les chercheurs en médecine concernés l’ont traité avec mépris, et il n’y a jamais eu de publication. Comme il avait signé de ne pas publier tout seul, ça en est resté là. Voilà le problème de la seule approche « collaborative » bien illustré.

Quelques autres réactions en vrac : Une traduction rigolote en anglais ordinaire. Un point de vue qui contraste cet éditorial avec les déclarations du vice-président américain sur le partage de données pour combattre le cancer. Puis un point de vue d’écologie (la science) discutant comme le partage des données peut en effet être difficile. Et une interprétation de cet éditorial comme le dernier des dinosaures mourants de l’ancienne façon de faire de la recherche bio-médicale.

Et puis c’est pas comme si ce journal avait un problème de reproducibilité des résultats, par exemple s’il avait un taux élevé d’articles rétractés :

corrélation entre facteur d'impact et taux de rétraction, avec flèche vers le journal que dont il est question ici

corrélation entre facteur d’impact et indice de rétraction, avec flèche vers le journal que dont il est question ici

Bon 4 jours plus tard ils ont publié un correctif (ce qui montre une fois de plus l’impact des médias sociaux sur la façon de fonctionner de la science, y compris ceux qui se croient à l’abri en haut de la tour d’ivoire). Ils disent qu’ils sont gentils, parce qu’ils ont signé des accords de diffusion des données. D’ailleurs même s’ils trouvent que c’est de mauvais goût, ils vont les respecter. Mais ils réitèrent que c’est légitime de considérer ceux qui analysent les données avec suspicion pour le moins. Et dans un article dans Forbes, l’auteur principal de l’éditorial a refusé de condamner le terme « parasites ». Comme dit sur le blog de Mick Watson, ce n’est pas encore des excuses, et c’est insuffisant.

Finalement le mieux qui soit sorti de tout ceci sont les dessins de RedPenBlackPen, qui dessine sur la science :

ADN partout 2/3 : Séquençage d’ADN dans vos toilettes et à l’aéroport ?

une BD sympa même si le rapport est distant

une BD sympa même si le rapport est distant : cliquez et lisez

Il semble acquis que le séquençage d’ADN suit une trajectoire similaire à celle de l’informatique, mais en plus rapide (voir billet précédent). Lorsque le prix baisse à ce point, des applications qui étaient inimaginables peuvent devenir routinières. Pour l’informatique on voit ce que ça donne (y pas que les smartphones, quand le réparateur est venu j’ai appris que notre frigo a deux cartes mères…). Et pour le séquençage d’ADN, ça peut donner quoi ?

Un article récent propose justement des réponses à cette question, inspirons-nous en. Avec un grain de sel, l’auteur de l’article est très techno-optimiste, et serait probablement qualifié de scientisme par Cécile Michaut (voir ce billet / débat).

Yaniv Erlich 2015 A vision for ubiquitous sequencing. Genome Res. 2015. 25: 1411-1416 doi:10.1101/gr.191692.115

Yaniv distingue les « plateformes de séquençage » des « senseurs de séquençage ». Une plateforme de séquençage peut être une grosse machine statique, et doit être précise car lire de nouvelles séquences d’ADN inconnues. Un senseur de séquençage doit être petit et rapide, et doit plutôt reconnaître des séquences d’ADN connues.

T1.medium

Alors, quelles applications imagine Yaniv ?

Séquençage à la maison : des appareils domestiques sensibles à l’ADN
–> des toilettes intelligentes ! Bin oui, y a déjà un branchement à l’eau (pour les réactifs chimiques) et une collecte quotidienne de matériel biologique. Et en général il y a de la place en dessous, là où ça prend la poussière. Que peut-on voir dans ce « matériel biologique » ? La flore intestinale, indicateur de santé et plus généralement d’état physiologique. La nouriture (bin tiens), donc un suivi individuel de si on fait bien son régime, encore plus énervant que les sonneries de ceinture pas attachée en voiture et que les montres qui rappellent qu’on n’a pas assez marché. « Vous avez mangé beaucoup de sucreries aujourd’hui, or votre smartwatch me dit que vous avez à peine marché. » L’ADN de la personne, qui normalement ne change pas trop ; mais un cas où il change, ce sont les cancers. Le dépistage très précoce des cancers, ça ça peut être intéressant. On rigole, mais les toilettes sont une piste très sérieuse dans la mesure où il y a très peu de changements à faire à notre maison et à nos habitudes pour que ça marche.

Séquenceur grand public à acheter et utiliser où on veut : j’admets, même si ça devient possible, les applications ne me paraissent pas évidentes. Accessoirement, la régulation d’un séquenceur d’ADN généraliste (pas programmé spécifiquement pour reconnaître la flore intestinale par exemple) ne me paraît pas évidente du tout. Ceci dit, il y a eu beaucoup de réflexions sur ce que les gens accepteraient ou pas avant les smartphones, et quand l’iphone est sorti, on a vu : les gens acceptent tout si ça leur permet de partager des photos de chatons gratos.

Applications médicales et santé : C’est le gros morceau évident. Mais dans les détails, on peut penser à des applications pas si évidentes :
• séquençage rapide aux contrôles de sécurité des aéroports ; Yaniv pense surtout à la détection de maladies contagieuses, pour limiter les épidémies ; tout le monde à part lui se demande s’il fait confiance à la sécurité des aéroports avec son ADN.
• plus évident, le séquenceur portable pour médecins. Obtenir des résultats rapides et fiables sur le terrin, même en cas de crise humanitaire ; ou même à l’hôpital sans délai d’aller-retour à un labo d’analyses.
• et si on branche le séquenceur domestique sur le réseau de l’hôpital ? Des données sur le patient fiables, précises et en temps réel, notamment sur les maladies infectieuses.
• un peu similaire aux contrôles d’aéroport mais peut-être plus faisable (me semble-t-il), un suivi constant de points clés pour connaître la diffusion des maladies, telles que bouches d’aération, points d’épuration d’eau, les systèmes de circulation d’eau de batiments collectifs, etc.
• de même à l’hôpital, un séquenceur qui analyse de petits échantillons à intervalles courts et réguliers, pour un suivi en temps réel des patients.

Applications légales et de sécurité : Ah on rigole moins, là.
• séquençage rapide des « indices ADN » sur la scène même du crime ; admettons, encore qu’il faille avoir accès une base de données de suspects de manière sécurisée sur ledits lieux du crime, ce qui n’est pas évident. Mais ça pourrait je pense permettre d’innocenter rapidement quelqu’un, d’éviter une fausse piste.
• « identification positive de la cible » par les militaires ; permettez-moi d’avoir des doutes sur l’applicabilité pratique dans un contexte militaire de l’attente du résultats d’une analyse ADN.
• identification à la sécurité des aéroports : vous le sentiez venir quand ils mis des séquenceurs pour microbes, hein ? Ce qui est intéressant ceci dit c’est qu’on peut potentiellement identifier une personne sans l’avoir elle-même dans sa bases de données, grâce au partage d’information génétique au sein d’une famille (voir ce vieux billet à moi), par exemple pour retrouver de jeunes fugueurs.
Je me dois à ce point de citer une phrase de l’article (à propos d’identification de noms de familles depuis l’ADN) qui montre à la fois le potentiel des méthodes et (à mon avis) l’optimisme de Yaniv :

With careful implementation that is sensitive to genetic privacy and cultural issues (Kim and Katsanis 2013), such technology at checkpoints could play a role in fighting human trafficking

Oui ça peut marcher avec une mise en place très prudente qui fait très attention à tous les risques et sensibilités culturelles etc, mais ça peut aussi marcher sans. C’est même beaucoup plus facile sans les précautions. Alors, où va-t-on ?

Un point technique à noter sur tous les aspects d’identification d’individus c’est qu’à partir du moment où l’on sait quelle espèce on cherche (contrairement aux pathogènes) et où l’on connait bien la variabilité génétique présente dans l’espèce, bref dans le cas des humains, il y a besoin de peu séquencer pour avoir une identification fiable.

Industrie alimentaire: le séquençage d’ADN peut notamment servir au contrôle qualité :
• intégré dans la chaîne de production.
• spécifique pour des risques connus : champignons vénéneux, niveau de bactéries pathogènes dans la viande, traces d’allergènes, etc.
Par ailleurs, on peut imaginer un système de « code barre » pour authentifier des produits : une séquence d’ADN unique artificielle introduite dans des produits permettant de les reconnaître à coup sûr, pour les éviter ou s’assurer qu’on les a bien obtenus. Au cas où vous pensiez que ce soit difficile, ce type de technique de code barres ADN est utilisé en routine dans de nombreuses expériences de biologie moléculaire.
• codes barres ADN sur les aliments plus toilettes séquenceuses = aide au régime ! Killer app !

Bon c’est sympa tout ça, mais qu’en est-il de la faisabilité ? Parce que même si le prix du séquençage d’ADN baisse, il faut encore le faire. Or à l’heure actuelle il faut quand même préparer les échantillons d’ADN avant séquençage, et cette préparation est relativement longue (autant pour le séquençage en temps réel) et compliquée (autant pour le séquenceur à la maison). Mais : de nouvelles approches en développement promettent de diminuer les étapes de pré-traitement. Il n’est pas inimaginable qu’on puisse diminuer cela à un point où le séquençage ubituitaire devienne réellement praticable. Il faut quand même être conscient que le prix n’est pas la seule limitation. Les réactifs utilisés doivent être pour le moment stockés à différentes températures, souvent +4°C (frigo) ou -20°C (congélo), et se gardent mal. Yaniv propose deux pistes à cela : l’utilisation de réactifs lyophilisés que l’on réhydrate au dernier moment, peut-être même en cartouches toutes prêtes. Et des technologies solides plutôt que liquides, grâce aux nanotechnologies. Là aussi c’est moins science-fiction qu’on ne pourrait le penser, le séquenceur MinION ou la technique de la société BioNano, par exemple, reposent sur des nanopores et une part de nanotechnologie.

Un autre problème pratique est l’analyse des données : les séquences d’ADN sont inutiles sans analyse bioinformatique. On peut mettre le logiciel sur le séquenceur, mais il faut aussi connaître les séquences de référence auxquelles comparer, qui peuvent être très nombreuses (donc prendre beaucoup de place), et qui peuvent n’avoir d’intérêt que si elles sont à jour. On parle beaucoup de « cloud computing », d’envoyer les séquences chez un service via internet qui vous renvoie le résultat du calcul, mais avec les quantités de données que l’on a en séquençage d’ADN il faut prévoir de très bonnes bandes passantes, ce qui limite les applications du type médecine de brousse. Il y a aussi le problème que si le séquençage est rapide et que l’analyse prend 24h, on n’a pas vraiment la réponse de suite. Il faut donc travailler sur des méthodes bioinformatiques permettant une réponse « dès que possible », avec analyse des données en temps réel et rapport dès qu’on a la réponse cherchée (espèce de bactérie, individu recherché, etc). C’est faisable, mais ce sont des défis intéressants.

Il y a d’autres problèmes, statistiques. Par exemple, pour reconnaître un humain d’un groupe très étudié (les européens de l’ouest, au hasard), on aura davantage de résolution que pour une population africaine très peu étudié. Du coup, les chances de se tromper d’individu jusque parce qu’il a la bonne (ou la mauvaise) ethnicité se posera. Pour la microbiologie, reconnaître une espèce que l’on soupçonne être présente (E. coli dans la nourriture non traitée) est facile, reconnaître n’importe quelle espèce quand on ne sait pas ce que l’on cherche, et qu’on ne connait qu’une petite partie de toutes les espèces existantes, et nettement plus difficile.

Et bien sûr, il y a les implications « éthiques, légales et sociales ». On sent bien dans le papier que ce n’est pas ce qui intéresse Yaniv le plus, et peut-être a-t-il raison dans la mesure où son travail est d’explorer ce qui est techniquement possible, mais ça m’a quand même un peu mal à l’aise en lisant un papier par ailleurs très intéressant. D’autant que ces implications peuvent être le plus grand obstacle à la mise en place des solutions qu’il imagine.

D’abord, il existe dans de nombreux pays des lois interdisant ou complicant la collecte d’échantillons humains. Il faut noter qu’en fait nous laissons tous des échantillons partout derrière nous tout le temps, la question est donc leur usage délibéré. L’ADN humain est partout.

Yaniv suggère des messages d’avertissement aux utilisateurs, ou des mécanismes de suppression des séquences lues dès qu’elles ont été analysées, voire de suppression des séquences humaines avant analyse lorsque l’on cherche des séquences bactériennes (par exemple). Mouais, parce qu’on sait que tout le monde lit attentivement les messages d’avertissement des logiciels, apps, pages web, et smartphones que nous utilisons. Et nous faisons totalement confiance à Facebook, Ashley Madison, et demain Nesté ou la sécurité des aéroports, pour effacer les données compromettantes ou personnelles.

Un petit exemple de problème de vie privée pour finir : si des toilettes « intelligentes » peuvent lire l’ADN, elles peuvent savoir si quelqu’un d’extérieur à la famille est venu et a utilisé les toilettes, voire si cette personne vient régulièrement, par exemple quand l’un des partenaires d’un couple est absent…

Bref, tout est possible et rien n’est résolu.

La science est universelle, et un scientifique qui ne l’accepte pas voit son article rétracté

cliquez sur l'image

cliquez sur l’image

Gangolf Jobb est un chercheur à son propre compte (on pourrait aussi dire au chômage dans son cas) qui travaille sur la bioinformatique de l’évolution, et est notamment l’auteur d’un logiciel de manipulation d’arbres évolutifs, TreeFinder. Il est relativement connu dans la communauté de biologie évolutive pour ses messages étranges sur des listes e-mail, ou sur son site. Toutefois, récemment ses bizarreries ont passé un cap.

  • En février 2015, il a modifié la licence d’utilisation de son logiciel pour en interdire l’utilisation aux chercheurs dans les Etats-Unis d’Amérique.
  • En octobre 2015, il a à nouveau modifié la licence pour en interdire l’utilisation aux chercheurs dans les pays suivants : Allemagne, Autriche, France, Pays Bas, Belgique, Royaume Uni, Suède et Denmark.
  • En novembre 2015, l’article scientifique principal décrivant son logiciel a été rétracté.

Gangolf a interdit aux personnes travaillant dans ces pays européens d’utiliser TreeFinder parce que ce sont les pays qui acceuillent le plus d’immigrants non européens. Je ne vais pas reproduire ici son texte, qui est une diatribe haineuse et sans grand intérêt. Vous pouvez le trouver aisément par une recherche web. Le journal BMC Evolutionary Biology a rétracté l’article parce que le logiciel n’est plus disponible pour tous les scientifiques qui désirent l’utiliser, ce qui est en opposition avec la politique éditoriale du journal. (Déclaration de conflit d’intérêts : je suis éditeur associé bénévole à ce journal.) Il est notable que les autres auteurs de l’article, Arndt von Haeseler et Korbinian Strimmer, approuvent la rétraction étant donné les circonstances.

Le site Retraction Watch a une analyse plus détaillée de la rétraction, dans laquelle ils citent ledit Korbinian Strimmer, qui note que si le logiciel avait été placé d’entrée sous une licence de type GNU GPL, les restrictions de Gangolf Jobb auraient été impossibles, et qu’il va donc être strict sur l’usage de telles licences pour les logiciels publiés par son laboratoire dans le futur. (On a d’ailleurs remarqué récemment dans mon labo qu’on n’avait pas fait très attention à nos licences – il faut qu’on soit plus rigoureux nous aussi.) Retraction Watch reflète aussi les réactions que j’ai vues très généralement dans la communauté biologie évolutive : ce ne sera pas un problème de se passer de TreeFinder, et c’est ce qu’on va faire.

Cette rétraction est importante parce qu’au delà du cas étrange de Gangolf Jobb, il faut insister sur l’universalité de la science. Nous construisons ensemble une connaissance et une compréhension du monde pour l’humanité. La liberté de communiquer, de penser, de débattre, de se parler, de construire sur les résultats des autres ou de les invalider, de collaborer ou de se disputer, sont indispensables au progrès de cette connaissance et cette compréhension. La science n’est pas une affaire individuelle, c’est une aventure collective ; c’est vrai pour les personnes individuelles comme pour les pays individuels.

C’est aussi pour cela qu’à terme la publication open access est importante, comme le sont les licences libres. Parce que rien ni personne ne peut empêcher un cubain, un américain, un chinois, un taiwanais, un israélien, un palestinien, un russe et un ukrainien de lire un article dans PLOS ou BMC, qui que ce soit qui l’ait écrit. Et quels que soient les évènements politiques à venir.

Je vais finir ce billet en allant un peu au-delà du cas particulier de la communauté scientifique pour rappeler qu’en 1939, les autorités françaises ont interné les citoyens allemands qui étaient en France. Largement des réfugiés anti-Nazis, des juifs, des communistes. Parmi eux étaient quelques agents allemands infiltrés (je ne retrouve pas la référence exacte, mais il y a un cas décrit dans les mémoires de Marthe Cohn), mais cet internement était quand même injustifié et inhumain pour la masse des réfugiés. Et c’est cela qui me vient à l’esprit quand j’entend des appels à rejeter tous les réfugiés qui fuient la barbarie, comme illusion de protection contre cette barbarie.

Informatique, biologie et 6 millions de danois : les patients médicaux ont une histoire

cliquez sur l'image

cliquez sur l’image

Ceux qui me suivent sur Twitter ont souffert la semaine dernière, vu que j’étais à une conférence de bioinformatique, que j’ai live-tweetée abondamment. J’ai appris pas mal de choses intéressantes, et je voudrais revenir si j’ai le temps sur plusieurs des résultats intéressants. Et d’abord la conférence de Søren Brunak, bioinformaticien médical danois :

Creating disease trajectories from big biomedical data

basé notamment sur son article :

Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Jensen et al 2014 Nature Comm 5: 4022

Commençons par quelques points mis en avant sur Twitter par moi ou d’autres :

Le concept clé pour Søren est celui de « trajectoire » : un patient médical a un passé et un avenir, qui devraient être pris en compte dans son diagnostic et son traitement. Il veut donc utiliser les données qu’il a à disposition au Danmark pour déterminer statistiquement les trajectoires probables, et la manière dont elles influencent les traitements qui marchent ou pas, les chances de survie ou de complication, etc.

L’équipe de Søren a utilisée les données complètes des hôpitaux danois de 1996 à 2010, soit 6,2 millions de patients avec 65 millions de visites. On sait dans quel ordre un patient a eu quels diagnostics ou traitements, et avec quelles conséquences. Ils ont découvert 1171 « trajectoires » significatives. Une trajectoire est une suite de diagnostiques ou d’actes médicaux qui se suivent dans un certain ordre davantage qu’attendu au hasard.

Par exemple : ncomms5022-f2

En (a) on voit des séries de maladies qui se suivent fréquemment, liées au cancer de la prostate. En (b), ces séries sont regroupées de manière à montrer toutes les trajectoires de manière synthétique.

Un point important est que ceci est déterminé automatiquement, en utilisant d’abord une corrélation assez simple entre diagnostics. La probabilité d’observer une corrélation au hasard est estimée en ré-échantillonnant les données (en mélangeant les observations au hasard en d’autres termes) des millions de fois, et en corrigeant pour le fait d’avoir effectué des tests multiples. Comme ça prend du temps de calcul, ils ont fait ça sur une partie des données, puis utilisé ces résultats pour valider une approche plus rapide. Ils ont assemblé les paires de diagnostics en séries en prenant simplement les chevauchements (si on a A->B et B->C, alors on a A->B->C), avec à nouveau un test pour vérifier la significativité statistique ; pour limiter le bruit statistique, les trajectoires avec moins de 20 patients au total ont été éliminées de l’analyse. Les trajectoires sont regroupées, comme montré en (b) ci-dessus, par Clustering Markovien. C’est là que j’apprends en vérifiant mes sources que cette approche très utilisée en bioinformatique n’a pas été vraiment publiée hors d’une thèse de maths. La page de référence étant celle du logiciel fourni par ledit mathématicien : MCL. A la base, la méthode cherche dans un graphe (des points liés par des traits, voir figure ci-dessus) des « chemins » plus probables si on marche au hasard dans le graphe, lesquels chemins correspondent à des sous-ensembles du graphe qui sont mieux connectés. Donc à des sous-ensembles, par exemple de diagnostiques, qu’il faut regrouper. CQFD. Y a d’autres trucs amusants dans leurs études, comme le développement d’une méthode informatique permettant de comprendre automatiquement les textes écrits par des médecins en danois, y compris les négations (très importantes dans les diagnostiques).

Allez, deux plus gros graphes :

ncomms5022-f3

Là on peut voir par exemple en (a) que la plupart des maladies suivant une athrosclérose, et pouvant être considérées éventuellement comme des complications, ne viennent comme complications plutôt d’une Bronchopneumopathie chronique obstructive (COPD en anglais), qui suit souvent mais pas toujours l’arthrosclérose.

ncomms5022-f4Bon avouez que c’est joli.

Sinon, pour montrer encore un peu ce que l’on peut trouver dans ces données et l’importance de la médecine personalisée, voici les incidences de quelques classes de diagnostiques en fonction du sexe et du type de viste : patient hospitalisé (in-patient), patient en visite libre (out-patient), urgence (emergency) :

ncomms5022-f1Tiens, les femmes ont plus souvent des diagnostics d’accouchement (en vert) que les hommes, et sont généralement hospitalisées à ce moment-là. 😉 Et les blessures (en rouge) sont plutôt le fait d’hommes de 21 ans, et se retrouvent aux urgences. Comme quoi ça marche ces stats.

Comme vous l’aurez peut-être remarqué dans les tweets ci-dessus, cette étude a été permise par une législation très libérale en ce qui concerne la collecte et l’utilisation des données personnelles au Danmark. Il n’est pas évident que de telles études soient portables à d’autres sociétés, moins enclines à faire confiance à leur état et leurs institutions. Il n’est en fait pas évident pour moi que ce soit souhaitable, contrairement à ce que souhaite clairement Søren Brunak. Mais si de telles études ne sont pas répétées, il y a le risque d’avoir une information très biaisée par les risques génétiques des danois, et surtout par leur mode de vie, qui se caractérise apparemment par une nourriture grasse et peu d’exercice. Søren a donc admis bien volontiers que, même si les résultats ont été partiellement vérifiés en Grande Bretagne et aux Pays Bas, il seraient difficiles à généraliser à un pays méditerranéen ou d’Asie de l’Est, par exemple.

Il n’en reste pas moins que les grandes lignes de cette étude sont probablement très généralement correctes, et qu’une information partielle de ce type vaut mieux qu’aucune information à mon avis. Une complainte fréquente des patients des hopitaux et médecins traditionnels est que leur histoire n’est pas prise en compte, d’où une tendance à aller chez des charlatans qui font n’importe quoi, mais écoutent attentivement toute l’histoire et rassurent sur l’avenir. On voit ici que l’exploitation intelligente de grandes quantités de données médicales a le potentiel de permettre une prise en compte rationnelle et réellement utile des histoires des patients.

Note de service : les commentaires ne vont pas fonctionner ce mercredi-jeudi 17-18 juin, en raison de maintenance du serveur cafe-sciences.org.

Update: following demand on Twitter, an English translation is available here.

Sans blogs, les erreurs dans les articles scientifiques restent masquées très longtemps

error

cliquez sur l’image

Une petite suite à mon billet récent sur les critiques Twitter d’un article prestigieux. Aujourd’hui Lior Pachter (dont on a déjà parlé sur ce blog : les méthodes comptent, rififi chez les bioinformaticiens, écrire un mauvais article) a publié un nouveau billet. Dedans, il part d’un article publié récemment en preprint (version publique non encore publiée officiellement, voir ici), pour critiquer un article de 2004, de Kellis et al dans Nature (depuis Manolis Kellis est devenu un des poids lourds de la génomique). Dans Kellis et al 2004, les auteurs donnent une proportion de 95% de gènes dupliqués où seul l’un des deux évolue rapidement, et disent que c’est frappant (« striking ») et que ça soutient une hypothèse classique d’évolution des gènes dupliqués.

Lior met au défi ses lecteurs de déterminer la probabilité d’observer ce résultat : est-ce réellement frappant, ou au contraire attendu même si l’hypothèse est fausse ?

Et ce qui me frappe, moi, c’est un commentaire où Lior publie un email qu’il vient de recevoir. Un collègue anonyme lui envoie la lettre qu’il avait écrite au journal Nature à l’époque, en 2004. Laquelle lettre détaille le calcul de la probabilié associée, et montre que loin d’être frappant, le résultat invalide même légèrement l’hypothèse classique. Lettre que Nature a refusé de publier. Donc que personne n’a vu entre 2004 et 2015.

Pourquoi est-ce que ça me frappe ? Parce que ça montre une fois de plus qu’en l’absence de la communication scientifique informelle par les blogs et Twitter, le système a été vérouillé par quelques-uns, qui n’ont pas permis à la discussion scientifique d’avancer comme elle le devrait. Cette discussion ouverte, à laquelle participe également la publication open access / libre accès, est essentielle. Nous vivons une révolution pacifique et très positive, et il faut en être conscient et la soutenir.

Mise à jour : grosse discussion générée sur Twitter, avec intervention de l’excellent Alan Drummond entre autres (cliquez sur le Tweet pour voir les réponses). Et vive les médias sociaux en science.

 

Ciel ! On critique un article scientifique sur Twitter !

cliquez sur l'image

cliquez sur l’image

Après une longue pause, ce blog redémarre. Je reviendrais sur mes réflexions sur les blogs et la communication scientifique prochainement, mais commençons par un billet sur un petit évènement qui agite mon landerneau, celui de la génomique et la bioinformatique de l’évolution. Et qui éclaire l’évolution de la publication et du débat scientifique à l’heure des réseaux sociaux.

Mes plus fidèles lecteurs se rappeleront du projet ENCODE (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). L’original concernait l’humain, il y a eu ensuite un ENCODE souris, et un modENCODE mouche drosophile et vers nématode. Tous ces projets mènent à de nombreux articles scientifiques, certains décrivant les données, d’autres les utilisant pour diverses études. Fin 2014, une analyse publiée en coordination avec ENCODE souris (Lin et al 2014 ; voir aussi Figure 2 dans Yue et al 2014) montrait un résultat surprenant :

comparaison d’expression de gènes humain-souris, par analyse multivariée présentée bizarrement

Si vous trouvez la figure ci-dessus difficile à comprendre, vous êtes pardonné. En bref, les auteurs ont pris la mesure du niveau d’expression des gènes (leur niveau d’activité en première approximation) dans différents tissus (de testicules à estomac) de souris et d’humain. Pour chaque tissu humain ou souris, on a environ 20’000 mesures, pour autant de gènes. On peut réduire cela aux 2 ou 3 dimensions qui expliquent le mieux la variation, ce qu’ils ont fait. D’habitude on représente cela par des graphes 2D, qui sont lisibles au moins, mais ici ce sont des graphes 3D où la troisième dimension est très difficile à comprendre. Mais ceci est un péché véniel.

Ce qui est frappant pour le spécialiste dans ces figures, c’est que les tissus de regroupent par espèce (souris ensemble, humain ensemble) plutôt que par type de tissu (estomacs ensemble, reins ensemble). Ce qui revient à dire que les gènes exprimés dans un estomac de souris sont davantage similaires à ceux exprimés dans un rein de souris que dans un estomac humain. Ce qui est très surprenant : on s’attends plutôt à l’inverse, et d’ailleurs cela a été publié de manière répétée (même par mon labo). Et comme le fait remarquer l’inénarable Dan Graur (voir ici à son propos), si c’est vrai ça veut dire que l’étude des gènes de souris ne sert à rien pour étudier l’humain, et que donc ENCODE souris est un gaspillage d’argent. Ce que les auteurs d’ENCODE souris ne relèvent curieusement pas.

Ce résultat a paru bizarre a beaucoup de monde, et une analyse rapide dans mon labo semblait indiquer qu’il était du à ce que les expériences de souris et d’humain ont été faites différemment, et donc ce que l’on verrait serait le biais expérimental plutôt que le signal biologique. Mais montrer publiquement qu’un collègue a tort, c’est du boulot (cf ici), qu’on n’avait pas envie de poursuivre dans ce cas-ci.

Heureusement, un collègue de Chicago, Yoav Gilad, a décidé de le faire, et il a lancé un Tweet tonitruant :

Bon tonitruant sur l’échelle des débats feutrés en science hein. L’important c’est qu’il a montré que les résultats publiés ne tenaient pas, mais qu’en enlevant les biais expérimentaux on retrouvait bien un regroupement par tissus. Il a ensuite mis son article sous forme non encore expertisée sur le site de F1000, qui permet de rendre publique toutes les versions d’un papier, avant pendant après expertise, ainsi que les expertises elles-mêmes, afin que tous puissent discuter librement :

A reanalysis of mouse ENCODE comparative gene expression data. Yoav Gilad, Orna Mizrahi-Man F1000

A noter que les commentaires sous cet article « brouillon » sont très constructifs, et comprennent deux réponses détaillées des auteurs d’origine du consortium ENCODE.

Le tweet d’origine a fait beaucoup réagir dans le microcosme des biologistes des génomes, et a donné lieu a un compte-rendu dans le magazine Nature, où notamment l’auteur sénior (le chef quoi) de l’article d’origine, Michael Snyder, a déclaré que Gilad avait « brisé les normes sociales de la science en postant initialement sa critique sur Twitter » :

Michael Snyder, a geneticist at Stanford University in California and co-author of the original paper, stands by his team’s study and its conclusions and says that Gilad broke the “social norms” of science by initially posting the critique on Twitter. Gilad says that he took to social media to highlight his work, which might otherwise have been overlooked.

Cette réaction de Snyder a provoqué pas mal de réactions sarcastiques sur Twitter et blogs. Le ton général était qu’une publication scientifique est, bin, publique, et doit être critiquée publiquement. Et que la norme sociale de la science, ça doit être de faire les meilleures analyses et d’accepter la critique. Certains collègues pensent toutefois que Twitter est trop brutal, une appréciation que je ne partage toutefois pas. Si on reçoit énormément d’argent des contribuables pour faire de grosses études, qu’on les publie à grande fanfare dans les journaux les plus réputés, on doit s’attendre à être jugé et critiqué à l’échelle de cet investissement et de ce retentissement. A vrai dire, certains collègues éminents (Ewan Birney, Lior Pachter) ont dit que si l’analyse de Gilad était confirmée, l’article de Snyder devrait être rétracté, ce qui est très brutal. Et je pense que l’analyse va être confirmée. Le statisticien renomé en génomique Rafael Izarry a publié un billet sur son blog où il affirme que la mise en place de l’expérience était tellement faussée du départ que les auteurs ne pouvaient simplement rien trouver, et que donc toute l’analyse est forcément invalide. En fait, dans la discussion beaucoup de personnes disent que soit on enlève et le biais expérimental et l’effet (potentiel) espèce-spécifique, soit on confond les deux, mais ils ne sont pas démélables en l’état (voir à ce propos un excellent billet de Lior Pachter qui référence un billet du cafe-sciences dans les commentaires).

On revient à un point déjà traité précédemment sur ce blog, à propos des gros projets de génomique et autre « big science ». Les scientifiques très connus et très établis, qui obtiennent de très gros budgets et publient fréquemment dans les plus grandes revues, ne sont plus à l’abri des critiques. Avant, elles existaient, mais ils pouvaient les ignorer, et surtout compter que les personnes les finançant et les jugeant les ignoraient. Maintenant, c’est public et c’est très rapide, et ces scientifiques et ces revues prestigieuses doivent s’habituer à une discussion beaucoup plus animée et critique qu’avant. C’est pour le mieux pour la science et c’est ça qui compte.

Anecdote personnelle : maintenant quand j’expertise ou j’édite un article (voir les rôles dans ce billet), je réfléchis avant de soumettre mon avis : que penserais-je si cet article était publiquement critiqué ? Serait-je fier ou honteux de mon rôle dans la publication. Et peut-être que je suis un peu plus prudent qu’avant, et c’est bien.

Encore une nouvelle technologie révolutionaire de séquençage de l’ADN, cette fois-ci portable

cliquez sur l'image

cliquez sur l’image

Comme on l’entend souvent (en tous cas si on lit des blogs de sciences), le séquençage de l’ADN se fait de plus en plus vite, de moins en moins cher, progressant à une vitesse bien supérieure aux progrès de l’informatique. Par exemple billet de Philippe Julien, de moi (génome à $1000), et bon article récent dans Le Monde.

La plupart des progrès récents sont dus à une société qui domine le marché, Illumina (voir cet article complet en anglais sur Forbes), bien que PacBio présente une alternative intéressante pour les génomes bactériens. Récemment, Mick Watson, bioinformaticien et bloggueur, a écrit sur son expérience avec un nouvel arrivant, Oxford Nanopore. Oxford Nanopore commercialise depuis très peu un séquenceur ultra-compact, le MinION, qui se branche dans la prise USB d’un ordinateur (Windows seulement apparemment pour le moment), et envoie les séquences directement dans l’ordinateur.

image de propagande du fabricant

Alors qu’Illumina lit des fragments d’ADN de 100-200 nucléotides (« lettres » d’ADN) (mais plein plein !), et que PacBio lit jusqu’à 20’000 (mais plus souvent dans les 1000), MinION lit couramment des dizaines de milliers, et jusqu’à 100’000 sans problème, semble-t-il. Donc un génome bactérien d’un coup. Mike Mick Watson voit d’énormes possibilités pour un séquenceur si petit, si mobile, et si puissant, et a donc décidé d’écrire un premier logiciel permettant de traiter directement les données produites sur l’ordinateur auquel le séquenceur est branché. Il a mis une première description de sa méthode sur Bioarxiv (un serveur pour mettre des articles pas encore formellement publiés), et explique un peu sur son blog de quoi il retourne. Il tient à ce que son logiciel marche même sans bonne connection internet, pour que ce soit accessible à un vétérinaire de campagne, un médecin de brousse, etc.

Mike Mick voit un futur dans lequel ce vétérinaire, ce médecin, puisse identifier par séquençage le pathogène (bactérie, virus, etc) auquel il a affaire, et ait donc à disposition un test diagnostique rapide, exact, puissant et universel, avec lui tout le temps. Si ça marche, certaines des prédictions enthousiastes des débuts de la génomique (fin des années 1990) seront enfin en train de se réaliser, et cela va changer beaucoup de métiers et de pratiques autour de la biologie. Bon reste à voir ce que ça va donner quand ça sera réellement commercialisé à grande échelle.

(Orthographe du prénom corrigée, suite à remarque sur Twitter)

Mise à jour : Mick signale sur Twitter que le papier a été accepté :

Mieux on connait notre génome, moins il a de gènes pour des protéines, et plus il en a d’autres

cliquez sur l'image (stripscience !)

cliquez sur l’image (stripscience !)

Nouvelles de l’équipe qui annote les gènes humains : ils ont tout remis à plat, comme il le font périodiquement, à la lumière des nouvelles données et des nouvelles méthodes ; ceci est la 20ème version. On peut noter que malgré les progrès des outils informatiques, des étapes de vérification manuelle (curation ou annotation, voir aussi ce billet) restent essentielles et représentent une grosse part du travail, pour avoir la meilleure qualité possible des annotations. En d’autres termes, être aussi confiant que possible que l’on a trouvé tous les gènes, et que tout ce qu’on a trouvé est un gène.

Ce qui revient quand même à une question sempiternelle en génétique : qu’est-ce qu’un gène ? Comme une espèce, c’est mal défini, mais pour un travail donné il faut une définition pratique. Gencode annote de l’ADN qui produit un ARN (molécule qui contrairement à l’ADN quitte le noyau cellulaire), soit qui code pour une protéine, soit qui est fonctionnel en lui-même. Quand on dit « gène » d’habitude (genre « combien de gènes communs entre humain et souris ? »), on veut dire ceux qui codent pour des protéines, mais les autres peuvent aussi jouer des rôles importants, certains connus depuis longtemps (ARN ribosomaux ou de transfert), d’autres découverts plus récemment (micro ARN, long ARN non codants).

Qu’est-ce qui a changé ? Comme à chaque mise à jour du compte des gènes humains, le nombre de gènes codant pour des protéines diminue, de 20’345 à 19’942 (rappel : le nombre de 21’000 annoncé en 2003 a été estimé trop bas par beaucoup). L’équipe s’attend à ce que ce nombre descende encore un peu. Par contre, le nombre d’ARN long non codants (lncRNA) augmente, de 13’870 à 14’229. Ce n’est pas dans le billet de Gencode, mais je suis frappé par la différence de nombre de lncRNA annotés pour l’humain et les autres espèces (par exemple comparer l’humain, la souris, et le poisson zèbre). Je doute fort que ce soit tout des créations de gènes spécifiques aux primates, donc soit on a beaucoup de faux positifs chez l’humain, et ce nombre va redescendre, soit il reste beaucoup à découvrir chez les autres, ce qui a une certaine logique vu qu’ils sont moins étudiés.

L’occasion de rappeler la super citation d’Isaac Asimov :

John, when people thought the Earth was flat, they were wrong. When people thought the Earth was spherical, they were wrong. But if you think that thinking the Earth is spherical is just as wrong as thinking the Earth is flat, then your view is wronger than both of them put together.

Notre connaissance du génome humain change, mais pas en errant aléatoirement, en partant d’une approximation grossièrement correcte et en l’affinant.

Similarités entre la bioinformatique et les humanités digitales (ou numériques)

Cliquez sur l'image

Cliquez sur l’image

La semaine dernière mon campus a hébergé la conférence internationale des humanités digitales (en anglais digital humanities ; en français à Lausanne humanités digitales ; en français en France humanités numériques) (blogs à voison sur hypothese.org). L’occasion de traiter un sujet dont je voulais parler depuis longtemps, les similarités entre humanités digitales et bioinformatique.

En bref, la bioinformatique est aux sciences du vivant ce que les humanités digitales sont aux sciences humaines.

Mais encore ? Eh bien dans les deux cas nous avons la nécessité de traiter intelligemment (et automatiquement si possible) des quantités rapidement croissantes de données, qui ont la particularité d’avoir été générées par des gens qui ne savaient pas qu’on aurait à les traiter informatiquement, et de travailler avec une communauté qui n’a pas une culture quantitative ni informatique très forte. Le biologiste typique aimait les sciences mais pas les maths, et l’humaniste typique n’en parlons pas.

Cela fait contraste avec d’autres domaines, comme la physique, ou certes il y a beaucoup de données, un besoin fort d’informatique, mais également une conscience forte de ces nécessités depuis longtemps, et une culture des maths et de l’informatique (la moitié de l’informatique et plus de la moitié des maths ont probablement été inventées en réponse à des défis de la physique), qui font que ceux qui génèrent les données respectent le travail de ceux qui les analysent.

De plus, en physique ou en chimie le cadre théorique est grosso-modo posé depuis longtemps, et donc quand on démarre une grosse expérience on sait ce qu’on cherche. Par contre en biologie ou en sciences humaines, parfois on génère exprès de grandes quantités de données, mais on ne sait pas encore trop quels seront les signaux intéressants, soit on doit traiter un ensemble de résultats acquis au cours du temps par différents laboratoires ou intervenants, pour différentes raisons, avec différents standards et objectifs (exemple dans ce billet).

Suite à discussion avec des collègues des humanités digitales, voici une liste de défis communs aux deux sciences interdisciplinaires :

  • La construction d’ontologies, c’est-à-dire de représentations computationnelles de domaines de connaissances.
  • L’utilisation de ces ontologies, par les spécialistes et par les autres partenaires (biologistes, médecins, littéraires, historiens, etc).
  • La gestion des méta-données, c’est-à-dire qui a collecté quelle information, avec quelles méthodes, à quelle date, avec quels standards, etc etc. Indispensable à l’analyse de données que l’on n’a pas généré soi-même, et à leur ré-utilisation, et souvent négligé voire perçu comme une contrainte inutile par ceux qui génèrent les données.
  • La récupération et la curation de l’information. Très important ! Les méthodes automatiques ont toujours des limites, et donc il faut des personnes dédiées qui collectent, expertisent et annotent les informations. Alors que beaucoup d’aspects sont davantage développés en bioinformatique (qui a une certaine avance historique quand même je pense), la curation est je pense mieux organisée et mieux perçue dans les humanités, et il existe même des masters dédiés.
  • Un sujet proche, la confiance dans les données et dans leur interprétation. Comment reconnaître et coder que certaines informations (résultats d’observations ou d’expériences, témoignages historiques ou manuscripts) soient plus fiables que d’autres ?
  • Last but not least, le défi de la communication entre les geeks et leurs confrères plus traditionnels : utilisabilité des outils, légitimité d’une façon de travailler nouvelle, confiance dans des résultats obtenus de manière peu orthodoxe, difficulté d’être perçu comme collègues et non comme techniciens ou étrangers, etc.

Pour finir, une discussion qui est propre aux humanités est le rôle du multilinguisme dans la communication académique : voir l’excellent blog de Martin Grandjean (aussi billets précédents sur l’enseignement scientifique en anglais ou français par Tom Roud et moi-même). Entre biologistes et informaticiens, on peut au moins être d’accord sur l’usage de l’anglais scientifique. 🙂