Archives pour la catégorie discussion d’article

Informatique, biologie et 6 millions de danois : les patients médicaux ont une histoire

cliquez sur l'image

cliquez sur l’image

Ceux qui me suivent sur Twitter ont souffert la semaine dernière, vu que j’étais à une conférence de bioinformatique, que j’ai live-tweetée abondamment. J’ai appris pas mal de choses intéressantes, et je voudrais revenir si j’ai le temps sur plusieurs des résultats intéressants. Et d’abord la conférence de Søren Brunak, bioinformaticien médical danois :

Creating disease trajectories from big biomedical data

basé notamment sur son article :

Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Jensen et al 2014 Nature Comm 5: 4022

Commençons par quelques points mis en avant sur Twitter par moi ou d’autres :

Le concept clé pour Søren est celui de « trajectoire » : un patient médical a un passé et un avenir, qui devraient être pris en compte dans son diagnostic et son traitement. Il veut donc utiliser les données qu’il a à disposition au Danmark pour déterminer statistiquement les trajectoires probables, et la manière dont elles influencent les traitements qui marchent ou pas, les chances de survie ou de complication, etc.

L’équipe de Søren a utilisée les données complètes des hôpitaux danois de 1996 à 2010, soit 6,2 millions de patients avec 65 millions de visites. On sait dans quel ordre un patient a eu quels diagnostics ou traitements, et avec quelles conséquences. Ils ont découvert 1171 « trajectoires » significatives. Une trajectoire est une suite de diagnostiques ou d’actes médicaux qui se suivent dans un certain ordre davantage qu’attendu au hasard.

Par exemple : ncomms5022-f2

En (a) on voit des séries de maladies qui se suivent fréquemment, liées au cancer de la prostate. En (b), ces séries sont regroupées de manière à montrer toutes les trajectoires de manière synthétique.

Un point important est que ceci est déterminé automatiquement, en utilisant d’abord une corrélation assez simple entre diagnostics. La probabilité d’observer une corrélation au hasard est estimée en ré-échantillonnant les données (en mélangeant les observations au hasard en d’autres termes) des millions de fois, et en corrigeant pour le fait d’avoir effectué des tests multiples. Comme ça prend du temps de calcul, ils ont fait ça sur une partie des données, puis utilisé ces résultats pour valider une approche plus rapide. Ils ont assemblé les paires de diagnostics en séries en prenant simplement les chevauchements (si on a A->B et B->C, alors on a A->B->C), avec à nouveau un test pour vérifier la significativité statistique ; pour limiter le bruit statistique, les trajectoires avec moins de 20 patients au total ont été éliminées de l’analyse. Les trajectoires sont regroupées, comme montré en (b) ci-dessus, par Clustering Markovien. C’est là que j’apprends en vérifiant mes sources que cette approche très utilisée en bioinformatique n’a pas été vraiment publiée hors d’une thèse de maths. La page de référence étant celle du logiciel fourni par ledit mathématicien : MCL. A la base, la méthode cherche dans un graphe (des points liés par des traits, voir figure ci-dessus) des « chemins » plus probables si on marche au hasard dans le graphe, lesquels chemins correspondent à des sous-ensembles du graphe qui sont mieux connectés. Donc à des sous-ensembles, par exemple de diagnostiques, qu’il faut regrouper. CQFD. Y a d’autres trucs amusants dans leurs études, comme le développement d’une méthode informatique permettant de comprendre automatiquement les textes écrits par des médecins en danois, y compris les négations (très importantes dans les diagnostiques).

Allez, deux plus gros graphes :

ncomms5022-f3

Là on peut voir par exemple en (a) que la plupart des maladies suivant une athrosclérose, et pouvant être considérées éventuellement comme des complications, ne viennent comme complications plutôt d’une Bronchopneumopathie chronique obstructive (COPD en anglais), qui suit souvent mais pas toujours l’arthrosclérose.

ncomms5022-f4Bon avouez que c’est joli.

Sinon, pour montrer encore un peu ce que l’on peut trouver dans ces données et l’importance de la médecine personalisée, voici les incidences de quelques classes de diagnostiques en fonction du sexe et du type de viste : patient hospitalisé (in-patient), patient en visite libre (out-patient), urgence (emergency) :

ncomms5022-f1Tiens, les femmes ont plus souvent des diagnostics d’accouchement (en vert) que les hommes, et sont généralement hospitalisées à ce moment-là. 😉 Et les blessures (en rouge) sont plutôt le fait d’hommes de 21 ans, et se retrouvent aux urgences. Comme quoi ça marche ces stats.

Comme vous l’aurez peut-être remarqué dans les tweets ci-dessus, cette étude a été permise par une législation très libérale en ce qui concerne la collecte et l’utilisation des données personnelles au Danmark. Il n’est pas évident que de telles études soient portables à d’autres sociétés, moins enclines à faire confiance à leur état et leurs institutions. Il n’est en fait pas évident pour moi que ce soit souhaitable, contrairement à ce que souhaite clairement Søren Brunak. Mais si de telles études ne sont pas répétées, il y a le risque d’avoir une information très biaisée par les risques génétiques des danois, et surtout par leur mode de vie, qui se caractérise apparemment par une nourriture grasse et peu d’exercice. Søren a donc admis bien volontiers que, même si les résultats ont été partiellement vérifiés en Grande Bretagne et aux Pays Bas, il seraient difficiles à généraliser à un pays méditerranéen ou d’Asie de l’Est, par exemple.

Il n’en reste pas moins que les grandes lignes de cette étude sont probablement très généralement correctes, et qu’une information partielle de ce type vaut mieux qu’aucune information à mon avis. Une complainte fréquente des patients des hopitaux et médecins traditionnels est que leur histoire n’est pas prise en compte, d’où une tendance à aller chez des charlatans qui font n’importe quoi, mais écoutent attentivement toute l’histoire et rassurent sur l’avenir. On voit ici que l’exploitation intelligente de grandes quantités de données médicales a le potentiel de permettre une prise en compte rationnelle et réellement utile des histoires des patients.

Note de service : les commentaires ne vont pas fonctionner ce mercredi-jeudi 17-18 juin, en raison de maintenance du serveur cafe-sciences.org.

Update: following demand on Twitter, an English translation is available here.

Les datations fossiles disponibles librement sur le web

cliquez sur l'image

cliquez sur l’image

Je marche sur les plates bandes de Dinoblog aujourd’hui : une équipe internationale a publié (accès fermé, c’est vil) une base de données gratuitement et publiquement disponible sur internet, qui contient des datations de référence entièrement basées sur des fossiles reconnus et expertisés :

http://fossilcalibrations.org/

Par exemple si je cherche Hominidae, le groupe des grands singes (ourang-outang, nous, chimpanzées, gorilles), je trouve date minimum 11,6 million d’années, date maximum 33,9 millions d’années. Ah bin c’est pas toujours super précis, mais comme ça on sait où on en est.

Ce qui est super c’est qu’on voit aussi à quels fossiles et à quelles publications scientifiques la date se rattache.

On peut comparer les résultats à ceux de TimeTree, un autre site qui lui propose des dates basées sur « l’horloge moléculaire », l’hypothèse que la divergence entre protéines ou séquences d’ADN permet de dater les divergences évolutives. J’aime moins, mais c’est plus complet parce que les fossiles faut avoir du bol et l’ADN y en a toujours. Pour Hominidae on obtient une date moyenne de 15,7 millions d’années, ce qui est cohérent avec les fossiles, avec différentes études qui s’étalent entre 8 et 22 millions d’années, pas si différent des fossiles finalement :

pongohomo

La science comme elle devrait fonctionner, grâce aux réseaux sociaux

cliquez sur l'image

cliquez sur l’image

Suite de deux billets précédents :

Ciel ! On critique un article scientifique sur Twitter !

-> La conversation a continué de manière très riche sur Twitter (malheureusement pas de hashtag associé) et sur le site du journal F1000research (oui c’est open access et de qualité !). Les auteurs du papier d’origine ont généré de nouvelles données, qui ont été mise à disposition sur le site d’ENCODE, et un autre scientifique a « publié » sur Twitter avoir découvert que les échantillons mélangeaient de manière non documentée mâles et femelles, ce qui impacte l’expression des gènes et donc les résultats biologiques :

Sans blogs, les erreurs dans les articles scientifiques restent masquées très longtemps

-> La discussion dans les commentaires du billet de blog de Lior Pachter doit être lue, elle montre la discussion scientifique comme elle devrait se produire. Je recommande notamment les commentaires de Mike Eisen (fondateur de PLOS, éditeur open access pionnier et pas poubelle) et de Pavel Pevzner.

#OGM pour l’agriculture bio, par réintroduction de gènes sauvages ?

cliquez sur l'image, ça parle de campagne

cliquez sur l’image, ça parle de campagne

Via un article du New York Times, je vois un appel dans Trends in Plant Science (malheureusement d’accès fermé) de la part de scientifiques danois :

Andressen et al 2015 Feasibility of new breeding techniques for organic farming Trends Plant Sci in press

Dedans ils proposent le « rewilding », la réintroduction de gènes de variétés sauvages dans les variétés cultivées.

En effet, un des problèmes des variétés domestiques, que ce soit des animaux ou des plantes, c’est que la sélection sévère à laquelle les humains les ont soumis a conduit à une faible diversité génétique et des défaults génétiques. Ceci a deux composantes :

  1. Lorsqu’il y a sélection sur certains traits, ça diminue la taille de population effective pour les autres traits : si je ne prends que les personnes de 30 ans bonnes en maths et en français avec un goût pour la musique jazz et qui font bien la cuisine, j’aurais un choix plus restreint en ce qui concerne leurs compétences en foot que si je sélectionnais des compétences foot dans toute la population. Si je sélectionne les plantes qui produisent de très grosses graines dans des conditions agricoles (voir ici pour la distance de nos cultures aux plantes sauvages), alors je diminue la taille efficace de population pour les traits du type résiste bien aux aléas climatiques ou aux maladies.
  2. Lorsque la population est petite, la sélection naturelle est moins efficace. Si la population efficace pour un trait est petite, la sélection naturelle est moins efficace pour ce trait. Quand la sélection naturelle est moins efficace, les variants désavantageux sont moins éliminés, les avantageux moins favorisés. Conséquence, la population se retrouve avec de nombreux gènes où seul la version désavantageuse est gardée, ce qui n’est pas terrible admettons-le.

Bilan de ces deux phénomènes, les variétés domestiquées se trimballent un lourd fardeau de variants génétiques désavantageux. C’est frappant chez certains chiens de race, mais c’est vrai aussi pour les plantes cultivées.

D’où l’idée des danois : prendre les versions avantageuses qui dominent encore les variétés sauvages, et le ré-introduire dans les variétés cultivées. Ils voient cela comme un moyen d’augmenter la productivité tout en gardant les intrans (pesticides, engrais) faibles, donc de rendre le « bio » plus efficace tout en conservant ses bénéfices. Ils font à ce propos d’une certaine naïveté me semble-t-il :

The most efficient methods of rewilding are based on modern biotechnology techniques, which have yet to be embraced by the organic farming movement

« have yet to be embraced »… Le mouvement bio n’a pas encore décidé d’utiliser la biotechnologie. Mais bientôt donc…

Leur raisonnement se tient très bien sinon (pour être honnête, l’article inclut une importante discussion de la part sociologique de la question, mais pas très conclusive). Les plantes cultivées utilisées en bio ont été optimisées pour la culture non bio, avec intrants. Si on les croise par technique traditionnelle avec les sauvages, on va aussi réintroduire plein de gènes diminuant la productivité ou autres conséquences négatives, ça va prendre très longtemps, et ça va être très compliqué si on parle de traits multigéniques. Avec la biotechnologie, on peut trouver les gènes que l’on veut et les mettre précisément.

Le rewilding biotechnologique est-il compatible avec l’agriculture biologique ? Les auteurs considèrent plusieurs critères :

  • Santé : le rewilding par biotechnologie permettrait d’améliorer des traits de robustesse, donc moins de pesticides, et de nutrition, sans rien perdre ; donc oui, compatible bio.
  • Ecologie : cette approche peut et diminuer les intrants, et favoriser la biodiversité ; donc oui, compatible bio.
  • Justesse (fairness) : pas d’incompatibilité a priori, mais à considérer au cas par cas.
  • Principe de diligence (care) : le bio a une approche conservatrice mais pas totalement fermée au progrès apparemment, donc ça doit être bon. Les auteurs notent de manière intéressante que rejeter des technologies comme celle-ci n’est pas forcément la stratégie la moins risquée.

Finalement, les auteurs notent une différence dans la définition de « OGM » aux Etats-Unis et dans l’Union Européenne. En Europe, la définition est basée sur le processus de production. Donc si ces plantes sont produites par génie génétique, elles seront considérées comme OGM, et donc comme interdites en agriculture biologique sous les règles actuelles. Aux USA, la définition est basée sur le produit, donc si ces plantes auraient pu être produites par croisements non biotechnologiques, elles ne seraient pas OGM, et pourraient être autorisées en bio.

Pour compliquer encore les choses, ils proposent d’utiliser de nouvelles techniques de mutagenèse de précision qui ne sont pas encore bien couvertes par la législation OGM ; il n’est donc pas clair où la limite serait par rapport aux règles européennes.

On revient donc au point que « OGM ne veut rien dire« , et qu’il faut juger au cas par cas. En tous la proposition me paraît très intéressante. Eventuellement la société va bien devoir avoir un débat rationnel sur les possibilités ouvertes par les progrés de la biologie me semble-t-il, et ceci en fait partie.

Sans blogs, les erreurs dans les articles scientifiques restent masquées très longtemps

error

cliquez sur l’image

Une petite suite à mon billet récent sur les critiques Twitter d’un article prestigieux. Aujourd’hui Lior Pachter (dont on a déjà parlé sur ce blog : les méthodes comptent, rififi chez les bioinformaticiens, écrire un mauvais article) a publié un nouveau billet. Dedans, il part d’un article publié récemment en preprint (version publique non encore publiée officiellement, voir ici), pour critiquer un article de 2004, de Kellis et al dans Nature (depuis Manolis Kellis est devenu un des poids lourds de la génomique). Dans Kellis et al 2004, les auteurs donnent une proportion de 95% de gènes dupliqués où seul l’un des deux évolue rapidement, et disent que c’est frappant (« striking ») et que ça soutient une hypothèse classique d’évolution des gènes dupliqués.

Lior met au défi ses lecteurs de déterminer la probabilité d’observer ce résultat : est-ce réellement frappant, ou au contraire attendu même si l’hypothèse est fausse ?

Et ce qui me frappe, moi, c’est un commentaire où Lior publie un email qu’il vient de recevoir. Un collègue anonyme lui envoie la lettre qu’il avait écrite au journal Nature à l’époque, en 2004. Laquelle lettre détaille le calcul de la probabilié associée, et montre que loin d’être frappant, le résultat invalide même légèrement l’hypothèse classique. Lettre que Nature a refusé de publier. Donc que personne n’a vu entre 2004 et 2015.

Pourquoi est-ce que ça me frappe ? Parce que ça montre une fois de plus qu’en l’absence de la communication scientifique informelle par les blogs et Twitter, le système a été vérouillé par quelques-uns, qui n’ont pas permis à la discussion scientifique d’avancer comme elle le devrait. Cette discussion ouverte, à laquelle participe également la publication open access / libre accès, est essentielle. Nous vivons une révolution pacifique et très positive, et il faut en être conscient et la soutenir.

Mise à jour : grosse discussion générée sur Twitter, avec intervention de l’excellent Alan Drummond entre autres (cliquez sur le Tweet pour voir les réponses). Et vive les médias sociaux en science.

 

Ciel ! On critique un article scientifique sur Twitter !

cliquez sur l'image

cliquez sur l’image

Après une longue pause, ce blog redémarre. Je reviendrais sur mes réflexions sur les blogs et la communication scientifique prochainement, mais commençons par un billet sur un petit évènement qui agite mon landerneau, celui de la génomique et la bioinformatique de l’évolution. Et qui éclaire l’évolution de la publication et du débat scientifique à l’heure des réseaux sociaux.

Mes plus fidèles lecteurs se rappeleront du projet ENCODE (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). L’original concernait l’humain, il y a eu ensuite un ENCODE souris, et un modENCODE mouche drosophile et vers nématode. Tous ces projets mènent à de nombreux articles scientifiques, certains décrivant les données, d’autres les utilisant pour diverses études. Fin 2014, une analyse publiée en coordination avec ENCODE souris (Lin et al 2014 ; voir aussi Figure 2 dans Yue et al 2014) montrait un résultat surprenant :

comparaison d’expression de gènes humain-souris, par analyse multivariée présentée bizarrement

Si vous trouvez la figure ci-dessus difficile à comprendre, vous êtes pardonné. En bref, les auteurs ont pris la mesure du niveau d’expression des gènes (leur niveau d’activité en première approximation) dans différents tissus (de testicules à estomac) de souris et d’humain. Pour chaque tissu humain ou souris, on a environ 20’000 mesures, pour autant de gènes. On peut réduire cela aux 2 ou 3 dimensions qui expliquent le mieux la variation, ce qu’ils ont fait. D’habitude on représente cela par des graphes 2D, qui sont lisibles au moins, mais ici ce sont des graphes 3D où la troisième dimension est très difficile à comprendre. Mais ceci est un péché véniel.

Ce qui est frappant pour le spécialiste dans ces figures, c’est que les tissus de regroupent par espèce (souris ensemble, humain ensemble) plutôt que par type de tissu (estomacs ensemble, reins ensemble). Ce qui revient à dire que les gènes exprimés dans un estomac de souris sont davantage similaires à ceux exprimés dans un rein de souris que dans un estomac humain. Ce qui est très surprenant : on s’attends plutôt à l’inverse, et d’ailleurs cela a été publié de manière répétée (même par mon labo). Et comme le fait remarquer l’inénarable Dan Graur (voir ici à son propos), si c’est vrai ça veut dire que l’étude des gènes de souris ne sert à rien pour étudier l’humain, et que donc ENCODE souris est un gaspillage d’argent. Ce que les auteurs d’ENCODE souris ne relèvent curieusement pas.

Ce résultat a paru bizarre a beaucoup de monde, et une analyse rapide dans mon labo semblait indiquer qu’il était du à ce que les expériences de souris et d’humain ont été faites différemment, et donc ce que l’on verrait serait le biais expérimental plutôt que le signal biologique. Mais montrer publiquement qu’un collègue a tort, c’est du boulot (cf ici), qu’on n’avait pas envie de poursuivre dans ce cas-ci.

Heureusement, un collègue de Chicago, Yoav Gilad, a décidé de le faire, et il a lancé un Tweet tonitruant :

Bon tonitruant sur l’échelle des débats feutrés en science hein. L’important c’est qu’il a montré que les résultats publiés ne tenaient pas, mais qu’en enlevant les biais expérimentaux on retrouvait bien un regroupement par tissus. Il a ensuite mis son article sous forme non encore expertisée sur le site de F1000, qui permet de rendre publique toutes les versions d’un papier, avant pendant après expertise, ainsi que les expertises elles-mêmes, afin que tous puissent discuter librement :

A reanalysis of mouse ENCODE comparative gene expression data. Yoav Gilad, Orna Mizrahi-Man F1000

A noter que les commentaires sous cet article « brouillon » sont très constructifs, et comprennent deux réponses détaillées des auteurs d’origine du consortium ENCODE.

Le tweet d’origine a fait beaucoup réagir dans le microcosme des biologistes des génomes, et a donné lieu a un compte-rendu dans le magazine Nature, où notamment l’auteur sénior (le chef quoi) de l’article d’origine, Michael Snyder, a déclaré que Gilad avait « brisé les normes sociales de la science en postant initialement sa critique sur Twitter » :

Michael Snyder, a geneticist at Stanford University in California and co-author of the original paper, stands by his team’s study and its conclusions and says that Gilad broke the “social norms” of science by initially posting the critique on Twitter. Gilad says that he took to social media to highlight his work, which might otherwise have been overlooked.

Cette réaction de Snyder a provoqué pas mal de réactions sarcastiques sur Twitter et blogs. Le ton général était qu’une publication scientifique est, bin, publique, et doit être critiquée publiquement. Et que la norme sociale de la science, ça doit être de faire les meilleures analyses et d’accepter la critique. Certains collègues pensent toutefois que Twitter est trop brutal, une appréciation que je ne partage toutefois pas. Si on reçoit énormément d’argent des contribuables pour faire de grosses études, qu’on les publie à grande fanfare dans les journaux les plus réputés, on doit s’attendre à être jugé et critiqué à l’échelle de cet investissement et de ce retentissement. A vrai dire, certains collègues éminents (Ewan Birney, Lior Pachter) ont dit que si l’analyse de Gilad était confirmée, l’article de Snyder devrait être rétracté, ce qui est très brutal. Et je pense que l’analyse va être confirmée. Le statisticien renomé en génomique Rafael Izarry a publié un billet sur son blog où il affirme que la mise en place de l’expérience était tellement faussée du départ que les auteurs ne pouvaient simplement rien trouver, et que donc toute l’analyse est forcément invalide. En fait, dans la discussion beaucoup de personnes disent que soit on enlève et le biais expérimental et l’effet (potentiel) espèce-spécifique, soit on confond les deux, mais ils ne sont pas démélables en l’état (voir à ce propos un excellent billet de Lior Pachter qui référence un billet du cafe-sciences dans les commentaires).

On revient à un point déjà traité précédemment sur ce blog, à propos des gros projets de génomique et autre « big science ». Les scientifiques très connus et très établis, qui obtiennent de très gros budgets et publient fréquemment dans les plus grandes revues, ne sont plus à l’abri des critiques. Avant, elles existaient, mais ils pouvaient les ignorer, et surtout compter que les personnes les finançant et les jugeant les ignoraient. Maintenant, c’est public et c’est très rapide, et ces scientifiques et ces revues prestigieuses doivent s’habituer à une discussion beaucoup plus animée et critique qu’avant. C’est pour le mieux pour la science et c’est ça qui compte.

Anecdote personnelle : maintenant quand j’expertise ou j’édite un article (voir les rôles dans ce billet), je réfléchis avant de soumettre mon avis : que penserais-je si cet article était publiquement critiqué ? Serait-je fier ou honteux de mon rôle dans la publication. Et peut-être que je suis un peu plus prudent qu’avant, et c’est bien.

Manipuler les champignons pour mieux cultiver le manioc

cliquez sur l'image pour savoir comment Superman peut sauver le monde

cliquez sur l’image pour savoir comment Superman peut sauver le monde

Il y a un article d’un collègue dont je voulais parler depuis un an. Comme je n’ai jamais trouvé le temps d’en parler longuement, je vais en parler rapidement, ça me donnera une excuse pour revenir sur le sujet quand il aura de nouveaux résultats publiés.

Les champignons mycorhiziens (arbuscular mycorrhizal fungi : AMF) sont des champignons qui vivent en symbiose avec des plantes (très bon article dans Wikipedia francophone pour une fois). On sait depuis longtemps que la présence de ces champignons améliore la productivité des plantes au labo. Le groupe de mon collègue, Ian Sanders, et d’autres ont aussi montré au labo que différentes variétés de la même espèce de champignons avaient une efficacité différente sur la croissance et la productivité des plantes. Mais le défi qui leur était présenté était de montrer que ceci était pertinent à l’agriculture réelle, hors du labo.

Ian a donc échangé son chapeau de chercheur fondamental en écologie pour celui du chercheur appliqué en agronomie (je vous rassure, il fait encore du fondamental aussi), et a trouvé une collaboration avec la Colombie. Pourquoi là-bas ? Une bonne raison est que l’on s’attend à ce que les AMF fassent davantage de différence dans les sols acides typiques des pays tropicaux humides, pour lesquels de nombreux engrais (phosphates, nitrates) sont typiquement nécessaires pour augmenter la productivité. Et parce qu’en Colombie on étudie la culture du manioc, qui est une culture vivrière dans de très nombreux pays pauvres.

Et le résultat dont je voulais parler, publié en août 2013 dans PLOS One, est que oui l’innoculation de champignons AMF cultivés, sur du manioc en plein champ, améliore la productivité :

Effet de l'ajout d'AMF (barres noires). En (b) remarquer que l'ajout de phosphate (gauche à droite) améliore aussi, mais l'AMF peut compenser zero phosphate ajouté.

Effet de l’ajout d’AMF (barres noires). En (b) remarquer que l’ajout de phosphate (gauche à droite) améliore aussi, mais l’AMF peut compenser zero phosphate ajouté.

Alors ce n’est qu’une première étude, d’autres sont en cours, mais les colombiens qui travaillent avec Ian sont très enthousiastes, et il y a aussi une collaboration avec une compagnie qui peut potentiellement produire en quantité industrielle les AMF le jour où le bon mélange est trouvé. Il y a aussi un projet parallèle qui démarre en Afrique.

Maintenant que je me suis lancé sur le sujet, j’espère bien que je trouverais le temps d’y revenir. 🙂

Mise à jour : il y a eu un excellent article là-dessus sur le site de PBS, la télévision publique américaine (en anglais donc) : The next revolution may rely on microbes.

Réflexions sur l’apport de l’informatique à la bioinformatique

cliquez sur l'image

cliquez sur l’image

J’ai récemment été au séminaire de retraite GNOME (Gonnet is Not Only Molecular Evolution) de Gaston Gonnet, un grand bonhomme de l’informatique (Google Scholar), notamment connu pour le logiciel de calcul Maple, et ces 25 dernières années pour ses contributions parfois remarquées à la bioinformatique et à l’évolution moléculaire. Le séminaire a inclus des informaticiens hard-core aussi bien que des collaborateurs biologistes, et bien sur des bioinformaticiens, certains formés par Gaston à l’interface interdisciplinaire. C’est l’occasion de réfléchir à l’interaction informatique-biologie, et notamment à l’apport de l’informatique.

Bien sur, les ordinateurs plus puissants, les languages de programmation de haut niveau, et les systèmes de gestion de données, sont utiles à la biologie, mais ce n’est pas de ça que je veux parler. La recherche en informatique, ce sont de nouveaux algorithmes, des démonstrations de complexité, voire de nouveaux languages de programmations ou manières de représenter l’information.

Prenons l’exemple de la première contribution (remarquée) de Gaston à la bioinformatique : la matrice de Gonnet (Gonnet et al 1992 Science 256: 1443-1445).

La contribution a été remarquée à la fois grâce au résultat, et à cause du ton du papier, qui contient la phrase « The parameters provide definitive answers to two fundamental questions concerning protein alignment: What does a mutation cost? and What does a gap cost?« . Cette phrase n’est probablement pas due à Gaston (communication personnelle), mais elle est quelque part emblématique d’un certain type de relations entre bioinformaticiens issus de la culture de la démonstration de l’informatique et des maths (voir aussi Lior Pachter) et bioinformaticiens issus de la culture empirique de la biologie.

Bref, un peu d’histoire. Le type de matrice dont on parle ici est un genre de tableau qui donne les probabilités de changement d’un acide aminé en un autre lors de l’évolution des protéines. Les protéines sont des chaînes d’acides aminés, qui forment un « alphabet » de 20 lettres. Une protéine peut changer par mutation soit en remplaçant un acide aminé par un autre, soit par délétion ou insertion d’acides aminés. Un acide aminé peut être remplacé par un autre selon une probabilité qui dépend à la fois de propriétés chimiques et du code génétique (certains changements sont plus faciles à obtenir par hasard), et de l’impact fonctionnel sur la protéine (certains changements ont plus de chances de casser la fonction de la protéine, et sont donc éliminés par la sélection naturelle – ce qui diminue la probabilité de les observer en pratique). Dans les années 1960, celle qui a probablement fondé la bioinformatique sans ordinateurs, Margaret Dayhoff, a eu l’excellente idée de comparer beaucoup de séquences de protéines homologues (beaucoup à l’époque : quelques dizaines) (homologues : en gros la même protéine dans différentes espèces ; voir ce billet), et de compter les changements entre tous les types d’acides aminés. Ce qui lui a permis de construire la première matrice de probabilités de changements entre acides aminés, connue comme PAM (point accepted mutation). Y a une explication plus détailée sur le blog bioinfo-fr.

Etape 1 donc : intuition du biologiste, qui lui permet d’obtenir un résultat et un outil utiles.

Ensuite, des informaticiens ont démontré la manière optimale d’aligner des protéines pour savoir quels acides aminés comparer de manière mathématiquement correcte (Needleman-Wunsch). Démonstration cool, bien que limitée à l’époque par la puissance des ordinateurs : les algorithmes exacts sont lents. Mais ces démonstrations ont formé la base de beaucoup de travail suivant.

Etape 2 : des informaticiens démontrent des théorèmes et trouvent des algorithmes exacts, quoique souvent inutiles en pratique (provoc assumée).

Dans les années 1980, Gaston Gonnet avait travaillé sur des algorithmes rapides et efficaces pour chercher dans tous les mots de l’Oxford English Dictionnary. Il a alors été contacté par un biologiste assez original et brillant, Steven Benner, qui lui a proposé, et je cite, « de travailler sur des données intéressantes » (par opposition au dictionnaire apparemment). Ils ont relevé le défi de mettre à jour les vieilles matrices de Dayhoff, avec bien davantage de données, en utilisant les algorithmes de Gaston pour les dictionnaires. Ils ont ainsi calculé la matrice de Gonnet, qui inclut non seulement une mise à jour des probabilités de changement entre acides aminés, mais des estimations des probabiliés d’insertion et de délétion (les « gaps » de la citation ci-dessus) grâce également à l’emploi de la méthode Needleman-Wunsch.

Etape 3a : les informaticiens répètent le travail des biologistes – bioinformaticiens (Dayhoff), mais bien plus efficacement.

Etape 3b : la collaboration entre biologistes et informaticiens qui se s’écoutent et travaillent efficacement ensemble déchire tout.

A noter aussi qu’une partie de l’apport de Gaston était dans la manière de représenter l’information dans un ordinateur pour des recherches rapides, et qu’il a implémenté ses méthodes dans un language qu’il a développé, appellé … DARWIN.

Voilà bien sur c’est un cas particulier, mais souvent comme ici le point de départ d’une nouvelle approche vient de l’intuition des biologistes, elle est rendue efficace par les informaticiens, et quand on travaille vraiment ensemble on fait de grandes choses.

En plus ils m’ont donné un t-shirt à la conf, avec un gnome cool, et j’ai appris que « gnomes » était un surnom des banquiers zurichois.

Mise à jour : des liens pertinents via Christophe Dessimoz :

Cellules souches à l’acide, c’est fini. Quelles conséquences pour la recherche et le rôle des réseaux sociaux?

Cliquez sur l'image

Cliquez sur l’image

Bin voilà, c’est fini. La grande promesse des cellules souches miracles obtenues rapidement pas cher (voir ce billet) est enterrée par le journal qui l’a publiée : Nature a retiré les deux papiers et le commentaire enthousiaste publié en même temps (voir aussi ce billet).

Je suis sur que beaucoup de choses vont être dites et écrites sur ce bazar, mais je voudrais juste revenir ici sur le rôle des médias sociaux, et l’interaction avec la publication classique (voir ce billet pour les types de publication). Pour simplifier, je vais partir du résumé sur le site retractionwatch et de l’excellent blog ipscell.

On rappelle que de nombreux lecteurs (biologistes) du papier ont remarqué et rapporté très rapidement des problèmes potentiels. Mais Nature dit que l’expertise avant publication (peer review) n’aurait pas pu le détecter. Comment cela se fait-il ? Des experts aguerris ne peuvent pas voir ce que voient des doctorants qui lisent le papier ?

En tous cas, Nature dit qu’ils vont maintenant faire plus attention aux figures. Vrai ? Chiche ? Parce qu’à l’heure d’internet, et contrairement aux bons journaux spécialisés, ils ne demandent toujours pas les photos originales en haute définition apparemment. Et ils ont quand même une phrase très étrange dans leur éditorial :

When figures often involve many panels, panels duplicated between figures may, in practice, be impossible for journals to police routinely without disproportionate editorial effort

Euh, le journal scientifique le plus célèbre du monde, dont les abonnements sont très chers, trouve que c’est trop de boulot de vérifier qu’il n’y a pas d’images dupliquées dans les articles qu’ils acceptent ? Et on nous fait ch..r avec les soit-disant problèmes de qualité de PLOS One ?

Et le point où je veux en venir : dans cet éditorial, Nature ne met pas en avant le rôle clé qu’ont joué les réseaux sociaux et les scientifiques qui y sont actifs. Ce sont des forums anonymes et des billets de blog qui ont pointé les problèmes, qui ont rapporté les tentatives de reproduction, et qui ont poussé à une réaction finalement assez rapide des instituts concernés, et d’abord le RIKEN au Japon (Harvard a été nettement moins réactif). Et ensuite Nature a réagi à l’enquête du RIKEN, mais sans ces médias sociaux, il est douteux que cela se soit passé aussi vite.

Et c’est à nouveau très important : comme discuté dans de précédents billets, les articles qui font sensation, qui rapportent des résultats très surprenants et/ou très intéressants, souvent dans de grandes revues un peu « magazine » comme Nature ou Science, sont maintenant sous le scrutin public de milliers de scientifiques pas forcément prestigieux, qui n’auraient pas voix au chapitre s’ils devaient attendre que Nature ou autre leur demande leur avis, mais qui sont rigoureux et passionés et ne laissent pas passer les bétises. Je pense que Nature en a conscience, et ne voit pas cela comme un progrès, avec leurs éditeurs professionnels et leurs abonnements hors de prix. Mais pour la science, pour la communauté scientifique, et pour la confiance que vous pouvez nous faire au bout du compte, je pense que c’est bien un progrès.

Discussion #FacebookExperiment, la suite

Cliquez sur l'image pour un quizz : how addicted to Facebook are you?

Cliquez sur l’image pour un quizz : how addicted to Facebook are you?

Suite à la découverte par internet le week-end dernier que Facebook avait publié une étude manipulant leurs utilisateurs, il y a eu beaucoup de discussions, et les débats reviennent pour l’essentiel à deux positions :

  • c’est inacceptable de manipuler les gens, et l’acceptation des conditions générales d’utilisation ne vaut pas consentement ;
  • pourquoi en faire toute une histoire ? de toutes façons la publicité, Google, et l’usage habituel de Facebook, nous manipulent bien plus tout le temps, et rien de plus grave que ça n’a été fait.

Voir par exemple (en français) le forum linuxfr ou la position de l’Agence Science Presse, ou (en anglais) le forum Slashdot.

Le commentaire de Pascal Lapointe (de l’ASP) sur le billet précédent apporte un éclairage intéressant : il distingue l’obligation absolue de consentement éclairé, d’une obligation peut-être moins évidente en sciences sociales. Mais il se trouve que le blog Pharyngula cite les principes de l’association américaine de psychologie, qui dit clairement que le consentement éclairé est nécessaire, dans des termes aisément compréhensibles.

De plus, les auteurs de l’étude en sont conscients, puisque premièrement ils disent qu’ils ont ce fameux consentement dans l’article, et deuxièment, et très grave, ils ont rajouté la mention d’études scientifiques dans les termes d’usage de Facebook… après l’étude ! (via The Guardian.) L’article lié note aussi que des mineurs ont pu participer à l’étude, ce qui est normalement très très encadré.

Ca me semble vraiment un aspect très grave de cette affaire. Ils savaient que le consentement éclairé était nécessaire, et ils ne l’ont pas fait. A mon sens, ceci devrait conduire à la rétraction de l’article dans PNAS.

Concernant l’argument « mais on se fait manipuler tout le temps ». On est sensé en être informé. La publicité est séparée de l’information, et marquée en tant que telle. Il est malhonnête, et dangereux, de présenter de la publicité comme de l’information. Or ici Facebook n’a pas « manipulé » les gens sensu publicité, ils ont modifié les nouvelles que des personnes recevaient d’autres personnes, à leur insu, et à des fins d’observer leurs réactions. C’est très différent de la publicité, y compris celle sur Google et Facebook. (Et si vous voulez dire qu’en général Facebook est dangereux… bien d’accord, je n’y suis pas.)

Je remarque cet argument surtout de la part de geeks / informaticiens qui connaissent bien le monde des géants de l’internet, et nettement moins le monde aux règles stringentes de la recherche. Ces règles ont des raisons historiques : il y a eu des abus, et on veut les éviter. C’est pas parce que le web est jeune qu’il peut ignorer cette histoire.

Un excellent article dans le New York Times fait remarquer un autre point : parmi les 700’000 personnes manipulées à leur insu, on n’a aucun moyen de savoir combien étaient dépressives ou suicidaires (et voir ci-dessus sur la possibilité que des adolescents aient participé). Lorsqu’il y a un consentement éclairé et un dispositif expérimental standard, les personnes à risque sont écartées de l’étude. Il peut y avoir des personnes suicidées ou internées suite à cette étude, comment le saurions-nous ? Les 700’000 n’ont toujours pas été informées qu’elles aient participé.

Pour finir sur une note plus légère, j’ai redécouvert via linuxfr un site qui présente les conditions d’utilisation de différents services internet sous forme aisément compréhensibles : cliquez sur l’image ci-dessous. Un excellent service !

facebook_tosdr

Mise à jour importante : le journal PNAS a ouvert les commentaires (via Pascal Lappointe). L’étude et son éthique sont défendues par l’auteur sénior de l’étude mentionnée dans mon précédent billet, qui a manipulé la mobilisation politique des gens durant une élection. Les autres intervenants ne sont pas d’accord avec lui. Moi non plus, pour les raisons expliquées ci-dessus.