Vent de folie dans les journaux scientifiques: 2- halte aux parasites qui osent analyser les données

Après le dogme cladiste issu du fond des ages, un nouvel épisode de « maman j’ai raté le 21ème siècle », avec l’éditorial du New England Journal of Medicine du 21 janvier. Contrairement au journal Cladistics (voir billet précédent), NEJM est très connu et reconnu, l’un des plus prestigieux de la recherche en médecine :

Dan L. Longo, M.D.*, and Jeffrey M. Drazen, M.D.* Data sharing N Engl J Med 2016; 374:276-277
* M.D. = medical doctor, parce que pour les chercheurs en médecine les titres sont souvent importants ; no comment.

Que dit l’éditorial (j’ai mis une version rapidement annotée sur Dropbox ici) ? Après avoir dit quelques mots sur la beauté théorique du partage des données, ça se gâte :

The first concern is that someone not involved in the generation and collection of the data may not understand the choices made in defining the parameters.

Les éditorialistes s’inquiètent de ce que des chercheurs n’ayant pas participé à la collecte des données ne comprennent pas les subtilités de ces données, et donc les interprètent mal. Donc ils pensent que le rapport des méthodes dans les articles, et les informations fournies avec les données, ne suffisent pas à comprendre ce qui a été fait ? C’est très inquiétant. En science, on doit rapporter les choses de manière reproductible (voir débat à propos du code scientifique).

Ca devient pire :

A second concern held by some is that a new class of research person will emerge — people who had nothing to do with the design and execution of the study but use another group’s data for their own ends, possibly stealing from the research productivity planned by the data gatherers, or even use the data to try to disprove what the original investigators had posited.

Et d’une, il risque d’émerger une classe de gens qui volent la productivité des collecteurs de données (noble occupation on le comprend). Enchanté, moi je suis prof de bioinformatique depuis 2005, et je fais ça depuis le milieu des années 1990. Margaret Dayhoff a publié le premier atlas de séquences et structures de protéines en 1965 (pas trouvé de version en ligne), et Grantham et al (conflit d’intérêts : j’ai cosigné des articles avec deux des « et al ») ont découvert que différentes espèces utilisaient le code génétique universel de manière subtilement différente en analysant toutes les séquences d’ADN alors disponibles en 1980.

Et de deux, les éditorialistes ont peur que « même » de vils chercheurs utilisent les données des gentils collecteurs de données pour tenter d’invalider les hypothèses de départ. Mais c’est que ça oserait faire de la science ces vauriens ! (Bon, conflit d’intérêt, c’est ce que je fais moi, voir ici en anglais par exemple.)

On arrive à la phrase qui a le plus enflammé les réseaux sociaux des scientifiques :

There is concern among some front-line researchers that the system will be taken over by what some researchers have characterized as “research parasites.”

Ah on est des parasites ? Hop, hashtags Twitter #Iamaresearchparasite, #researchparasites et #researchparasite. Alors, là ça a réagi de partout : le storify.

Soyons justes, l’éditorial propose une solution : quand on veut analyser des données, on doit concevoir une hypothèse non évidente, contacter les auteurs de l’étude d’origine, et établir une fructueuse collaboration entre gens bien nés. Ca n’arrive en effet jamais de manière légitime que l’on veuille analyser les données de centaines d’expériences, que l’on veuille remettre en cause les analyses telles que publiées, ou que l’on veuille analyser des données publiées il y a des années par des personnes parties à la retraite ou ayant arrété de faire de la recherche. Et bien entendu ceux qui génèrent des données intéressantes ont le temps de prendre en compte et répondre de manière appropriée à toutes les demandes qui pourraient leur être faites (génome humain : plus de 18000 citations). Le bioinformaticien Claus Wilke donne sur son blog l’histoire intéressante d’un cas où il a du promettre de co-signer un papier pour avoir les données sur un soit-disant effet du jaune d’oeuf qui serait aussi mauvais pour la santé que le tabac. Ayant eu les données, il a refait l’analyse, trouvé que l’analyse de départ était faussée, et que l’hypothèse ne tenait pas. Les chercheurs en médecine concernés l’ont traité avec mépris, et il n’y a jamais eu de publication. Comme il avait signé de ne pas publier tout seul, ça en est resté là. Voilà le problème de la seule approche « collaborative » bien illustré.

Quelques autres réactions en vrac : Une traduction rigolote en anglais ordinaire. Un point de vue qui contraste cet éditorial avec les déclarations du vice-président américain sur le partage de données pour combattre le cancer. Puis un point de vue d’écologie (la science) discutant comme le partage des données peut en effet être difficile. Et une interprétation de cet éditorial comme le dernier des dinosaures mourants de l’ancienne façon de faire de la recherche bio-médicale.

Et puis c’est pas comme si ce journal avait un problème de reproducibilité des résultats, par exemple s’il avait un taux élevé d’articles rétractés :

corrélation entre facteur d'impact et taux de rétraction, avec flèche vers le journal que dont il est question ici

corrélation entre facteur d’impact et indice de rétraction, avec flèche vers le journal que dont il est question ici

Bon 4 jours plus tard ils ont publié un correctif (ce qui montre une fois de plus l’impact des médias sociaux sur la façon de fonctionner de la science, y compris ceux qui se croient à l’abri en haut de la tour d’ivoire). Ils disent qu’ils sont gentils, parce qu’ils ont signé des accords de diffusion des données. D’ailleurs même s’ils trouvent que c’est de mauvais goût, ils vont les respecter. Mais ils réitèrent que c’est légitime de considérer ceux qui analysent les données avec suspicion pour le moins. Et dans un article dans Forbes, l’auteur principal de l’éditorial a refusé de condamner le terme « parasites ». Comme dit sur le blog de Mick Watson, ce n’est pas encore des excuses, et c’est insuffisant.

Finalement le mieux qui soit sorti de tout ceci sont les dessins de RedPenBlackPen, qui dessine sur la science :

3 réponses à “Vent de folie dans les journaux scientifiques: 2- halte aux parasites qui osent analyser les données

  1. Pingback: Vent de folie dans les journaux scientifiques: 3- CRISPR/Cas édite l’histoire de la génomique | Tout se passe comme si

  2. Commentaire mis sur « Qui suis-je » mais je pense destiné à ce billet :

    http://toutsepassecommesi.cafe-sciences.org/quisuise/#comment-26814

    « juste une réaction sur ce qui a fait notre métier, le terme de parasitisme est très discutable et celui de symbiose me semble largement préférable. en fonction des conditions écologiques, de caractéristique génomique, de condition physiologique la relation entre un « hôte » et un même symbiote peut prendre des formes différentes. L’exemple le plus clair est certainement que les jeux de données d’une qualité exceptionnelle sont analysés plus souvent et bénéficie ainsi d’une publicité et d’un facteur d’impact bien supérieur aux mauvais. Non les statisticiens symbiotiques ne sont pas que des parasites !!! »

    (Christian Gautier est mon co-directeur de master et de thèse et un des auteurs de Grantham et al cité ci-dessus)