Archives pour la catégorie conférence

Moi qui vous cause, je parle d’open access en vidéo

cc-by-ac-dc-men-s-t-shirtVendredi 11 novembre il y avait une conférence sur l’open access à l’Université de Genève, où l’on m’avait demandé de présenter « le point de vue du chercheur ». Après discussion avec les organisateurs, j’ai décidé de donner un point de vue assez subjectif, en insistant sur les méconceptions fréquentes sur l’open access, et sur les aspects pratiques et moraux pour les chercheurs.

Mon live-tweet de la conférence : hashtag #OAunige.

Ma présentation a été filmée, et la voilà :

En cliquant vous arriverez sur la page avec la vidéo, le embed fourni ne semble pas marcher

En cliquant vous arriverez sur la page avec la vidéo, le embed fourni ne semble pas marcher

Mes diapositives sur slideshare.

Si vous ne connaissez pas l’open access, j’ai écrit plusieurs fois dessus dans ce blog : mot clé politique de publication, et notamment ici une interview au magazine de mon université, et ici un article d’opinion dans Le Temps. En bref, open access c’est quand les articles écrits (gratuitement) par les chercheurs payés par les contribuables et donateurs sont disponibles gratuitement et réutilisables. Le contraire, « toll access » (expression que j’ai apprise pendant cette conférence et que j’ai bien aimé), c’est quand on donne l’entièreté des droits de vendre et contrôler notre labeur à des éditeurs, et qu’on doit payer des abonnements chers pour le lire.

(J’ai parfois écrit « libre accès », mais je vois que tous les francophones autour de moi utilisent « open access », dont acte.)

De nombreux malentendus sur l’open access semblent dus à ce que c’est un modèle relativement récent. Donc même si quelques journaux (comme Nucleic Acids Research) sont passé du toll access à l’open access, en général les journaux anciens sont en toll access, et les journaux en open access sont récents. D’où confusion avec d’autres caractéristiques corrélées à l’age des journaux : réputation, professionnalisme, etc. C’est un thème sur lequel je reviens plusieurs fois dans la conférence et dans la discussion suivante.

L’autre thème récurrent c’est que le choix de l’open access comprend des aspects pratiques, de coût, de visibilité, mais c’est aussi et surtout une question morale : tout le monde devrait avoir accès aux résultats de la recherche publique. Ce qui n’est pas sans lien avec mon billet d’hier sur les tribunes de chercheurs d’ailleurs.

 

Informatique, biologie et 6 millions de danois : les patients médicaux ont une histoire

cliquez sur l'image

cliquez sur l’image

Ceux qui me suivent sur Twitter ont souffert la semaine dernière, vu que j’étais à une conférence de bioinformatique, que j’ai live-tweetée abondamment. J’ai appris pas mal de choses intéressantes, et je voudrais revenir si j’ai le temps sur plusieurs des résultats intéressants. Et d’abord la conférence de Søren Brunak, bioinformaticien médical danois :

Creating disease trajectories from big biomedical data

basé notamment sur son article :

Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Jensen et al 2014 Nature Comm 5: 4022

Commençons par quelques points mis en avant sur Twitter par moi ou d’autres :

Le concept clé pour Søren est celui de « trajectoire » : un patient médical a un passé et un avenir, qui devraient être pris en compte dans son diagnostic et son traitement. Il veut donc utiliser les données qu’il a à disposition au Danmark pour déterminer statistiquement les trajectoires probables, et la manière dont elles influencent les traitements qui marchent ou pas, les chances de survie ou de complication, etc.

L’équipe de Søren a utilisée les données complètes des hôpitaux danois de 1996 à 2010, soit 6,2 millions de patients avec 65 millions de visites. On sait dans quel ordre un patient a eu quels diagnostics ou traitements, et avec quelles conséquences. Ils ont découvert 1171 « trajectoires » significatives. Une trajectoire est une suite de diagnostiques ou d’actes médicaux qui se suivent dans un certain ordre davantage qu’attendu au hasard.

Par exemple : ncomms5022-f2

En (a) on voit des séries de maladies qui se suivent fréquemment, liées au cancer de la prostate. En (b), ces séries sont regroupées de manière à montrer toutes les trajectoires de manière synthétique.

Un point important est que ceci est déterminé automatiquement, en utilisant d’abord une corrélation assez simple entre diagnostics. La probabilité d’observer une corrélation au hasard est estimée en ré-échantillonnant les données (en mélangeant les observations au hasard en d’autres termes) des millions de fois, et en corrigeant pour le fait d’avoir effectué des tests multiples. Comme ça prend du temps de calcul, ils ont fait ça sur une partie des données, puis utilisé ces résultats pour valider une approche plus rapide. Ils ont assemblé les paires de diagnostics en séries en prenant simplement les chevauchements (si on a A->B et B->C, alors on a A->B->C), avec à nouveau un test pour vérifier la significativité statistique ; pour limiter le bruit statistique, les trajectoires avec moins de 20 patients au total ont été éliminées de l’analyse. Les trajectoires sont regroupées, comme montré en (b) ci-dessus, par Clustering Markovien. C’est là que j’apprends en vérifiant mes sources que cette approche très utilisée en bioinformatique n’a pas été vraiment publiée hors d’une thèse de maths. La page de référence étant celle du logiciel fourni par ledit mathématicien : MCL. A la base, la méthode cherche dans un graphe (des points liés par des traits, voir figure ci-dessus) des « chemins » plus probables si on marche au hasard dans le graphe, lesquels chemins correspondent à des sous-ensembles du graphe qui sont mieux connectés. Donc à des sous-ensembles, par exemple de diagnostiques, qu’il faut regrouper. CQFD. Y a d’autres trucs amusants dans leurs études, comme le développement d’une méthode informatique permettant de comprendre automatiquement les textes écrits par des médecins en danois, y compris les négations (très importantes dans les diagnostiques).

Allez, deux plus gros graphes :

ncomms5022-f3

Là on peut voir par exemple en (a) que la plupart des maladies suivant une athrosclérose, et pouvant être considérées éventuellement comme des complications, ne viennent comme complications plutôt d’une Bronchopneumopathie chronique obstructive (COPD en anglais), qui suit souvent mais pas toujours l’arthrosclérose.

ncomms5022-f4Bon avouez que c’est joli.

Sinon, pour montrer encore un peu ce que l’on peut trouver dans ces données et l’importance de la médecine personalisée, voici les incidences de quelques classes de diagnostiques en fonction du sexe et du type de viste : patient hospitalisé (in-patient), patient en visite libre (out-patient), urgence (emergency) :

ncomms5022-f1Tiens, les femmes ont plus souvent des diagnostics d’accouchement (en vert) que les hommes, et sont généralement hospitalisées à ce moment-là. 😉 Et les blessures (en rouge) sont plutôt le fait d’hommes de 21 ans, et se retrouvent aux urgences. Comme quoi ça marche ces stats.

Comme vous l’aurez peut-être remarqué dans les tweets ci-dessus, cette étude a été permise par une législation très libérale en ce qui concerne la collecte et l’utilisation des données personnelles au Danmark. Il n’est pas évident que de telles études soient portables à d’autres sociétés, moins enclines à faire confiance à leur état et leurs institutions. Il n’est en fait pas évident pour moi que ce soit souhaitable, contrairement à ce que souhaite clairement Søren Brunak. Mais si de telles études ne sont pas répétées, il y a le risque d’avoir une information très biaisée par les risques génétiques des danois, et surtout par leur mode de vie, qui se caractérise apparemment par une nourriture grasse et peu d’exercice. Søren a donc admis bien volontiers que, même si les résultats ont été partiellement vérifiés en Grande Bretagne et aux Pays Bas, il seraient difficiles à généraliser à un pays méditerranéen ou d’Asie de l’Est, par exemple.

Il n’en reste pas moins que les grandes lignes de cette étude sont probablement très généralement correctes, et qu’une information partielle de ce type vaut mieux qu’aucune information à mon avis. Une complainte fréquente des patients des hopitaux et médecins traditionnels est que leur histoire n’est pas prise en compte, d’où une tendance à aller chez des charlatans qui font n’importe quoi, mais écoutent attentivement toute l’histoire et rassurent sur l’avenir. On voit ici que l’exploitation intelligente de grandes quantités de données médicales a le potentiel de permettre une prise en compte rationnelle et réellement utile des histoires des patients.

Note de service : les commentaires ne vont pas fonctionner ce mercredi-jeudi 17-18 juin, en raison de maintenance du serveur cafe-sciences.org.

Update: following demand on Twitter, an English translation is available here.

Notes sur ma semaine en sciences 5

(pas d’image, le wifi de l’hotel est trop lent.)

  • Pierre Barthélémy du blog Passeur de sciences sur Le Monde évite d’habitude de parler d’OGM. Il y a une actualité scientifique intéressante sur le sujet (utilisation d’interférence ARN), il fait un billet, et qu’est-ce qui domine les commentaires ? Des trucs à coté de la plaque sur Monsanto et le bio, des remarques négatives sur le ton de son titre, et des remarques particulièrement constructives sur la photo d’illustration. Faut pas désespérer.
  • Article très intéressant (accès fermé hélas) qui montre un modèle de prédiction très précise de l’expression de gènes de levure en fonction de l’affinité précise (et manipulable expérimentalement) de l’ADN devant le gène (le promoteur) pour des protéines de régulation (facteurs de transcription). N’en déplaise à M. Kupiec.
  • Je passe le gros de la semaine au congrès européen de biologie évolutive ESEB. Il faudrait que j’en fasse un compte-rendu sur ce blog, ça serait pas cool ça ? Mais du coup j’ai peu d’autres nouvelles neuves. Ce qui m’a frappé dans la conférence cette année ? Le pouvoir de la génomique à unir des domaines qui avaient peu en commun, de la génétique moléculaire à l’étude de la spéciation, de l’hybridation et la domestication à l’expression des gènes et l’évolution de la morphologie jusqu’à la sélection naturelle et l’étude de l’impact du changement climatique. Et plein d’études sur les papillons et les épinoches.
  • Un hybride journal / blog sur l’intersection médecine et biologie évolutive : The Evolution & Medicine Review.