Archives pour l'étiquette santé

Informatique, biologie et 6 millions de danois : les patients médicaux ont une histoire

cliquez sur l'image

cliquez sur l’image

Ceux qui me suivent sur Twitter ont souffert la semaine dernière, vu que j’étais à une conférence de bioinformatique, que j’ai live-tweetée abondamment. J’ai appris pas mal de choses intéressantes, et je voudrais revenir si j’ai le temps sur plusieurs des résultats intéressants. Et d’abord la conférence de Søren Brunak, bioinformaticien médical danois :

Creating disease trajectories from big biomedical data

basé notamment sur son article :

Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Jensen et al 2014 Nature Comm 5: 4022

Commençons par quelques points mis en avant sur Twitter par moi ou d’autres :

Le concept clé pour Søren est celui de « trajectoire » : un patient médical a un passé et un avenir, qui devraient être pris en compte dans son diagnostic et son traitement. Il veut donc utiliser les données qu’il a à disposition au Danmark pour déterminer statistiquement les trajectoires probables, et la manière dont elles influencent les traitements qui marchent ou pas, les chances de survie ou de complication, etc.

L’équipe de Søren a utilisée les données complètes des hôpitaux danois de 1996 à 2010, soit 6,2 millions de patients avec 65 millions de visites. On sait dans quel ordre un patient a eu quels diagnostics ou traitements, et avec quelles conséquences. Ils ont découvert 1171 « trajectoires » significatives. Une trajectoire est une suite de diagnostiques ou d’actes médicaux qui se suivent dans un certain ordre davantage qu’attendu au hasard.

Par exemple : ncomms5022-f2

En (a) on voit des séries de maladies qui se suivent fréquemment, liées au cancer de la prostate. En (b), ces séries sont regroupées de manière à montrer toutes les trajectoires de manière synthétique.

Un point important est que ceci est déterminé automatiquement, en utilisant d’abord une corrélation assez simple entre diagnostics. La probabilité d’observer une corrélation au hasard est estimée en ré-échantillonnant les données (en mélangeant les observations au hasard en d’autres termes) des millions de fois, et en corrigeant pour le fait d’avoir effectué des tests multiples. Comme ça prend du temps de calcul, ils ont fait ça sur une partie des données, puis utilisé ces résultats pour valider une approche plus rapide. Ils ont assemblé les paires de diagnostics en séries en prenant simplement les chevauchements (si on a A->B et B->C, alors on a A->B->C), avec à nouveau un test pour vérifier la significativité statistique ; pour limiter le bruit statistique, les trajectoires avec moins de 20 patients au total ont été éliminées de l’analyse. Les trajectoires sont regroupées, comme montré en (b) ci-dessus, par Clustering Markovien. C’est là que j’apprends en vérifiant mes sources que cette approche très utilisée en bioinformatique n’a pas été vraiment publiée hors d’une thèse de maths. La page de référence étant celle du logiciel fourni par ledit mathématicien : MCL. A la base, la méthode cherche dans un graphe (des points liés par des traits, voir figure ci-dessus) des « chemins » plus probables si on marche au hasard dans le graphe, lesquels chemins correspondent à des sous-ensembles du graphe qui sont mieux connectés. Donc à des sous-ensembles, par exemple de diagnostiques, qu’il faut regrouper. CQFD. Y a d’autres trucs amusants dans leurs études, comme le développement d’une méthode informatique permettant de comprendre automatiquement les textes écrits par des médecins en danois, y compris les négations (très importantes dans les diagnostiques).

Allez, deux plus gros graphes :

ncomms5022-f3

Là on peut voir par exemple en (a) que la plupart des maladies suivant une athrosclérose, et pouvant être considérées éventuellement comme des complications, ne viennent comme complications plutôt d’une Bronchopneumopathie chronique obstructive (COPD en anglais), qui suit souvent mais pas toujours l’arthrosclérose.

ncomms5022-f4Bon avouez que c’est joli.

Sinon, pour montrer encore un peu ce que l’on peut trouver dans ces données et l’importance de la médecine personalisée, voici les incidences de quelques classes de diagnostiques en fonction du sexe et du type de viste : patient hospitalisé (in-patient), patient en visite libre (out-patient), urgence (emergency) :

ncomms5022-f1Tiens, les femmes ont plus souvent des diagnostics d’accouchement (en vert) que les hommes, et sont généralement hospitalisées à ce moment-là. 😉 Et les blessures (en rouge) sont plutôt le fait d’hommes de 21 ans, et se retrouvent aux urgences. Comme quoi ça marche ces stats.

Comme vous l’aurez peut-être remarqué dans les tweets ci-dessus, cette étude a été permise par une législation très libérale en ce qui concerne la collecte et l’utilisation des données personnelles au Danmark. Il n’est pas évident que de telles études soient portables à d’autres sociétés, moins enclines à faire confiance à leur état et leurs institutions. Il n’est en fait pas évident pour moi que ce soit souhaitable, contrairement à ce que souhaite clairement Søren Brunak. Mais si de telles études ne sont pas répétées, il y a le risque d’avoir une information très biaisée par les risques génétiques des danois, et surtout par leur mode de vie, qui se caractérise apparemment par une nourriture grasse et peu d’exercice. Søren a donc admis bien volontiers que, même si les résultats ont été partiellement vérifiés en Grande Bretagne et aux Pays Bas, il seraient difficiles à généraliser à un pays méditerranéen ou d’Asie de l’Est, par exemple.

Il n’en reste pas moins que les grandes lignes de cette étude sont probablement très généralement correctes, et qu’une information partielle de ce type vaut mieux qu’aucune information à mon avis. Une complainte fréquente des patients des hopitaux et médecins traditionnels est que leur histoire n’est pas prise en compte, d’où une tendance à aller chez des charlatans qui font n’importe quoi, mais écoutent attentivement toute l’histoire et rassurent sur l’avenir. On voit ici que l’exploitation intelligente de grandes quantités de données médicales a le potentiel de permettre une prise en compte rationnelle et réellement utile des histoires des patients.

Note de service : les commentaires ne vont pas fonctionner ce mercredi-jeudi 17-18 juin, en raison de maintenance du serveur cafe-sciences.org.

Update: following demand on Twitter, an English translation is available here.

Redif : #Wikipedia est une excellente source d’informations scientifiques et médicales

On continue la rediffusion de vieux billets. Un autre de janvier 2012 (original sur blogspot) :

cliquez sur l’image (et n’oubliez pas de cliquer sur le point rouge)

Je commence ce billet par une constatation double : beaucoup de mes collègues et moi-même faisons un usage abondant et pertinent de Wikipedia dans notre vie professionnelle (vous croyez que je connais tous les gènes, tous les organes, toutes les bestioles ?) ; et d’autre part beaucoup de personnes à l’université continuent à décourager les étudiants d’utiliser Wikipedia, et à le traiter comme une sous-resource, pour paresseux. Je trouve ça choquant, et je le prouve.

Une étude récente (malheureusement d’accès payant paradoxalement) dans le journal Psychological Medecine a comparé l’information concernant des pathologies liées à la schizophrénie (5 pathologies) ou à la dépression (5 pathologies) entre différentes sources d’information : les sites internet arrivant en tête de recherches pour « depression » ou « schizophrenia » (14 sites au total), y compris Wikipedia mais aussi des sites plus officiels, comme celui du National Institute of Mental Health, ainsi que l’Encyclopedia Britanica en ligne, et un livre de psychiatrie utilisé en études de médecine.

En comparant ces différentes ressources, ils trouvent, et je cite :

The quality of information about depression and schizophrenia on Wikipedia was generally rated higher than other centrally controlled resources, including 14 mental health-related websites, Encyclopaedia Britannica and Kaplan & Sadock’s Comprehensive Textbook of Psychiatry.

En d’autres termes, et comme ils précisent plus loin, les articles de Wikipedia sur des sujets de santé contiennent peu d’erreurs factuelles, malgré un certain manque de couverture. Ils sont également bien référencés, mais paradoxalement peuvent être difficiles à comprendre. Ils sont généralement meilleurs en moyenne que les autres sources, y compris le livre spécialisé.

De manière intéressante aussi, bien qu’un avantage majeur de Wikipedia sur le livre est sa mise à jour fréquente et rapide, le livre fait mieux que la plupart des sites web officiels. Ces sites sont moins bons que le livre, mais pas plus à jour. Au moins, ils sont gratuits.

Ceci nous amène à un second point, qui est qu’il est difficile de maintenir de l’information scientifique ou médicale à jour de manière centralisée, avec des ressources forcément limitées.

Il y a un autre article récent sur ce sujet dans le numéro spécial annuel sur les bases de données en biologie (NAR Database, entièrement gratuit) : les auteurs discutent de l’intégration entre Wikipedia, ou d’autres approches participatives, avec des bases de données spécialisées de biologie. Ils partent de leur expérience positive avec les bases de données Pfam (domaines protéiques) et Rfam (ARNs fonctionnels) : les données structurées sont dans une base de données SQL dédiée, mais les annotations en texte qui décrivent la fonction des molécules passent par Wikipedia. Plus précisément, à un moment ils ont exporté toute leur information vers Wikipedia, et depuis ils récupèrent toutes les modifications qui sont faites dans les pages Wikipedia correspondantes, et les remettent dans Pfam et Rfam.

Par exemple, l’article sur mon domaine préféré, de liaison aux hormones des récepteurs nucléaires d’hormones : dans la page Pfam il y a de l’information textuelle, avec un bouton « Edit in Wikipedia ». On clique dessus, et on arrive sur la page Wikipedia correspondante, en mode édition directement qui plus est. Et là-dedans vous avez de jolies boîtes avec de l’information structurée venant de Pfam. C’est beau c’est grand c’est magnifique.

Ils ont des curateurs qui vérifient les infos venant de Wikipedia, et ils en acceptent 99%. Ils ont des milliers d’éditions par an, donc beaucoup d’informations pertinentes, à jour, et … gratuites. Et disponibles à tous !

Ils regardent aussi d’autres modèles d’intégration avec Wikipedia, et les limitations. Par exemple, Wikipedia a un critère d’intérêt général, qui fait qu’on peut avoir une entrée par gène humain, ou par domaine protéique (partagé par plein de protéines), mais pas une entrée par gène de poisson épinoche, ou par variant de gène humain. Une autre limitation est la règle « pas de travaux inédits« , qui interdit d’ajouter des infos que vous avez obtenu de vous-même, même par une méthode toute bête et simple. Or une base de données scientifique ne peut pas toujours accepter ces limitations. Et les wiki spécialisés ne marchent généralement pas aussi bien que Wikipedia, c’est peu de le dire.

Leur conclusion, et c’est là où je trouve que ces deux articles à priori bien distincts se rejoignent, est que nous ne pourrons maintenir à jour une information pertinente en biologie (et médecine donc) qu’en s’alliant à Wikipedia (et autres ressources des foules) de manière intelligente. Je suis bien d’accord, d’ailleurs j’utilise déjà Wikipedia. Il ne me reste plus qu’à devenir intelligent.