Archives pour la catégorie médecine

A propos de races humaines et de tolérance au lactose

Nous parlions récemment (avant d’être déraillé par le débat OGM, comme d’hab) de tolérance au lactose chez certains humains : mutations au hasard ? et état normal = maladie.

Dans ce dernier billet, je m’étonnai de ce qu’un résultat de génétique de quelques populations humaines soit labellisé « African » et un autre « Finnish » (finois) sur un site d’information officiel américan, alors que dans l’étude originale les groupes ethniques africains concernés étaient bien spécifiés. Je pense que cela se rattache en partie à la réification (croire qu’un concept est réel) du concept de « races humaines ». Pour rappel, j’avais écrit mon premier billet sur ce blog à ce sujet.

Concernant la tolérance au lactose, voici une carte de l’ancien monde avec la fréquence de la tolérance :

Figure de Itan et al 2010 (cliquez pour l'article)

Figure de Itan et al 2010 (cliquez pour l’article)

Sur cette carte vous voyez des zones rouge-orange, qui correspondent aux origines des mutations permettant la digestion du lactose chez l’adulte (il y en a plusieurs, indépendantes, à différents endroits). A ces endroit la sélection naturelle a eu le temps d’augmenter la fréquence de la mutation dans la population jusque presque tout le monde (rouge = plus de 90% de la population tolérante). En bleu, les endroits où la mutation n’a pas encore eu le temps d’acquérir une fréquence élevée, car elle doit d’abord arriver par le jeu des migrations et des mariages / reproduction, et elle ne présente un avantage que depuis la domestication des vaches veaux cochons couvées (surtout les premiers), donc pas très longtemps en termes évolutifs.

Voici maintenant une carte des « races humaines » traditionnelles (j’ai pris le premier résultat Wikipedia, mais l’idée générale serait la même avec n’importe quelle carte) :

meyers_b11_s0476a

Est-ce qu’en louchant bien vous arrivez à faire correspondre les couleurs sur ces deux cartes ? Parce que moi, non. Et pourtant.

Le site d’information cité précédemment est une collection d’articles médicaux sur l’intolérance au lactose, et ils classifient tout le temps les gens en groupes raciaux socialement reconnus, dont « African Americans », pour lesquels on attribue les différences à l’origine génétique « africaine ». Par exemple :

Frequency of Lactose Intolerance in Adults in Various Populations

Location % Lactose Intolerant Adults
Asians, US 90–100
Ibo, Yoruba, Africa 90
Inuits, Greenland 85
Southern Italians 71
African Americans 65
Caucasians, US 21
British, UK 6
Danes 3

ou encore :

Lactose intolerance is estimated to affect 25% of the American population.
Group prevalence is as follows:
—  15% (6% to 19%) – whites
—  53% – Mexican Americans
—  62% to 100% – Native Americans
—  80% –  African Americans
—  90% –  Asian Americans

et :

Within the United States, 80–90% of African Americans, 95–100% of Native Americans, 80–90% of Asian Americans, and 50–55% of Latinos may be lactose intolerant.

En regardant ces chiffres, il est naturel de penser que les différences de tolérance au lactose sont structurées selon les « races » traditionnelles, et que notamment les africains / africains-américains ne digèrent pas le lactose. Pourtant ce n’est pas ce que l’on voit sur la première carte, qui représente les vraies données.

Plusieurs choses contribuent à cette incohérence. Premièrement, et la génétique de la lactase, et la classification en « races », suivent la géographie. On a donc un problème classique de corrélation erronée due à un facteur confondant : si A est corrélé à la géographie et que B est corrélé à la géographie, alors A et B apparaîtront corrélés. C’est pour ça que le choix de la carte des « races » n’est pas important : toute division arbitraire mais géographiquement organisée arrivera à ce type de résultat. Je suis sur qu’on trouverait des différences de tolérance au lactose entre religions, entre groupes linguistiques, etc.

Deuxièmement, on échantillonne souvent très mal la diversité humaine. Donc si je ne mesure la tolérance au lactose que dans une petite partie de l’Afrique, je peux tomber sur une région avec forte tolérance, ou forte intolérance, au lactose. Et c’est là où ça devient raciste, c’est à quelle région ou groupe humain allez-vous généraliser votre résultat. Si vous êtes d’origine européenne, vous êtes probablement sensible à la différence entre régions et pays, peut-être même savez-vous que les finnois ne sont pas scandinaves. Mais il est probable que vous ayez une idée assez vague de la diversité africaine, et qu’il soit tentant de labelliser un résultat d’une région africaine en « Afrique ». C’est compliqué dans le cas des africains-américains par le fait que les traites négrières ont préférentiellement pris les gens de certaines régions (et même ethnies) pour les emmener de force en Amérique (excellente visualisation ici) ; donc les africains-américains ne portent pas la diversité génétique africaine.

Pourquoi est-ce important ? D’un point de vue pratique, la recherche et la pratique médicales américaines sont très organisées autour de ces catégories, et cela peut mener à mal estimer les risques pour des groupes en fait très hétérogènes, même si dans le cas du lactose ce n’est pas très grave probablement. Mais la recherche médicale américaine étant très influente (en gros ils sont les meilleurs, on peut être plus nuancés mais ce n’est pas le lieu), ces catégories se retrouvent reprises par plein d’études où elles ne sont pas pertinentes. (Entre parenthèses, les races sociologiquement définies sont pertinentes aux aspects sociologiques de la pratique médicale, à savoir qui a accès aux soins, à l’instruction, à l’alimentation, etc. Donc bébé, eau du bain, pas jeter.)

Et d’un point de vue plus fondamental, on retrouve régulièrement des arguments du type « les noirs courent plus vite, c’est bien la preuve » (voir ce billet de Curieux2 savoir), ou plus subtils comme les différences de tolérance au lactose, qui utilisent la corrélation entre des différences génétiques géographiquement structurées, et les « races » traditionnellement définies, pour soutenir finalement le bon gros racisme à l’ancienne. Qui n’est pas parti bien loin d’après l’actualité. 🙁

En conclusion, ce n’est pas parce qu’en groupant les humains en classes grossières qu’on trouve des différences entre ces paquets, que les paquets sont « vrais » ni même utiles. Quand vous pensez diversité humaine, pensez gradients sur une carte, c’est plus joli et plus vrai que des noms dans un tableau.

(Juste après que j’ai publié ce billet, je vois un billet intéressant sur le blog du statisticien Nate Silver, connu pour ses prédictions concernant les élections américaines :  In An Election Defined By Race, How Do We Define Race?)

Intolérance au lactose : l’état normal peut-il être appelé une maladie ?

En préparant le billet précédent sur les mutations, j’ai remarqué que l’intolérance au lactose était noté dans Wikipedia francophone comme une pathologie. Je trouve que cela pose la question de ce que l’on classifie comme « pathologie » ou « maladie ». L’état commun à tous les mammifères est d’exprimer la lactase (qui digère le lactose) comme bébés, et d’arrêter de l’exprimer quand ils sont sevrés et ne consomment donc plus de lait.

La plupart des humains ont conservé cet état, normal chez les mammifères : 65%  de la population humaine d’après le NIH (institut américain de la recherche médicale ; lien). Il y a deux mutations principales expliquant l’état minoritaire, dans lequel on continue à digérer le lactose du lait après le sevrage.

Parenthèse sur les gènes : parmi les gènes, beaucoup codent pour des protéines. En ce cas, une partie de l’ADN contient l’information codant pour la protéine elle-même, on appelle cela l’ADN « codant ». Autour de cet ADN codant, de l’ADN non codant, dont une part ne fait rien (en première approximation), mais aussi une part qui régule le gène. Cet ADN « régulateur » dirige quand et où (dans quels types de cellules – cerveau, intestin, muscle) la protéine est exprimée. Il le fait en permettant de fixer d’autres protéines, régulatrices, mais n’entrons pas dans les détails. Ce qui est important c’est que des mutations peuvent affecter un gène soit en changeant la partie codante, soit la partie régulatrice. Complexité supplémentaire, chez les eucaryotes, dont les humains, la partie codante est souvent découpée en morceaux (exons) interrompus par du non codant (introns), lequel peut être régulateur ou non. Dé plous en plous difficile, une séquence régulatrice d’un gène peut être dans l’intron d’un autre gène.

(Accessoirement, ce genre de bazar c’est ce qu’on attend d’un système fruit de milliards d’années de mutations au hasard, pas d’une intelligence créatrice ; je dis ça pour ceux qui s’émerveillent comme le vivant est bien fait.)

Avec tous ces outils conceptuels, voici les mutations courantes du gène lactase humain :

Mutations du gène de lactase (cliquez pour la source)

Mutations du gène de lactase (cliquez pour la source)

Le gène LPH code pour la lactase, les petites boîtes en c sont les exons, le gène voisin MCM6 (que de poésie) a aussi des petites boîtes exons et des introns les séparant, et en d on voit les mutations (« SNP » = single nucleotide polymorphism prononcé « snip » (SNP happens est un de mes t-shirt scientifiques favoris)). A gauche, les mutations dans des introns de MCM6 qui modifient la régulation de la lactase chez des soudanais, kényans ou tanzaniens, à droite celles qui le modifient chez des européens du nord (c’est pas un peu raciste d’écrire « finnois » mais « africains » ci-dessus ? j’espère y revenir dans un prochain billet [c’est fait]).

Donc on a un état à la fois ancestral et majoritaire, et un état minoritaire, mutant disons-le, du à l’une ou l’autre mutation relativement récente (on estime dans les 10’000 ans, pour une échelle la séparation avec Néanderthal c’est environ 600’000 ans).

Et pourtant c’est cet état majoritaire ancestral qui est qualifié de pathologie. Par exemple ici au NIH, ici au Mayo Clinic (gros centre hospitalier privé américain), ici un autre institut du NIH, et en français (rien de l’INSERM, homologue du NIH ?) je trouve AXA prévention ici ou le Figaro Santé ici.

Il me semble que ceci pose des questions intéressantes de ce qui doit être considéré une pathologie. Un collègue à la fois médecin et bioinformaticien me disait récemment avoir soulevé le problème pour la classification informatique des pathologies, en prenant l’exemple de sa calvitie : est-ce simplement un aspect de son apparence, ou une pathologie ? Une partie du problème est que si l’on veut classifier quelque chose dans un cadre médical, alors le concept de pathologie est simple et déjà présent. Un autre aspect est de savoir si un phénotype est gênant : être chauve peut gêner certaines personnes, surtout si cela se déclare dès l’adolescence. Mais pas d’autres. Ne pas digérer le lactose à l’état adulte pose problème si vous êtes dans une société où la plupart des gens le digèrent, et donc il est un composant normal de l’alimentation. Mais si l’absence d’une mutation avantageuse est une maladie, alors toute apparition d’une maladie mutation avantageuse créé-t-elle une maladie correspondante chez ceux qui ne l’ont pas ? Ceux d’entre nous qui ne sont ni tibétains ni andins et ne sommes pas adaptés aux hautes altitudes souffrons-nous de sensibilité à l’altitude ? Est-ce une pathologie touchant 99% des humains ?

Je pose ces questions là, je n’ai pas de réponses.

Séquençage de virus en temps réel sur le terrain : ça arrive pour Ebola

Fin 2015 je vous ai embêté avec les promesses du séquençage de l’ADN partout tout le temps facile pas cher. Un billet ultra rapide pour dire que ça y est, ça arrive pour de vrai :

Quick et al (centaine de co-auteurs) 2016 Real-time, portable genome sequencing for Ebola surveillance Nature doi:10.1038/nature16996

Je cite, ça vaut le coup :

In April 2015 this system was transported in standard airline luggage to Guinea and used for real-time genomic surveillance of the ongoing epidemic. We present sequence data and analysis of 142 EBOV samples collected during the period March to October 2015. We were able to generate results less than 24 h after receiving an Ebola-positive sample, with the sequencing process taking as little as 15–60 min.

Voilà, on peut amener le séquenceur dans ses bagages, aller sur le terrain, et obtenir des séquences d’ADN permettant d’identifier les souches et les mutations dans les 24h, dont moins d’une heure de séquençage proprement dit.

en a, les bagages, en d, le labo. voilà.

en a, les bagages, en d, le labo. voilà.

Pas pour prêcher pour ma paroisse, mais la mise au point d’une bonne méthode bioinformatique a été clé pour que ça soit utile. Avec ça, ils peuvent par exemple tracer l’évolution du virus en temps presque réel :

nature16996-f3

Seule point à noter, dans ce cas leur protocole dépendait du fait qu’ils connaissaient déjà le virus, afin de l’amplifier in vitro. Si ce n’est pas le cas, ça sera possible aussi, mais plus compliqué, car il faudra séquencer de plus petites quantités d’ADN.

Informatique, biologie et 6 millions de danois : les patients médicaux ont une histoire

cliquez sur l'image

cliquez sur l’image

Ceux qui me suivent sur Twitter ont souffert la semaine dernière, vu que j’étais à une conférence de bioinformatique, que j’ai live-tweetée abondamment. J’ai appris pas mal de choses intéressantes, et je voudrais revenir si j’ai le temps sur plusieurs des résultats intéressants. Et d’abord la conférence de Søren Brunak, bioinformaticien médical danois :

Creating disease trajectories from big biomedical data

basé notamment sur son article :

Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Jensen et al 2014 Nature Comm 5: 4022

Commençons par quelques points mis en avant sur Twitter par moi ou d’autres :

Le concept clé pour Søren est celui de « trajectoire » : un patient médical a un passé et un avenir, qui devraient être pris en compte dans son diagnostic et son traitement. Il veut donc utiliser les données qu’il a à disposition au Danmark pour déterminer statistiquement les trajectoires probables, et la manière dont elles influencent les traitements qui marchent ou pas, les chances de survie ou de complication, etc.

L’équipe de Søren a utilisée les données complètes des hôpitaux danois de 1996 à 2010, soit 6,2 millions de patients avec 65 millions de visites. On sait dans quel ordre un patient a eu quels diagnostics ou traitements, et avec quelles conséquences. Ils ont découvert 1171 « trajectoires » significatives. Une trajectoire est une suite de diagnostiques ou d’actes médicaux qui se suivent dans un certain ordre davantage qu’attendu au hasard.

Par exemple : ncomms5022-f2

En (a) on voit des séries de maladies qui se suivent fréquemment, liées au cancer de la prostate. En (b), ces séries sont regroupées de manière à montrer toutes les trajectoires de manière synthétique.

Un point important est que ceci est déterminé automatiquement, en utilisant d’abord une corrélation assez simple entre diagnostics. La probabilité d’observer une corrélation au hasard est estimée en ré-échantillonnant les données (en mélangeant les observations au hasard en d’autres termes) des millions de fois, et en corrigeant pour le fait d’avoir effectué des tests multiples. Comme ça prend du temps de calcul, ils ont fait ça sur une partie des données, puis utilisé ces résultats pour valider une approche plus rapide. Ils ont assemblé les paires de diagnostics en séries en prenant simplement les chevauchements (si on a A->B et B->C, alors on a A->B->C), avec à nouveau un test pour vérifier la significativité statistique ; pour limiter le bruit statistique, les trajectoires avec moins de 20 patients au total ont été éliminées de l’analyse. Les trajectoires sont regroupées, comme montré en (b) ci-dessus, par Clustering Markovien. C’est là que j’apprends en vérifiant mes sources que cette approche très utilisée en bioinformatique n’a pas été vraiment publiée hors d’une thèse de maths. La page de référence étant celle du logiciel fourni par ledit mathématicien : MCL. A la base, la méthode cherche dans un graphe (des points liés par des traits, voir figure ci-dessus) des « chemins » plus probables si on marche au hasard dans le graphe, lesquels chemins correspondent à des sous-ensembles du graphe qui sont mieux connectés. Donc à des sous-ensembles, par exemple de diagnostiques, qu’il faut regrouper. CQFD. Y a d’autres trucs amusants dans leurs études, comme le développement d’une méthode informatique permettant de comprendre automatiquement les textes écrits par des médecins en danois, y compris les négations (très importantes dans les diagnostiques).

Allez, deux plus gros graphes :

ncomms5022-f3

Là on peut voir par exemple en (a) que la plupart des maladies suivant une athrosclérose, et pouvant être considérées éventuellement comme des complications, ne viennent comme complications plutôt d’une Bronchopneumopathie chronique obstructive (COPD en anglais), qui suit souvent mais pas toujours l’arthrosclérose.

ncomms5022-f4Bon avouez que c’est joli.

Sinon, pour montrer encore un peu ce que l’on peut trouver dans ces données et l’importance de la médecine personalisée, voici les incidences de quelques classes de diagnostiques en fonction du sexe et du type de viste : patient hospitalisé (in-patient), patient en visite libre (out-patient), urgence (emergency) :

ncomms5022-f1Tiens, les femmes ont plus souvent des diagnostics d’accouchement (en vert) que les hommes, et sont généralement hospitalisées à ce moment-là. 😉 Et les blessures (en rouge) sont plutôt le fait d’hommes de 21 ans, et se retrouvent aux urgences. Comme quoi ça marche ces stats.

Comme vous l’aurez peut-être remarqué dans les tweets ci-dessus, cette étude a été permise par une législation très libérale en ce qui concerne la collecte et l’utilisation des données personnelles au Danmark. Il n’est pas évident que de telles études soient portables à d’autres sociétés, moins enclines à faire confiance à leur état et leurs institutions. Il n’est en fait pas évident pour moi que ce soit souhaitable, contrairement à ce que souhaite clairement Søren Brunak. Mais si de telles études ne sont pas répétées, il y a le risque d’avoir une information très biaisée par les risques génétiques des danois, et surtout par leur mode de vie, qui se caractérise apparemment par une nourriture grasse et peu d’exercice. Søren a donc admis bien volontiers que, même si les résultats ont été partiellement vérifiés en Grande Bretagne et aux Pays Bas, il seraient difficiles à généraliser à un pays méditerranéen ou d’Asie de l’Est, par exemple.

Il n’en reste pas moins que les grandes lignes de cette étude sont probablement très généralement correctes, et qu’une information partielle de ce type vaut mieux qu’aucune information à mon avis. Une complainte fréquente des patients des hopitaux et médecins traditionnels est que leur histoire n’est pas prise en compte, d’où une tendance à aller chez des charlatans qui font n’importe quoi, mais écoutent attentivement toute l’histoire et rassurent sur l’avenir. On voit ici que l’exploitation intelligente de grandes quantités de données médicales a le potentiel de permettre une prise en compte rationnelle et réellement utile des histoires des patients.

Note de service : les commentaires ne vont pas fonctionner ce mercredi-jeudi 17-18 juin, en raison de maintenance du serveur cafe-sciences.org.

Update: following demand on Twitter, an English translation is available here.

Darwin day : de l’importance de la biologie évolutive pour comprendre les génomes et leurs implications médicales

Cliquez sur l'image

Cliquez sur l’image

Aujourd’hui c’est Darwin Day ! Bon je n’ai pas le temps de faire un long billet bien documenté (comme ceux-ci sur l’importance des mécanismes autres que la sélection naturelle : Du côté de chez Elysia chlorotica, Webinet des curiosités), mais je vais parler rapidement de l’importance de la biologie évolutive pour comprendre les génomes.

Comme déjà dit, séquencer des génomes, c’est de plus en plus rapide, de moins en moins cher, et cela a des conséquences médicales : on peut détecter les mutations qui distinguent les personnes. Mais de telles mutations, y en a tout plein. En moyenne, chacun de nous a de l’ordre de 200 mutations neuves, qu’aucun de ses parents n’avaient, plus plein d’autres partagées. Mais lesquelles sont médicalement pertinentes ? Pour essayer de prévoir cela, les bioinformaticiens développent des méthodes computationnelles pour prévoir l’impact de chaque mutation. Attention, quand on dit l’impact, on ne veut pas dire « ça va faire les cheveux roux légèrement moins roux » hein, on n’en est pas encore là, mais plutôt une classification du type : pas de conséquences, un peu mauvais, plutôt grave, carrément inquiétant.

Premier role de la biologie évolutive : nous renseigner sur ce à quoi nous devons nous attendre. Si vous avez lu les billets cités ci-dessus (Elysa et webinet), vous savez que la plupart des mutations dans l’ADN n’ont aucun effet. Et ceux qui ont un effet, ont de manière très générale un effet négatif. C’est relativement intuitif : quand quelque chose marche, et qu’on le modifie au hasard, on a beaucoup plus de chances de le casser que de l’améliorer. Donc on négliger les toute minuscule chance qu’une mutation inconnue jusqu’ici améliore les choses, et on va chercher à classer selon l’effet potentiel. S’il n’y en a pas, cool. S’il y en a un, c’est probablement mauvais.

Deuxième role de la biologie évolutive : le meilleur prédicteur de l’importance d’une mutation, c’est de savoir si cette position dans l’ADN est conservée entre espèces ou non. En effet, si une position d’ADN qui joue un rôle important dans la survie et la reproduction des organismes mute, cette mutation sera détrimentale, et sera probablement éliminée par la sélection naturelle (Darwin ! Darwin !). Par contre si une position qui ne joue pas un rôle important mute, la mutation sera « neutre » (je vous dit d’aller lire les billets cités en haut du billet), invisible pour la sélection naturelle, et aura une faible chance d’être gardée dans l’évolution. Petit exercice de maths de génétique des populations rigolo : sachant que les chances qu’une mutation neutre soit gardée après son apparition sont inversement proportionnelles à la taille de la population (parce que ça veut dire que le morceau d’ADN gardé par toute l’espèce est celle de cet individu muté), et que les chances qu’une mutation apparaissent sout proportionnelles à la taille de la population, qu’en est-il des chances au total pour une position neutre de changer ? Bin la taille de la population est éliminée, donc c’est un taux relativement stable.

Donc les parties d’ADN qui n’auront que peu d’impact médical évoluent relativement vite et de manière relativement stable au cours du temps. Alors que les parties qui ont potentiellement un gros impact médical seront bien conservées entre espèces, grâce à la sélection naturelle. Et ce n’est pas un tout-ou-rien : plus c’est important, plus la sélection est forte, plus c’est conservé. Les protéines qui forment l’ADN en chromosomes (histones) sont 100% conservées entre tous les animaux (à ma connaissance), faut dire que c’est vraiment vraiment critique.

Encore mieux, il faut préciser que ce n’est pas une région d’ADN qui est neutre ou pas, c’est une mutation. Avec assez de données comparatives entre espèces, on peut donc distinguer à une position les mutations « permises » de celles qui sont « interdites » (ou très rares), donc potentiellement détrimentales.

Dans deux articles publiés récemment, des équipes ont proposé de nouveaux classificateurs améliorés pour prédire l’impact des mutations dans le génome humain :

Ritchie et al. 2014 Nature Methods doi:10.1038/nmeth.2832
Kircher et al 2014 Nature Genetics doi:10.1038/ng.2892

Dans les deux articles, ils incluent beaucoup de caractéristiques différentes de l’ADN, y compris les modifications chimiques (billet épigénétique à l’ASP), la composition en nucléotides, l’état du chromosome dans différentes cellules (ADN très enroulé ou plus déroulé), etc etc. Et dans les deux articles, le prédicteur le plus fort et le plus cohérent de l’effet des mutations c’est la conservation évolutive. En plus dans Kircher et al ils ont simulé l’évolution de l’ADN sous différents scénarios pour bien vérifier la pertinence de leur méthode.

Donc Darwin ça ne sert pas qu’à comprendre les pinsons des Galapagos (bien que ce soit aussi très important) ; la théorie qu’il nous a légué, et que l’on continue à améliorer, sert aussi à faire sens de l’énorme quantité d’informations biomédicales qui devient disponible.

Joyeux Darwin Day.

Notes sur ma semaine en sciences 6

cliquez sur l'image

cliquez sur l’image

  • Joe Felsenstein, le chercheur le plus connu en phylogénie et méthodes d’évolution moléculaire (dans notre petit cercle, je n’hésiterais pas à le qualifier de légende vivante) raconte ses souvenirs d’étudiant à la Marche sur Washington contre la ségrégation raciale, il y a 50 ans.
  • Une étude médicale australienne liste plus de 150 traitements apparemment inutiles, ou en tout cas qui manquent d’évidence qu’ils sont utiles, de « Arthroscopic surgery for knee osteoarthritis » à « Hospitalisation for bed rest in multiple pregnancy ». L’article, la liste de traitements.
  • Liste en cours de construction (n’hésitez pas à contribuer) des journaux scientifiques acceptant des soumissions qui avaient été mises sur ArXiv auparavent.
  • Discussion intéressante sur un blog de bioinformatique concernant la différence entre significativité du test (par ex. p < 1%) et magnitude de l’effet (par ex. 2 fois plus d’expression) dans les contextes des puces à ADN (microarrays) et du RNA-seq.
  • Excellent article de fond sur le riz doré Golden Rice dans le New York Times.
  • J’ai acheté la traduction française du livre « Au pays des Ranacaudas« , qui explique la spéciation et la sélection naturelle aux enfants. Malgrès quelques tournures un peu bizarres dues à la traduction d’un livre pour enfants en vers, gros succès auprès de mon fils de 6 ans. Je recommende.
  • Je suis bête, je m’invente du travail. Ma proposition de cours pour doctorants « Blogging and using Twitter for scientific communication » a été acceptée. Maitenant faut l’organiser. J’ai déjà trouvé ceci et ceci.
  • Un excellent commentaire sur le Golden Rice de la part d’un économiste, Alexander Stein, qui a fait sa thèse sur la question : son blog, sa page professionnelle avec ses publications sur le sujet. Répond aux commentaires du type « qu’ils mangent de la brioche des carottes ». Lire notamment un excellent commentaire de sa part sur la pertinence des investissements dans le Golden Rice par rapport à d’autres investissements possibles. Quand je vois la quantité de travail fait sur ces questions, et quand je lis ce que Greenpeace écrit, je ne peux que conclure qu’ils sont de mauvaise foi.
  • Un papier intéressant (libre d’accès) sur la comparaison des chromosomes sexuels de serpents. Les serpents, comme les oiseaux, ont un système ZZ (mâle) ZW (femelle). Comme ces chromosomes sont plus ou moins différenciés (dans différentes espèces le W est plus ou moins différent du Z), cela permet de tester des hypothèses sur les rôles respectifs de l’abondance de mutations chez les mâles (davantage de divisions cellulaires pour faire un spermatozoide qu’un ovule), de la sélection de gènes spécifiquement avantageux pour un sexe ou l’autre, et de l’absence de recombinaison sur le W.
  • En écrivant mon prochain projet de recherche, j’ai cherché des exemples de phénotypes morphologiques clairement non adaptatifs (des trucs qui se voient et qui ne servent à rien, en gros). Ca n’est pas évident, mais la couleur des organismes vivant très profond dans la mer me paraît un bon candidat. Pas de lumière : la couleur ne peut pas être importante, si ?
  • La 2ème compétition pour savoir quelle méthode bioinformatique marche la mieux pour prédire la fonction des protéines a été lancée. Un problème difficile. J’hésite à entrer cette année ; c’est intéressant mais ça prend du temps d’autres projets. Détails sur le blog de Iddo Friedberg.
  • Mike Eisen, militant acharné pro-Open Access et anti Impact Factor (voir mes billets sur politique de publication), demande dans quels journaux les gens ont publié pour avoir un poste de prof. Malheureusement pour lui, les journaux pas forcément ouverts à haut facteur d’impact semblent dominer. Discussion sur Twitter.
  • Un collègue m’a contacté pour écrire un livre sur les OGM. J’ai décliné, je préfère écrire sur ce blog sur plein de sujets, et avancer ma recherche quand même.
  • Un article de biologie évolutive pas encore publié officiellement, mais mis dans ArXiv (explication dans ce billet), est commenté dans Nature. Je ne sais pas si c’est une première, mais ça montre que les esprits changent. D’ailleurs mon journal préféré, Molecular Biology and Evolution, autorise aussi depuis peu les articles à y être soumis après avoir été déposés dans ArXiv. A propos de l’article lui-même, excellent commentaire sur le blog de John Hawks (avec photo du musée des Eyzies, coucou le Dinoblog).

Redif : #Wikipedia est une excellente source d’informations scientifiques et médicales

On continue la rediffusion de vieux billets. Un autre de janvier 2012 (original sur blogspot) :

cliquez sur l’image (et n’oubliez pas de cliquer sur le point rouge)

Je commence ce billet par une constatation double : beaucoup de mes collègues et moi-même faisons un usage abondant et pertinent de Wikipedia dans notre vie professionnelle (vous croyez que je connais tous les gènes, tous les organes, toutes les bestioles ?) ; et d’autre part beaucoup de personnes à l’université continuent à décourager les étudiants d’utiliser Wikipedia, et à le traiter comme une sous-resource, pour paresseux. Je trouve ça choquant, et je le prouve.

Une étude récente (malheureusement d’accès payant paradoxalement) dans le journal Psychological Medecine a comparé l’information concernant des pathologies liées à la schizophrénie (5 pathologies) ou à la dépression (5 pathologies) entre différentes sources d’information : les sites internet arrivant en tête de recherches pour « depression » ou « schizophrenia » (14 sites au total), y compris Wikipedia mais aussi des sites plus officiels, comme celui du National Institute of Mental Health, ainsi que l’Encyclopedia Britanica en ligne, et un livre de psychiatrie utilisé en études de médecine.

En comparant ces différentes ressources, ils trouvent, et je cite :

The quality of information about depression and schizophrenia on Wikipedia was generally rated higher than other centrally controlled resources, including 14 mental health-related websites, Encyclopaedia Britannica and Kaplan & Sadock’s Comprehensive Textbook of Psychiatry.

En d’autres termes, et comme ils précisent plus loin, les articles de Wikipedia sur des sujets de santé contiennent peu d’erreurs factuelles, malgré un certain manque de couverture. Ils sont également bien référencés, mais paradoxalement peuvent être difficiles à comprendre. Ils sont généralement meilleurs en moyenne que les autres sources, y compris le livre spécialisé.

De manière intéressante aussi, bien qu’un avantage majeur de Wikipedia sur le livre est sa mise à jour fréquente et rapide, le livre fait mieux que la plupart des sites web officiels. Ces sites sont moins bons que le livre, mais pas plus à jour. Au moins, ils sont gratuits.

Ceci nous amène à un second point, qui est qu’il est difficile de maintenir de l’information scientifique ou médicale à jour de manière centralisée, avec des ressources forcément limitées.

Il y a un autre article récent sur ce sujet dans le numéro spécial annuel sur les bases de données en biologie (NAR Database, entièrement gratuit) : les auteurs discutent de l’intégration entre Wikipedia, ou d’autres approches participatives, avec des bases de données spécialisées de biologie. Ils partent de leur expérience positive avec les bases de données Pfam (domaines protéiques) et Rfam (ARNs fonctionnels) : les données structurées sont dans une base de données SQL dédiée, mais les annotations en texte qui décrivent la fonction des molécules passent par Wikipedia. Plus précisément, à un moment ils ont exporté toute leur information vers Wikipedia, et depuis ils récupèrent toutes les modifications qui sont faites dans les pages Wikipedia correspondantes, et les remettent dans Pfam et Rfam.

Par exemple, l’article sur mon domaine préféré, de liaison aux hormones des récepteurs nucléaires d’hormones : dans la page Pfam il y a de l’information textuelle, avec un bouton « Edit in Wikipedia ». On clique dessus, et on arrive sur la page Wikipedia correspondante, en mode édition directement qui plus est. Et là-dedans vous avez de jolies boîtes avec de l’information structurée venant de Pfam. C’est beau c’est grand c’est magnifique.

Ils ont des curateurs qui vérifient les infos venant de Wikipedia, et ils en acceptent 99%. Ils ont des milliers d’éditions par an, donc beaucoup d’informations pertinentes, à jour, et … gratuites. Et disponibles à tous !

Ils regardent aussi d’autres modèles d’intégration avec Wikipedia, et les limitations. Par exemple, Wikipedia a un critère d’intérêt général, qui fait qu’on peut avoir une entrée par gène humain, ou par domaine protéique (partagé par plein de protéines), mais pas une entrée par gène de poisson épinoche, ou par variant de gène humain. Une autre limitation est la règle « pas de travaux inédits« , qui interdit d’ajouter des infos que vous avez obtenu de vous-même, même par une méthode toute bête et simple. Or une base de données scientifique ne peut pas toujours accepter ces limitations. Et les wiki spécialisés ne marchent généralement pas aussi bien que Wikipedia, c’est peu de le dire.

Leur conclusion, et c’est là où je trouve que ces deux articles à priori bien distincts se rejoignent, est que nous ne pourrons maintenir à jour une information pertinente en biologie (et médecine donc) qu’en s’alliant à Wikipedia (et autres ressources des foules) de manière intelligente. Je suis bien d’accord, d’ailleurs j’utilise déjà Wikipedia. Il ne me reste plus qu’à devenir intelligent.

La famille de Henrietta Lacks est d’accord pour qu’on utilise le génome HeLa, ce qui pose de nouvelles questions

Cliquez sur l'image

Cliquez sur l’image

On a parlé précédemment du séquençage du génome HeLa, qui était à la fois très utile parce qu’il s’agit de cellules très utilisées en biologie moléculaire, génomique, et recherche biomédicale (plus de 76’000 articles publiés), et à la fois problématique éthiquement parce que ces cellules sont dérivées d’une patiente noire américaine dans les années 1950 sans autorisation ni consultation éthique. Conséquence de cette situation, le génome des cellules HeLa a été séquencé, mais la séquence a été retirée des bases de données pendant une discussion avec la famille. Laquelle discussion a maintenant abouti.

A noter qu’entre temps une deuxième version du génome, plus détaillée, a été obtenue et soumise à Nature ; elle vient d’être publiée. Et je cite du commentaire de Nature :

The paper’s reviewers did not raise privacy concerns before recommending it for publication; nor did Nature.

Comme cette deuxième séquence est de meilleure qualité, ils ont pu trouver l’origine probable de la tumeur, une intégration d’un virus dans le génome.

Les données ne sont pas publiquement disponibles, comme c’est normalement le cas pour toutes les données génomiques ayant fait l’objet de publications scientifiques, mais sont disponibles sur demande par des chercheurs devant justifier pourquoi ils en ont besoin, et devant ensuite rendre des comptes sur l’usage qui en est fait. Deux membres de la famille d’Henrietta Lacks font partie du comité qui va évaluer les demandes.

Comme le fait remarquer un responsable de bioéthique, on ne va pas pouvoir faire cela pour chaque famille dans laquelle un génome est séquencé. Le directeur du NIH (qui finance la recherche biomédicale américaine), Francis Collins, a d’ailleurs déclaré que ce cas restera unique. Mais comme noté dans l’article du New York Times, il faut que les personnes dont les tissues ou les génomes seront utilisés dans de futures études sur le cancer se sentent confiantes qu’elles seront prises en compte.

Certains collègues sont mécontents de cet arrangement, parce que cela ajoute encore des règles à une recherche que certains resentent déjà comme sur-régulée (par exemple sur ce blog). Plus pertinent à mon sens, Michael Eisen pose quelques bonnes questions sur son blog :

  • Quand et dans quelles conditions est-ce que les héritiers de quelqu’un doivent pouvoir décider de l’usage des données ? Et s’ils ne sont pas d’accord ? Est-ce limité aux héritiers légaux, ou à tous ceux qui partagent une proportion significative (combien ?) du génome (un cousin vaut un petit-enfant) ?
  • Quand quelqu’un donne son accord pour l’utilisation d’échantillons, il y a souvent une condition permettant de retirer le consentement apparemment. Est-ce que les héritiers peuvent aussi retirer le consentement, et jusque quand ?
  • Une partie du problème avec les HeLa est qu’elles ne sont pas anonymes. Mais il est possible de retrouver la famille et parfois l’individu probable d’origine d’une séquence d’ADN déjà. L’anonymat en génomique comme sur internet devient de plus en plus difficile à mettre en oeuvre.

Michael Eisen fait remarquer très justement à mon sens que nos sociétés sont baties autour de la liberté et de la responsabilité individuelles, mais en génomique (et en génétique d’ailleurs) cette individualité perd son sens. Toute décision que vous prenez concernant vos données génomiques affecte tous ceux qui vous sont apparentés de manière proche.

C’est en quelque sorte un aspect du « village planétaire« . En plus des aspects prévus, on a la perte de vie privée, les voisins qui vous regardent et les ragots. En version génome + internet. Mais où va-t-on, je vous le demande ?

Redif : Génétique médicale : plus c’est gros, moins c’est beau

Tiens c’est l’été, je vais rediffuser quelques vieux billets. Voici un de janvier 2012 (original sur blogspot) :

cliquez sur l’image

Sur l’excellent blog Genomes Unzipped, plusieurs scientifiques des génomes (génomiciens ?) ont eu une discussion d’un effet curieux et intéressant de génétique médicale et surtout psychiatrique. Il n’y a pas si longtemps, ces études se basaient sur des échantillons tout petits, pour des raisons pratiques. Et il se publiait régulièrement des corrélations très fortes entre gènes (ou plutôt variants génomiques) et maladies psychiatriques. Plus les tailles d’échantillons ont augmenté, grâce aux progrès techniques, et plus les effets sont devenus faibles, jusqu’à être non significatifs dans toutes les études sérieuses récentes. Le graphe ci-dessous montre cet effet, avec des effets très fortement positifs ou négatifs pour les petits échantillons à gauche, et des effets presque nuls (rapport de 1 pour la fréquence de symptômes entre personnes avec et sans une mutation) pour les gros échantillons à droite.

L’explication est corrélée (haha) à celle traitée dans un billet récent pour Google correlate. Les études petites ont une forte variance (il y a beaucoup d’erreur sur la mesure), et on en fait beaucoup de ces études. A force d’essayer de tout corréler avec un symptôme, il sort des corrélations fausses positives, qui semblent fortes mais ne reflètent aucune relation causale sous-jacente. Dans les études récentes, on fait peu d’études mais à grande échelle, où le bruit aléatoire est minimisé. On voit alors le vrai signal, à savoir qu’il n’y en a presque pas.

Comme le disent les collègues, les petites études se comportent comme des générateurs aléatoires de résultats, lorsqu’il n’y a pas d’effet fort à détecter.

Par exemple, en 1992 une mutation du gène ACE a été trouvée qui augmentait les chances d’attaque cardiaque d’un facteur 3. Mais les études suivantes ont échoué à reproduire le résultat, tandis que le même gène se retrouvait dans plein d’autres études supposément lié à toutes sortes de pathologies. Ce gène était apparu sur le radar par hasard au début, et ensuite tout le monde l’a étudié. Les résultat négatifs (probablement plein, va savoir) n’ont pas été publiés, les résultats (faux) positifs, si. Avec le recul, ACE ne semble pas jouer de rôle particulier dans les attaques cardiaques.

Ce qui motive les collègues de Genomes Unzipped, c’est une étude récente qui fait comme si 20 ans d’expérience ne s’étaient pas accumulés, et rapporte un lien entre la « prosocialité » et un gène très étudié (récepteur à l’oxytocine), sur la base de 23 personnes. Pourtant, des études à large échelle (5117 personnes, 1’252’387 marqueurs génétiques) montrent qu’on ne trouve avec les données présentes aucun lien entre personnalité et gènes.

Les Genomes Unzipped boys ne jettent pas le bébé avec l’eau du bain, mais notent que les liens qui existent probablement entre génétique et traits complexes, tels que la personnalité, demanderont des études très larges pour être établis, étant donné que ce sont des effets faibles (et probablement avec des interactions complexes entre gènes, mais c’est une autre histoire).

Le blog de Nature montre que le même phénomène peut affecter des tests génétiques qui sont d’ores et déjà approuvés et commercialisés : le test pour CYP2C19 est approuvé par la FDA, pour déterminer quel traitement utiliser pour des maladies cardiovasculaires. Dans une méta-analyse (analyse combinée de plein d’études précédentes) avec 42’016 patients et 32 études, il n’y a aucun lien entre le gène et le médicament ! Je cite :

While there initially appeared to be a relationship, there was evidence it was biased by the small size of studies. When analysis was restricted to larger studies the association disappeared.

Je finirais en notant, en dehors de la génétique, que les faux positifs sont aussi un problème pour les tests HIV conduits sur le terrain en Afrique. Comme quoi comprendre les statistiques et le design expérimental peut être vraiment important.

Notes sur ma semaine en sciences

cliquez pour voir un tweet rigolo sur notre conférence

cliquez pour voir un tweet rigolo sur notre conférence

Voir précédent billet de notes pour le principe.

  • Peut-être le meilleur article grand public que j’ai lu sur les OGM (en anglais) : article sur PBS (média public américain). C’est basé sur l’interview d’un chercheur en biologie végétale et agronomie qui vient d’une famille de fermiers, et travaille avec des fermiers aux Etat-Unis et en Asie. Il travaille avec les paysans, cherche des moyens d’être plus efficace en utilisant moins de pesticides, particulièrement dans les conditions de sécurité et de standards faibles des pays pauvres, et voit les OGM comme un bon outil pour ça. Il a été surpris et choqué par la réaction des anti-OGM urbains. Lisez tout l’article avant d’être content ou furieux.
  • J’ai co-organisé un workshop, Quest for Orthologs, cette semaine. C’est fou tous les détails dont il faut s’occuper quand on est l’organisateur ! Excellentes discussions geeky sur les standards et formats pour parler d’orthologues, et sur l’utilisation que l’on peut en faire (voir ce billet et celui-ci).
  • Observation intéressante dans la discussion durant le workshop: des simulations peuvent être très utiles pour montrer quand est-ce qu’une méthode ne marche pas, mais ne permetten pas de montrer qu’une méthode marche sur les vraies données (très complexes en biologie).
  • PLOS Computational Biology a une série intéressante (et libre d’accès) sur la bioinformatique appliquée à la médecine : Translational Bioinformatics.
  • Une bactérie avec 12’356 gènes protéiques ! Comme une mouche. Pour comparaison, E. coli qu’on étudie le plus et qui est dans notre ventre a environ 4’300 gènes. C’est une cyanobactérie, donc qui fait de la photosynthèse. Les chloroplastes qui permettent la photosynthèse dans les cellules des plantes vertes sont des cyanobactéries absorbées par les cellules eucaryotes. Article dans Genome Biology and Evolution (accès fermé).
  • Dans le récent congrès de biologie computationnelle ISMB/ECCB, Nadja, une étudiante du labo, a eu un prix pour son poster, et Romain, un ex-étudiant du labo maintenant en Grande Bretagne, en a eu un autre pour le sien. Yo !
  • Kevin Folta, biologiste des plantes qui a déjà utilisé son blog pour discuter avec une anti-OGM (mentionné ici), et qui a proposé en vain à des anti-OGM de collaborer pour reproduire une expérience (mentionné ici), a proposé de débattre avec les participants à une conférence anti-OGM. Surprenamment pour des gens qui cherchent à faire toute la lumière et à comprendre la réalité des choses, ils ont refusé. C’est la vie, comme disent les français.
  • Le génome d’un rotifère bdeloide, publié dans Nature (libre accès), permet de comprendre un peu mieux comment un groupe large d’organismes multicellulaires survit sans reproduction sexuée depuis des dizaines de millions d’années. Très bon compte-rendu dans Le Monde.
  • Une évaluation de tous les logiciels d’assemblage de génomes (passer de petits fragments d’ADN séquencés à un génome complet) arrive à la triste conclusion que pour le moment c’est la cata. Excellente collection de liens sur le site de l’Assemblathon.
  • Réflexion intéressante dans le journal Current Biology sur l’historique de l’héroïne et l’impact de l’interdiction des drogues « récréatives » sur le développement de la neurobiologie. En gros l’auteur défend que la prohibition sauve peu de vies, mais en coûte beaucoup en inhibant la recherche et développement en pharmacologie neurologique. D’accès fermé malheureusement.
  • Une analyse suggère que les micro-organismes ne forment pas d’espèces à proprement parler, d’après des arguments mathématiques. Pas eu le temps de lire, mais idée intéressante. Papier libre accès.
  • Un article (libre accès) indique que des anti-fongiques appliqués aux plantes à fleurs peuvent affecter les abeilles en les rendant plus sensibles à des infections fongiques. Potentiellement très important.
  • Un billet de blog attire mon attention sur un concours de compression de données spécifiquement pour les séquences d’ADN. Intersection intéressante d’informatique et de génomique.