Archives pour la catégorie génomique

Ne mélangez pas « il n’y a pas un gène pour ça » et « ce n’est pas génétique »

Carte des résultats les plus significatifs pour divers traits sur le génome humain. Cliquez pour l’original interactif.

Entre les années 1970 et 2000, il y a eu une mode de recherche de gènes « pour » des tas de caractères compliqués, du style l’obésité, l’intelligence, la réussite, l’homosexualité, la tendance à chercher des gènes, etc. Et en contre partie, les critiques de ces études mettaient en exergue le fait que ces traits ne soient pas déterminés par les gènes. Exceptionnellement, les deux extrêmes avaient tort, et la vérité est plus complexe.

Pour comprendre la discussion, prenons un exemple moins controversé : la taille. Qui plus est, c’est facile à mesurer sans ambiguïté, contrairement à l’intelligence ou l’orientation sexuelle.

  • La taille a une composante héréditaire : si les parents sont plus petits, les enfants sont plus petits.
  • Cette composante héréditaire n’est pas due juste à un environnement partagé, mais bien à une part génétique : mêmes adoptés, même dans un environnement très différent, des enfants auront une taille plus grande si leurs parents sont plus grands.
  • Mais il y a aussi une part environnementale : si des enfants grandissent avec plus ou moins à manger, une nourriture plus ou moins diversifiée, plus ou mois accès aux soins ou pas, etc, ils seront plus ou moins grands ; ce qui est illustré par l’augmentation de taille de la population de chaque pays lorsqu’il se modernise : ce n’est pas la composante génétique qui change.
  • Mais mais, il n’y a pas un gène de la taille ! La taille est le résultat de nombreux effets, interactions entre de nombreux gènes et de nombreux facteurs environnementaux.

Avec cet exemple, on voit que ce n’est pas un simple choix « il y a un gène qui détermine », ou « ce n’est pas génétique ». De nombreux gènes influencent la taille, et c’est le cas pour la plupart des caractéristiques complexes qui sont intéressantes. Chacun de ces gènes a une contribution individuelle très mineure : il n’y a même pas 5 ou 10 « gènes de la taille ».

En fait, tellement de gènes sont impliqués, avec de si faibles contributions, que lorsque l’on a commencé à faire des études grande échelle de recherche des gènes impliqués dans la taille, on n’a presque rien trouvé. Alors avec d’un coté une composante héréditaire claire, d’autre part pas de gènes détectés, on a parlé d’hérédité manquante. Il y a eu beaucoup de spéculations sur le rôle des interactions entre gènes ou autres phénomènes pouvant expliquer la différence entre rôle des gènes détectés (peu) et hérédité (élevée). En fait, c’est juste que les effets sont tellement faibles qu’il faut beaucoup de données pour les mesurer avec confiance, donc des études avec les génomes de beaucoup de personnes : 253’288 individus pour trouver 697 variants génétiques qui expliquent 1/5ème de la variation de taille dans Wood et al 2014 ; « seulement » 44’126 individus, mais avec de meilleures données génomiques (séquences complètes et non variants prédéfinis) et une meilleure méthode pour expliquer 56% de la variation de taille avec … 17 millions de variants génétiques dans Yang et al 2015.  Il y a bien un effet génétique fort (56%), mais qui n’est absolument pas attribuable à un ou quelques gènes (dix-sept millions de variations !).

Et c’est là qu’on peut revenir aux débats sur « le gène de l’intelligence ». Il est clair que des traits tels que l’intelligence, à supposer que l’on puisse les définir objectivement, sont le résultat de l’interaction de nombreux effets, et que certains seront génétiques et d’autres environnementaux. Il est donc illusoire de chercher « le gène ». Mais il est également illusoire de penser qu’il n’y a pas de part génétique.

Cette dernière phrase peut être surprenante pour beaucoup de gens, en tous cas dans mon expérience. Il y a l’idée que de reconnaître une part génétique de traits importants socialement serait inégalitaire ou déterministe. Et une résistance de certains en sciences humaines à l’idée que la biologie serait pertinente à comprendre le comportement humain.

Pour le déterminisme, reprenons l’exemple de la taille : face à l’héritabilité importante de la taille, serait-il justifié qu’il ne sert à rien de bien nourrir les enfants pour les aider à grandir ? Non, tout le monde grandira mieux s’il est bien nourri. Par exemple les français semblent avoir gagné 5 cm en moyenne entre 1960 et 1990 (Wikipedia) (à noter aussi pour tous les nostalgiques qui pensent qu’on était tellement plus sains avant). De même, ce n’est pas parce qu’il y a des facteurs génétiques pour des traits comportementaux complexes qu’il y a une fatalité. Et de toutes façons, s’il y a une composante génétique il y en a une, que ça fasse plaisir ou non.

Alors y a-t-il des éléments de preuve pour une composante génétique pour l’intelligence ? L’intelligence en soi c’est très difficile à définir objectivement, mais il commence à y avoir des éléments concernant des traits de ce type. C’est un domaine en évolution rapide, donc résultats à prendre avec des pincettes, surtout si vous tombez sur ce billet quelques temps après sa publication en janvier 2017.

Okbay et al 2016 ont étudié 293’723 personnes (avec réplication des résultats dans un autre groupe de 111’349 personnes). Ils ont trouvé  74 variations dans le génome qui sont associées au nombre d’années d’études. De manière intéressante, ces variations sont surtout dans des gènes actifs dans le développement embryonnaire du cerveau. Ce qui tend à conforter l’idée que ce soient des résultats pertinents et non dus au hasard.

Approche différente : des régions du génome peuvent être manquantes ou au contraire en double chez certaines personnes. On les appelle Copy Number Variants. Männik et al 2015 ont caractérisé chez 7877 estoniens en bonne santé ces Copy Number Variants et ont trouvé que les personnes ayant de gros morceaux d’ADN en trop ou pas assez avaient moins bien réussi leurs études que les autres personnes.

Enfin, Ganna et al 2016 ont cherché les variations génétiques très rares (observées une seule fois jusqu’ici), dans 14’133 personnes. Ils trouvent que les personnes ayant des mutations affectant la fonction d’un gène ont une réussite éducative plus faible, et ceci spécifiquement pour les gènes actifs dans le cerveau.

Au final, les humains sont des animaux, et il n’y a pas de raison de penser que notre comportement et nos capacités ne soient pas en partie génétiques. En acceptant cela, il faut garder à l’esprit que :

  1. nous sommes chacun le résultat d’une interaction génome x environnement ;
  2. ce n’est pas pour autant qu’il existe un « gène pour X » ;
  3. détecter ces composantes génétiques est très difficile, et nous n’en sommes qu’au début, donc prendre chaque résultat individuel avec des pincettes (y compris les exemples donnés ici) ;
  4. et donc ne pas croire tout titre provocateur « l’intelligence vient de la mère » ou je ne sais quoi ;
  5. la variation génétique ne correspond pas aux « races » traditionnelles (qui ne correspondent d’ailleurs à rien).

Plus loin de l’Afrique, plus de mutations délétères mais moins de variabilité génétique humaine

L’humanité (Homo sapiens) vient d’Afrique sub-saharienne. Il y a environ 50’000 ans certains humains sont sortis d’Afrique et leurs descendants se sont dispersés un peu partout dans le monde, voir carte ci-dessous.

Dispersion de Homo sapiens ces dernières 50'000 ans. Points colorés : échantillons utilisés dans l'article que dont il est question plus bas.

Dispersion de Homo sapiens ces dernières 50’000 ans. Points colorés : échantillons utilisés dans l’article que dont il est question plus bas.

Une question intéressante, et qui nous ramène à la question de la pertinence de la classification des humains en « races », est l’effet de cette histoire sur la diversité génétique humaine.

Pour bien comprendre ce qui va suivre, quelques éléments de génétique des populations :

Premièrement, une mutation peut avoir un effet bénéfique (super rare, améliorer un truc en le modifiant au hasard), négatif (casser un truc qui marche c’est facile), ou neutre (aucun effet, très fréquent dans les génomes d’animaux ou de plantes). Voir ce billet pour les types de sélection naturelle correspondant aux deux premiers ; les mutations neutres ne sont pas soumises à la sélection naturelle.

Deuxièmement, plus une population est grande, plus la sélection naturelle est puissante. Cette observation simple a de grandes conséquences. Lorsque la population est plus petite, la sélection naturelle est moins puissante. Alors une mutation qui a un effet faiblement négatif ne sera pas éliminée, et se comportera comme si elle était neutre. Il s’agit d’un effet continu : plus la population est petite, plus une mutation devra être grave pour être éliminée, plus de mutations se comporteront comme si elles étaient neutres.

Ca se corse et ça devient intéressant : lorsqu’il y a expansion par migration (comme lors de la sortie de certains humains d’Afrique), le groupe qui part est un sous-ensemble de la population globale. Donc déjà du départ il n’emporte pas toute la variabilité génétique. Si je prends 100 parisiens au hasard j’aurais moins de diversité (génétique, de noms de famille, de goûts vestimentaires) que dans tout Paris. Si quelques milliers d’humains sont partis d’Afrique, ils avaient moins de diversité qu’il n’y en avait dans l’humanité en Afrique. Et ces migrants, étant peu nombreux, formaient une petite population. Donc sélection naturelle faible, faible élimination de mutations délétères. Et ce phénomène se reproduit au fur et à mesure des étapes suivantes d’expansion de l’espèce : ceux qui vont plus loin sont toujours un sous-ensemble ayant perdu de la diversité de départ et ayant du mal à éviter les mutations délétères.

Est-ce que l’on observe bien cela ? C’est l’objet d’un article publié en janvier 2016 :

Henn et al 2016 Distance from sub-Saharan Africa predicts mutational load in diverse human genomes PNAS 113: E440-E449

Première figure : le taux de variabilité génétique dans les 7 populations échantillonnées sur la carte ci-dessus (les couleurs correspondent) :

Hétérozygotie de 7 populations humaines, classées selon leur distance à l'origine africaine de l'espèce

Hétérozygotie de 7 populations humaines, classées selon leur distance à l’origine africaine de l’espèce

Que voit-on ? Le plus de variabilité génétique dans les populations descendantes des humains jamais partis du lieu d’origine de l’espèce. Et de moins en moins de variabilité génétique lorsque l’on s’éloigne de l’Afrique, pour arriver à un minimum en Amérique (il s’agit de descendants des amérindiens arrivés par le détroit de Béring), au plus loin de l’Afrique en marche à pied.

Deuxième figure, pareil mais en ne montrant que les mutations qui sont probablement délétères (ici on suppose que de l’ADN généralement conservé entre primates est probablement important, donc le modifier est probablement délétère) :

Fréquence des mutations délétères dans 7 populations humaines

Fréquence des mutations délétères dans 7 populations humaines, classées selon leur distance à l’origine africaine de l’espèce

Que voit-on ? Plus on s’éloigne de l’Afrique, plus on a de mutations délétères accumulées, comme attendu. Plus en détail, on a :

Pareil que la figure précédente, mais en trois catégories : peu délétères, moyennement, et très délétères.

Pareil que la figure précédente, mais en trois catégories : peu délétères, moyennement, et très délétères.

On voit que pour les mutations un peu mauvaises (à gauche et au milieu), l’effet de la distance à l’Afrique est très fort, avec un de plus un saut entre africains et les autres. Alors que pour les mutations très mauvaises (à droite), il y a un effet de la sortie d’Afrique, mais faible, et pas d’effet mesurable des migrations suivantes. On peut penser que la plupart de ces mutations très mauvaises sont éliminées même avec une population assez petite.

Conclusions : (1) la diversité de l’espèce humaine est en Afrique sub-saharienne ; (2) ce qui distingue le plus les humains hors d’Afrique sub-saharienne (y inclut tous les blancs et asiatiques) des africains (donc la plupart des noirs), ce sont des mutations à effet négatif, qui font que nous sommes moins aptes génétiquement (je dis nous parce que c’est mon cas, ne vous sentez pas visé si vous avez la chance d’être africain).

Séquençage de virus en temps réel sur le terrain : ça arrive pour Ebola

Fin 2015 je vous ai embêté avec les promesses du séquençage de l’ADN partout tout le temps facile pas cher. Un billet ultra rapide pour dire que ça y est, ça arrive pour de vrai :

Quick et al (centaine de co-auteurs) 2016 Real-time, portable genome sequencing for Ebola surveillance Nature doi:10.1038/nature16996

Je cite, ça vaut le coup :

In April 2015 this system was transported in standard airline luggage to Guinea and used for real-time genomic surveillance of the ongoing epidemic. We present sequence data and analysis of 142 EBOV samples collected during the period March to October 2015. We were able to generate results less than 24 h after receiving an Ebola-positive sample, with the sequencing process taking as little as 15–60 min.

Voilà, on peut amener le séquenceur dans ses bagages, aller sur le terrain, et obtenir des séquences d’ADN permettant d’identifier les souches et les mutations dans les 24h, dont moins d’une heure de séquençage proprement dit.

en a, les bagages, en d, le labo. voilà.

en a, les bagages, en d, le labo. voilà.

Pas pour prêcher pour ma paroisse, mais la mise au point d’une bonne méthode bioinformatique a été clé pour que ça soit utile. Avec ça, ils peuvent par exemple tracer l’évolution du virus en temps presque réel :

nature16996-f3

Seule point à noter, dans ce cas leur protocole dépendait du fait qu’ils connaissaient déjà le virus, afin de l’amplifier in vitro. Si ce n’est pas le cas, ça sera possible aussi, mais plus compliqué, car il faudra séquencer de plus petites quantités d’ADN.

Vent de folie dans les journaux scientifiques: 3- CRISPR/Cas édite l’histoire de la génomique

Allez, dernier billet dans la série (1- secte cladistes, 2- parasites de la recherche). A noter que le sujet cette fois a été couvert notemment par Le Monde (je profite de l’occasion pour saluer l’excellence du Monde sciences ces derniers temps – continuez !). Et je n’ai bêtement pas bien gardé tous les liens pertinents, donc il va manquer des trucs.

Or donc, CRISPR/Cas est la technique révolutionnaire qui permet d’éditer les génomes avec précision et puissance, facilement et pour pas cher. Et le 14 janvier, une somité de la génomique mondiale, Eric Lander, a publié :

The Heroes of CRISPR Cell 164: 18–28

Dans cet article, Eric Lander brosse l’histoire de la découverte de cette technique, en disant vouloir mettre en avant les personnes moins reconnues d’habitude. Mais, il y a quelques mais :

  • Mais parmi ces héros méconnus, que des chefs de labos, pas de doctorants ni de postdocs.
  • Mais parmi les héros très généralement connus, deux femmes, Emmanuelle Charpentier (française travaillant en Allemagne) et Jennifer Doudna (Berkeley, Californie), reçoivent nettement moins d’attention que les autres intervenants. C’est curieux, ces deux femmes sont généralement créditées de la découverte de CRISPR/Cas.
  • Mais par contre la troisième personne très connue pour CRISPR/Cas, Feng Zhang (Broad Institute, Massachusetts), a droit à un portrait étendu et flatteur.
  • Mais Eric Lander est directeur du Broad Institute, lequel est en procès avec Berkeley pour un brevet sur CRISPR/Cas, pour savoir qui de Doudna ou de Zhang a la priorité sur l’application aux cellules humaines.

Oups. Du coup, Twitter #LanderGate (depuis le Watergate, tous les scandales sont des truc-gate aux USA).

Commentaires acides de Doudna et Charpentier sur PubMed, la base de données de référence des articles en biologie et médecine (lien) disant que leur travail a été mal représenté et qu’elles n’ont pas été consultées. Plus surprenant, commentaires de George Church, qui travaille aussi au Broad avec Lander, et dit ne pas avoir été suffisamment consulté et qu’il y a de nombreuses erreurs (voir aussi ici). De nombreuses critiques notent que l’article ne signale pas le conflit d’intérêts de Lander, mais il s’avère qu’il l’a signalé au journal qui a décidé de ne pas l’afficher.

Grosse discussion sur le site PubPeer bien sûr, qui discute les articles scientifiques de manière anonyme.

Une analyse intéressante du point de la rédaction historique, qui montre bien comment Lander diminue les rôles de Doudna et Charpentier.

Deux réactions très fortes de chercheurs très connus en génomique (et tous deux connus pour leur peu d’empressement pour la diplomatie) : Michael Eisen écrit que Lander est un super-vilain fascinant, « an evil genius ». De manière intéressante, une de ses conclusions c’est qu’il ne devrait pas y avoir de brevet (à noter qu’il est à Berkeley comme Doudna), et je suis assez d’accord dans ce cas-ci. Un brevet ne fera que du tort, et n’a rien à voir dans ce cas avec l’objectif affiché d’encourager l’innovation. Eisen dit aussi (et en commentaire à Cell) qu’il est contre les prix qui mettent trop en avant un petit nombre de personnes, de manière toujours injuste. Lior Pachter insiste sur la manière dont Lander efface les postdocs et doctorants de l’histoire.

Tous deux, et de nombreux autres commentateurs, ironisent sur la carte accompagnant l’article, dans laquelle le monde se réduits aux USA et à l’Europe, et où le code couleur montre bien que la seule avancée déterminante a eu lieu à Boston, lieu du Broad Institute :

carte telle que publiée

carte telle que publiée

Exemple de tweet à ce propos :

 

Et lien rigolo tweeté suite à mon teaser plus tôt aujourd’hui :

Cet article a fait couler énormément d’encre électronique, et je n’ai pas le temps d’en faire le tour. Ceci clot donc pour le moment mon petit tour des délires des journaux scientifiques en ce début d’année 2016. 🙂

Titre piqué à cet excellent tweet d’Alexis Verger :

ADN partout 2/3 : Séquençage d’ADN dans vos toilettes et à l’aéroport ?

une BD sympa même si le rapport est distant

une BD sympa même si le rapport est distant : cliquez et lisez

Il semble acquis que le séquençage d’ADN suit une trajectoire similaire à celle de l’informatique, mais en plus rapide (voir billet précédent). Lorsque le prix baisse à ce point, des applications qui étaient inimaginables peuvent devenir routinières. Pour l’informatique on voit ce que ça donne (y pas que les smartphones, quand le réparateur est venu j’ai appris que notre frigo a deux cartes mères…). Et pour le séquençage d’ADN, ça peut donner quoi ?

Un article récent propose justement des réponses à cette question, inspirons-nous en. Avec un grain de sel, l’auteur de l’article est très techno-optimiste, et serait probablement qualifié de scientisme par Cécile Michaut (voir ce billet / débat).

Yaniv Erlich 2015 A vision for ubiquitous sequencing. Genome Res. 2015. 25: 1411-1416 doi:10.1101/gr.191692.115

Yaniv distingue les « plateformes de séquençage » des « senseurs de séquençage ». Une plateforme de séquençage peut être une grosse machine statique, et doit être précise car lire de nouvelles séquences d’ADN inconnues. Un senseur de séquençage doit être petit et rapide, et doit plutôt reconnaître des séquences d’ADN connues.

T1.medium

Alors, quelles applications imagine Yaniv ?

Séquençage à la maison : des appareils domestiques sensibles à l’ADN
–> des toilettes intelligentes ! Bin oui, y a déjà un branchement à l’eau (pour les réactifs chimiques) et une collecte quotidienne de matériel biologique. Et en général il y a de la place en dessous, là où ça prend la poussière. Que peut-on voir dans ce « matériel biologique » ? La flore intestinale, indicateur de santé et plus généralement d’état physiologique. La nouriture (bin tiens), donc un suivi individuel de si on fait bien son régime, encore plus énervant que les sonneries de ceinture pas attachée en voiture et que les montres qui rappellent qu’on n’a pas assez marché. « Vous avez mangé beaucoup de sucreries aujourd’hui, or votre smartwatch me dit que vous avez à peine marché. » L’ADN de la personne, qui normalement ne change pas trop ; mais un cas où il change, ce sont les cancers. Le dépistage très précoce des cancers, ça ça peut être intéressant. On rigole, mais les toilettes sont une piste très sérieuse dans la mesure où il y a très peu de changements à faire à notre maison et à nos habitudes pour que ça marche.

Séquenceur grand public à acheter et utiliser où on veut : j’admets, même si ça devient possible, les applications ne me paraissent pas évidentes. Accessoirement, la régulation d’un séquenceur d’ADN généraliste (pas programmé spécifiquement pour reconnaître la flore intestinale par exemple) ne me paraît pas évidente du tout. Ceci dit, il y a eu beaucoup de réflexions sur ce que les gens accepteraient ou pas avant les smartphones, et quand l’iphone est sorti, on a vu : les gens acceptent tout si ça leur permet de partager des photos de chatons gratos.

Applications médicales et santé : C’est le gros morceau évident. Mais dans les détails, on peut penser à des applications pas si évidentes :
• séquençage rapide aux contrôles de sécurité des aéroports ; Yaniv pense surtout à la détection de maladies contagieuses, pour limiter les épidémies ; tout le monde à part lui se demande s’il fait confiance à la sécurité des aéroports avec son ADN.
• plus évident, le séquenceur portable pour médecins. Obtenir des résultats rapides et fiables sur le terrin, même en cas de crise humanitaire ; ou même à l’hôpital sans délai d’aller-retour à un labo d’analyses.
• et si on branche le séquenceur domestique sur le réseau de l’hôpital ? Des données sur le patient fiables, précises et en temps réel, notamment sur les maladies infectieuses.
• un peu similaire aux contrôles d’aéroport mais peut-être plus faisable (me semble-t-il), un suivi constant de points clés pour connaître la diffusion des maladies, telles que bouches d’aération, points d’épuration d’eau, les systèmes de circulation d’eau de batiments collectifs, etc.
• de même à l’hôpital, un séquenceur qui analyse de petits échantillons à intervalles courts et réguliers, pour un suivi en temps réel des patients.

Applications légales et de sécurité : Ah on rigole moins, là.
• séquençage rapide des « indices ADN » sur la scène même du crime ; admettons, encore qu’il faille avoir accès une base de données de suspects de manière sécurisée sur ledits lieux du crime, ce qui n’est pas évident. Mais ça pourrait je pense permettre d’innocenter rapidement quelqu’un, d’éviter une fausse piste.
• « identification positive de la cible » par les militaires ; permettez-moi d’avoir des doutes sur l’applicabilité pratique dans un contexte militaire de l’attente du résultats d’une analyse ADN.
• identification à la sécurité des aéroports : vous le sentiez venir quand ils mis des séquenceurs pour microbes, hein ? Ce qui est intéressant ceci dit c’est qu’on peut potentiellement identifier une personne sans l’avoir elle-même dans sa bases de données, grâce au partage d’information génétique au sein d’une famille (voir ce vieux billet à moi), par exemple pour retrouver de jeunes fugueurs.
Je me dois à ce point de citer une phrase de l’article (à propos d’identification de noms de familles depuis l’ADN) qui montre à la fois le potentiel des méthodes et (à mon avis) l’optimisme de Yaniv :

With careful implementation that is sensitive to genetic privacy and cultural issues (Kim and Katsanis 2013), such technology at checkpoints could play a role in fighting human trafficking

Oui ça peut marcher avec une mise en place très prudente qui fait très attention à tous les risques et sensibilités culturelles etc, mais ça peut aussi marcher sans. C’est même beaucoup plus facile sans les précautions. Alors, où va-t-on ?

Un point technique à noter sur tous les aspects d’identification d’individus c’est qu’à partir du moment où l’on sait quelle espèce on cherche (contrairement aux pathogènes) et où l’on connait bien la variabilité génétique présente dans l’espèce, bref dans le cas des humains, il y a besoin de peu séquencer pour avoir une identification fiable.

Industrie alimentaire: le séquençage d’ADN peut notamment servir au contrôle qualité :
• intégré dans la chaîne de production.
• spécifique pour des risques connus : champignons vénéneux, niveau de bactéries pathogènes dans la viande, traces d’allergènes, etc.
Par ailleurs, on peut imaginer un système de « code barre » pour authentifier des produits : une séquence d’ADN unique artificielle introduite dans des produits permettant de les reconnaître à coup sûr, pour les éviter ou s’assurer qu’on les a bien obtenus. Au cas où vous pensiez que ce soit difficile, ce type de technique de code barres ADN est utilisé en routine dans de nombreuses expériences de biologie moléculaire.
• codes barres ADN sur les aliments plus toilettes séquenceuses = aide au régime ! Killer app !

Bon c’est sympa tout ça, mais qu’en est-il de la faisabilité ? Parce que même si le prix du séquençage d’ADN baisse, il faut encore le faire. Or à l’heure actuelle il faut quand même préparer les échantillons d’ADN avant séquençage, et cette préparation est relativement longue (autant pour le séquençage en temps réel) et compliquée (autant pour le séquenceur à la maison). Mais : de nouvelles approches en développement promettent de diminuer les étapes de pré-traitement. Il n’est pas inimaginable qu’on puisse diminuer cela à un point où le séquençage ubituitaire devienne réellement praticable. Il faut quand même être conscient que le prix n’est pas la seule limitation. Les réactifs utilisés doivent être pour le moment stockés à différentes températures, souvent +4°C (frigo) ou -20°C (congélo), et se gardent mal. Yaniv propose deux pistes à cela : l’utilisation de réactifs lyophilisés que l’on réhydrate au dernier moment, peut-être même en cartouches toutes prêtes. Et des technologies solides plutôt que liquides, grâce aux nanotechnologies. Là aussi c’est moins science-fiction qu’on ne pourrait le penser, le séquenceur MinION ou la technique de la société BioNano, par exemple, reposent sur des nanopores et une part de nanotechnologie.

Un autre problème pratique est l’analyse des données : les séquences d’ADN sont inutiles sans analyse bioinformatique. On peut mettre le logiciel sur le séquenceur, mais il faut aussi connaître les séquences de référence auxquelles comparer, qui peuvent être très nombreuses (donc prendre beaucoup de place), et qui peuvent n’avoir d’intérêt que si elles sont à jour. On parle beaucoup de « cloud computing », d’envoyer les séquences chez un service via internet qui vous renvoie le résultat du calcul, mais avec les quantités de données que l’on a en séquençage d’ADN il faut prévoir de très bonnes bandes passantes, ce qui limite les applications du type médecine de brousse. Il y a aussi le problème que si le séquençage est rapide et que l’analyse prend 24h, on n’a pas vraiment la réponse de suite. Il faut donc travailler sur des méthodes bioinformatiques permettant une réponse « dès que possible », avec analyse des données en temps réel et rapport dès qu’on a la réponse cherchée (espèce de bactérie, individu recherché, etc). C’est faisable, mais ce sont des défis intéressants.

Il y a d’autres problèmes, statistiques. Par exemple, pour reconnaître un humain d’un groupe très étudié (les européens de l’ouest, au hasard), on aura davantage de résolution que pour une population africaine très peu étudié. Du coup, les chances de se tromper d’individu jusque parce qu’il a la bonne (ou la mauvaise) ethnicité se posera. Pour la microbiologie, reconnaître une espèce que l’on soupçonne être présente (E. coli dans la nourriture non traitée) est facile, reconnaître n’importe quelle espèce quand on ne sait pas ce que l’on cherche, et qu’on ne connait qu’une petite partie de toutes les espèces existantes, et nettement plus difficile.

Et bien sûr, il y a les implications « éthiques, légales et sociales ». On sent bien dans le papier que ce n’est pas ce qui intéresse Yaniv le plus, et peut-être a-t-il raison dans la mesure où son travail est d’explorer ce qui est techniquement possible, mais ça m’a quand même un peu mal à l’aise en lisant un papier par ailleurs très intéressant. D’autant que ces implications peuvent être le plus grand obstacle à la mise en place des solutions qu’il imagine.

D’abord, il existe dans de nombreux pays des lois interdisant ou complicant la collecte d’échantillons humains. Il faut noter qu’en fait nous laissons tous des échantillons partout derrière nous tout le temps, la question est donc leur usage délibéré. L’ADN humain est partout.

Yaniv suggère des messages d’avertissement aux utilisateurs, ou des mécanismes de suppression des séquences lues dès qu’elles ont été analysées, voire de suppression des séquences humaines avant analyse lorsque l’on cherche des séquences bactériennes (par exemple). Mouais, parce qu’on sait que tout le monde lit attentivement les messages d’avertissement des logiciels, apps, pages web, et smartphones que nous utilisons. Et nous faisons totalement confiance à Facebook, Ashley Madison, et demain Nesté ou la sécurité des aéroports, pour effacer les données compromettantes ou personnelles.

Un petit exemple de problème de vie privée pour finir : si des toilettes « intelligentes » peuvent lire l’ADN, elles peuvent savoir si quelqu’un d’extérieur à la famille est venu et a utilisé les toilettes, voire si cette personne vient régulièrement, par exemple quand l’un des partenaires d’un couple est absent…

Bref, tout est possible et rien n’est résolu.

ADN partout 1/3 : Le prix du séquençage baisse encore (plus)

cliquez sur l'image : Boulet au MIT (zombies inclus)

cliquez sur l’image : Boulet au MIT (zombies inclus)

Le prix du séquençage de l’ADN vient encore de se casser la gueule un peu plus, en décrochant du « plateau » de décroissance où il était depuis trois ans :

Sequencing graphs JAN_13

Sur le graphe ci-dessus, deux choses doivent être notées en plus du décrochement récent :

  1. L’échelle est logarithmique, c’est-à-dire qu’une ligne droite correspond à un changement exponentiel. Donc même la décroissance apparemment lente de 2012 à récemment est en fait une décroissance exponentielle simplement moins forte qu’avant.
  2. La droite blanche, c’est la « loi de Moore », la croissance exponentielle de la puissance de calcul des ordinateurs. La loi de Moore, c’est ce qui fait que votre téléphone est plus puissant que les ordinateurs disponibles à la NASA pour aller sur la Lune.

En corrolaire de ces deux points, remarquez que le séquençage d’ADN devient moins cher plus vite que la puissance des ordinateurs n’augmente depuis 2003, carrément plus vite depuis 2008. On peut remarquer que la différence entre les deux exponentielles est elle-même une exponentielle : tous les ans, pour le même prix, vous pouvez séquencer encore plus d’ADN par minute de calcul possible. Autrement dit, notre capacité à séquencer de l’ADN croit beaucoup beaucoup plus vite que notre puissance informatique.

Cela a plusieurs conséquences, que nous allons explorer en deux autres billets. Mais un point à noter d’entrée est que la croissance de la puissance informatique à prix constant a eu des conséquences qu’à-peu-près personne n’a prévu. Les smartphones ou le streaming des vidéos légalement ou pas sont essentiellement absents de la science fiction jusqu’à ce qu’ils apparaissent pour de vrai. Alors imaginer ce que va être le monde du séquençage d’ADN très bon marché est difficile. Une certitude : ce monde est déjà là :

Une autre figure, montrant les différentes techniques de séquençage commercialisées. Les points liés par des traits montrent des progrès d’une même machine.

developments_in_high_throughput_sequencing

Brève sur l’édition de génomes 2 : quelques faits rapides

cliquez sur l'image pour lire (et une critique de cette BD ici)

cliquez sur l’image pour lire (et une critique de cette BD ici)

Un deuxième billet rapide après « Tout se qui est possible sera-t-il fait ?« , basé sur un article dans Nature que je viens de voir qui fait un tour succint de la question :

Genome editing: 7 facts about a revolutionary technology. What everyone should know about cut-and-paste genetics. Nature News

1. Jusqu’ici, une seule étude de l’édition de génome humain dans des cellules germinales (permettant potentiellement de développer un embryon) a été publiée dans un article scientifique :

Liang et al 2015 CRISPR/Cas9-mediated gene editing in human tripronuclear zygotes Protein & Cell 6: 363-372

Dans cet article, les embryons n’étaient pas viables, mais on a envie de dire « pas encore ».

2. Les législations sur la question sont très différentes selon les pays. Notamment Nature dit qu’ils n’y a que « des réglèments inapplicables » en Chine, Japon, Irelande et Inde ; et que de nombreux scientifiques demandent une législation internationale. Sur laquelle j’ai personnellement des doutes, alors qu’il y a encore des pays qui ne reconnaissent pas le copyright (voir Convention de Berne).

3. Avec CRISPR/Cas9, il est facile de modifier des génomes, et les « biohackers » plus ou moins amateurs s’y intéressent (article dans Nature d’août). Contrairement aux techniques précédentes de génétique moléculaire, et c’est ce qui fait une partie de son potentiel révolutionaire, cette technique n’est pas réservée à quelques laboratoires très équipés avec du personnel très bien formé.

Mise à jour : vu dans cette excellente interview de Doudna et Charpentier (voir point 7), la companie Addgene vend des kits de CRISPR/Cas9.

4. D’autres enzymes que Cas9 sont en train d’être découvertes, ce qui va encore faciliter les choses (techniquement) ou les compliquer (pour réguler).

5. Les expériences les plus avancées ont lieu chez des cochons : super-musclés, mini, ou sur-édités. Pourquoi les cochons ? Notamment dans l’espoir de construire des donneurs d’organes animaux humain-compatibles. En attendant, ils pensent vendre les mini cochons comme animaux domestiques.

6. Les grosses multinationales et les millardaires s’y intéressent : la Gates Foundation, Google ou DuPont investissent dans CRISPR/Cas9.

7. Il y a une guerre de brevets entre Jennifer Doudna (University of California, Berkeley) et Emmanuelle Charpentier (Max Planck Institute) d’un coté, généralement créditées de l’invention du système, et Feng Zhang de MIT & Harvard de l’autre, qui a fait marcher le système dans des cellules humaines.

Et puis un 8ème point qui n’était pas encore connu quand l’article de Nature a été publié : la conférence sur l’édition de génomes a conclu que « Gene-editing technology should not be used to modify human embryos that are intended for use in establishing a pregnancy » (Nature news) : l’édition de génomes ne devrait pas être utilisée pour modifier des embryons humains prévus pour être utilisés pour une grossesse. Mais des cellules humaines chez une personne (thérapie génique), oui, et des embryons humains à fins non reproductives apparemment oui aussi.

Tout se qui est possible sera-t-il fait ? Brève sur l’édition de génomes humains #GeneEditSummit

cliquez pour des savant fous et solitaires

cliquez pour des savant fous et solitaires

Il y a une conférence en cours sur les aspects éthiques de l’édition de gènes et génomes humains. Ca a notamment été couvert par Le Monde (payant). La conférence a été organisée parce que la technique CRISPR/Cas9 (voir ici et ici) et ses dérivés permettent des modifications aisées des génomes. Et si c’est possible chez la souris ou le cochon, c’est possible chez l’humain (voir ici et ici).

Je ne vais pas écrire longuement sur le sujet maintenant, mais juste noter le tweet suivant de Paul Knoepfler, chercheur et blogueur sur les cellules souches (on a parlé de son blog ipscell ici) :

Philip Campbell est l’éditeur en chef de Nature, le journal scientifique le plus prestigieux de la planète. Et ce qu’il nous dit c’est que (1) des scientifiques font des expériences d’édition de lignée germinale (spermatozoïdes et ovules) humains, (2) ils soumettent les résults à Nature, (3) Nature refuse, (4) parce qu’ils n’ont pas suivi les règles éthiques du journal.

Il parait difficile d’en conclure autre chose que « si c’est faisable, ça sera fait ». Et que nos commentaires éthiques n’y changeront pas grand chose. Mais peut-être suis-je trop pessimiste. En tous cas, ça me parait un problème autrement plus urgent que les sempiternelles bisbilles autour des OGM en agriculture.

Voir aussi ce tweet par exemple, George Church étant un généticien très connu et favorable au laissez faire en la matière :

Je recommande de regarder les « top tweets » si vous êtes intéressés : https://twitter.com/hashtag/GeneEditSummit

Sans blogs, les erreurs dans les articles scientifiques restent masquées très longtemps

error

cliquez sur l’image

Une petite suite à mon billet récent sur les critiques Twitter d’un article prestigieux. Aujourd’hui Lior Pachter (dont on a déjà parlé sur ce blog : les méthodes comptent, rififi chez les bioinformaticiens, écrire un mauvais article) a publié un nouveau billet. Dedans, il part d’un article publié récemment en preprint (version publique non encore publiée officiellement, voir ici), pour critiquer un article de 2004, de Kellis et al dans Nature (depuis Manolis Kellis est devenu un des poids lourds de la génomique). Dans Kellis et al 2004, les auteurs donnent une proportion de 95% de gènes dupliqués où seul l’un des deux évolue rapidement, et disent que c’est frappant (« striking ») et que ça soutient une hypothèse classique d’évolution des gènes dupliqués.

Lior met au défi ses lecteurs de déterminer la probabilité d’observer ce résultat : est-ce réellement frappant, ou au contraire attendu même si l’hypothèse est fausse ?

Et ce qui me frappe, moi, c’est un commentaire où Lior publie un email qu’il vient de recevoir. Un collègue anonyme lui envoie la lettre qu’il avait écrite au journal Nature à l’époque, en 2004. Laquelle lettre détaille le calcul de la probabilié associée, et montre que loin d’être frappant, le résultat invalide même légèrement l’hypothèse classique. Lettre que Nature a refusé de publier. Donc que personne n’a vu entre 2004 et 2015.

Pourquoi est-ce que ça me frappe ? Parce que ça montre une fois de plus qu’en l’absence de la communication scientifique informelle par les blogs et Twitter, le système a été vérouillé par quelques-uns, qui n’ont pas permis à la discussion scientifique d’avancer comme elle le devrait. Cette discussion ouverte, à laquelle participe également la publication open access / libre accès, est essentielle. Nous vivons une révolution pacifique et très positive, et il faut en être conscient et la soutenir.

Mise à jour : grosse discussion générée sur Twitter, avec intervention de l’excellent Alan Drummond entre autres (cliquez sur le Tweet pour voir les réponses). Et vive les médias sociaux en science.

 

Ciel ! On critique un article scientifique sur Twitter !

cliquez sur l'image

cliquez sur l’image

Après une longue pause, ce blog redémarre. Je reviendrais sur mes réflexions sur les blogs et la communication scientifique prochainement, mais commençons par un billet sur un petit évènement qui agite mon landerneau, celui de la génomique et la bioinformatique de l’évolution. Et qui éclaire l’évolution de la publication et du débat scientifique à l’heure des réseaux sociaux.

Mes plus fidèles lecteurs se rappeleront du projet ENCODE (billet ENCODE, billets sur critiques d’ENCODE 1 et 2, billet Big Science). L’original concernait l’humain, il y a eu ensuite un ENCODE souris, et un modENCODE mouche drosophile et vers nématode. Tous ces projets mènent à de nombreux articles scientifiques, certains décrivant les données, d’autres les utilisant pour diverses études. Fin 2014, une analyse publiée en coordination avec ENCODE souris (Lin et al 2014 ; voir aussi Figure 2 dans Yue et al 2014) montrait un résultat surprenant :

comparaison d’expression de gènes humain-souris, par analyse multivariée présentée bizarrement

Si vous trouvez la figure ci-dessus difficile à comprendre, vous êtes pardonné. En bref, les auteurs ont pris la mesure du niveau d’expression des gènes (leur niveau d’activité en première approximation) dans différents tissus (de testicules à estomac) de souris et d’humain. Pour chaque tissu humain ou souris, on a environ 20’000 mesures, pour autant de gènes. On peut réduire cela aux 2 ou 3 dimensions qui expliquent le mieux la variation, ce qu’ils ont fait. D’habitude on représente cela par des graphes 2D, qui sont lisibles au moins, mais ici ce sont des graphes 3D où la troisième dimension est très difficile à comprendre. Mais ceci est un péché véniel.

Ce qui est frappant pour le spécialiste dans ces figures, c’est que les tissus de regroupent par espèce (souris ensemble, humain ensemble) plutôt que par type de tissu (estomacs ensemble, reins ensemble). Ce qui revient à dire que les gènes exprimés dans un estomac de souris sont davantage similaires à ceux exprimés dans un rein de souris que dans un estomac humain. Ce qui est très surprenant : on s’attends plutôt à l’inverse, et d’ailleurs cela a été publié de manière répétée (même par mon labo). Et comme le fait remarquer l’inénarable Dan Graur (voir ici à son propos), si c’est vrai ça veut dire que l’étude des gènes de souris ne sert à rien pour étudier l’humain, et que donc ENCODE souris est un gaspillage d’argent. Ce que les auteurs d’ENCODE souris ne relèvent curieusement pas.

Ce résultat a paru bizarre a beaucoup de monde, et une analyse rapide dans mon labo semblait indiquer qu’il était du à ce que les expériences de souris et d’humain ont été faites différemment, et donc ce que l’on verrait serait le biais expérimental plutôt que le signal biologique. Mais montrer publiquement qu’un collègue a tort, c’est du boulot (cf ici), qu’on n’avait pas envie de poursuivre dans ce cas-ci.

Heureusement, un collègue de Chicago, Yoav Gilad, a décidé de le faire, et il a lancé un Tweet tonitruant :

Bon tonitruant sur l’échelle des débats feutrés en science hein. L’important c’est qu’il a montré que les résultats publiés ne tenaient pas, mais qu’en enlevant les biais expérimentaux on retrouvait bien un regroupement par tissus. Il a ensuite mis son article sous forme non encore expertisée sur le site de F1000, qui permet de rendre publique toutes les versions d’un papier, avant pendant après expertise, ainsi que les expertises elles-mêmes, afin que tous puissent discuter librement :

A reanalysis of mouse ENCODE comparative gene expression data. Yoav Gilad, Orna Mizrahi-Man F1000

A noter que les commentaires sous cet article « brouillon » sont très constructifs, et comprennent deux réponses détaillées des auteurs d’origine du consortium ENCODE.

Le tweet d’origine a fait beaucoup réagir dans le microcosme des biologistes des génomes, et a donné lieu a un compte-rendu dans le magazine Nature, où notamment l’auteur sénior (le chef quoi) de l’article d’origine, Michael Snyder, a déclaré que Gilad avait « brisé les normes sociales de la science en postant initialement sa critique sur Twitter » :

Michael Snyder, a geneticist at Stanford University in California and co-author of the original paper, stands by his team’s study and its conclusions and says that Gilad broke the “social norms” of science by initially posting the critique on Twitter. Gilad says that he took to social media to highlight his work, which might otherwise have been overlooked.

Cette réaction de Snyder a provoqué pas mal de réactions sarcastiques sur Twitter et blogs. Le ton général était qu’une publication scientifique est, bin, publique, et doit être critiquée publiquement. Et que la norme sociale de la science, ça doit être de faire les meilleures analyses et d’accepter la critique. Certains collègues pensent toutefois que Twitter est trop brutal, une appréciation que je ne partage toutefois pas. Si on reçoit énormément d’argent des contribuables pour faire de grosses études, qu’on les publie à grande fanfare dans les journaux les plus réputés, on doit s’attendre à être jugé et critiqué à l’échelle de cet investissement et de ce retentissement. A vrai dire, certains collègues éminents (Ewan Birney, Lior Pachter) ont dit que si l’analyse de Gilad était confirmée, l’article de Snyder devrait être rétracté, ce qui est très brutal. Et je pense que l’analyse va être confirmée. Le statisticien renomé en génomique Rafael Izarry a publié un billet sur son blog où il affirme que la mise en place de l’expérience était tellement faussée du départ que les auteurs ne pouvaient simplement rien trouver, et que donc toute l’analyse est forcément invalide. En fait, dans la discussion beaucoup de personnes disent que soit on enlève et le biais expérimental et l’effet (potentiel) espèce-spécifique, soit on confond les deux, mais ils ne sont pas démélables en l’état (voir à ce propos un excellent billet de Lior Pachter qui référence un billet du cafe-sciences dans les commentaires).

On revient à un point déjà traité précédemment sur ce blog, à propos des gros projets de génomique et autre « big science ». Les scientifiques très connus et très établis, qui obtiennent de très gros budgets et publient fréquemment dans les plus grandes revues, ne sont plus à l’abri des critiques. Avant, elles existaient, mais ils pouvaient les ignorer, et surtout compter que les personnes les finançant et les jugeant les ignoraient. Maintenant, c’est public et c’est très rapide, et ces scientifiques et ces revues prestigieuses doivent s’habituer à une discussion beaucoup plus animée et critique qu’avant. C’est pour le mieux pour la science et c’est ça qui compte.

Anecdote personnelle : maintenant quand j’expertise ou j’édite un article (voir les rôles dans ce billet), je réfléchis avant de soumettre mon avis : que penserais-je si cet article était publiquement critiqué ? Serait-je fier ou honteux de mon rôle dans la publication. Et peut-être que je suis un peu plus prudent qu’avant, et c’est bien.