Archives pour la catégorie article de mon labo

Mon étudiante a eu un prix : Sélection naturelle polygénique du système immunitaire dans l’évolution humaine

Cliquez sur l'image

Cliquez sur l’image

Une doctorante que je co-encadre, Joséphine Daub, vient de gagner un prix, et j’en profite pour me vanter et présenter son travail, qui est effectivement excellent et très intéressant. L’idée de départ est de mon collègue Laurent Excoffier, moi je trainais juste dans le coin (et j’ai peut-être contribué un peu aux méthodes et à la discussion).

Daub et al. 2013 Evidence for Polygenic Adaptation to Pathogens in the Human Genome Mol Biol Evol 30: 1544-1558

Il existe trois grands types d’action de la sélection naturelle : pour garder ce qui marche en l’état (dite négative, la plus fréquente), pour fixer des changements qui améliorent les choses (dite positive, rare), et pour garder de la diversité (dite balançante, rare aussi). Détecter la sélection négative c’est relativement facile, c’est ce qui est conservé lors de l’évolution. Détecter la sélection positive est plus difficile, mais potentiellement plus intéressant puisque c’est ce qui expliquera les différences entre espèces, voire entre populations. Une manière de détecter la sélection positive est de chercher des variants du génome (des polymorphismes ou « SNP ») qui ont des fréquences très différentes entre populations. Si certains types de SNP sont très fréquents chez les populations d’altitude (tibétains et andins) mais très rares chez les autres, c’est une indication que ces variants sont avantageux en altitude, et sous sélection positive qui les promeut dans ces conditions. Un des problèmes de cette approche, c’est que chez les humains qui nous intéressent souvent le signal s’il existe est très faible. Donc c’est difficile de détecter de manière fiable une évidence de sélection naturelle dans l’évolution humaine récente (« récente » des biologistes évolutifs : ces dernier ≈100’000 ans).

Et c’est là qu’intervient l’idée de ce travail : utiliser non pas le signal calculé pour chaque gène, mais faire la somme du signal pour des ensembles de gènes qui travaillent ensemble à une même fonction. En effet, les gènes n’agissent jamais seuls pour les fonctions biologiques : ce sont des réseaux métaboliques, des cascades régulatrices, des complexes protéiques, etc. Si une fonction est sous sélection positive, on peut supposer que de nombreuses petites variations dans différents gènes agissant sur cette fonction soient toutes affectées par cette sélection. Donc ce que l’on fait c’est (1) calculer pour chaque SNP le score de différentiation entre populations, (2) corriger ce score en fonction de problèmes connus de démographie, (3) définir des ensembles de gènes fonctionnellement pertinents (en l’occurence de NCBI Biosystems), (4) faire la somme des scores pour tous les gènes de chaque ensemble. Ensuite ça a été un peu compliqué de définir quel est un score significatif parmi des ensembles de gènes de tailles différentes, contenant des gènes de tailles différentes (un grand gène a plus de variants au hasard), avec des gènes en commun entre les ensembles (un gène peut agir dans plusieurs contextes, sans compter que la même fonction peut être décrite deux fois de manières différentes), bref à la fin on peut attribuer un score et une significativité statistique à chaque ensemble de gènes. (Vous êtes en thèse et vous déprimez ? Joséphine a obtenu ses premiers résults en 2 mois, a ensuite passé 2 ans à découvrir des biais et à les corriger, invalidant certains résultats et en découvrant d’autres ; maintenant elle récolte la gloire et les honneurs, mais ce fut dur.)

Et ce qui sort, c’est un petit nombre d’ensembles de gènes soit directement impliqués dans l’immunité, soit indirectement dans la défense contre les pathogènes. Désolé pour ceux qui attendaient des différences d’intelligence et autres bétises, ce qui différencie le plus les populations humaines ce sont les pathogènes (bactéries, virus et autres) auxquels elles ont été exposées dans différents environnements.

La méthode elle-même s’avère très puissante pour de nombreux cas où l’on a un signal faible par gène, mais qui peut se cumuler sur des ensembles de gènes ayant subi la même sélection, et a déjà été appliquée à l’évolution des fourmis (on trouve de la sélection sur le vieillissement, les fourmis vivent bien plus vieux que la plupart des insectes). On est train de l’appliquer à d’autres aspects de la sélection naturelle dans l’évolution humaine, mais pour la suite de l’histoire il faudra attendre qu’on publie les papiers…

Histoire d’un article : la solution de la conjecture orthologue

Aujourd’hui un billet un peu particulier. Nous avons publié récemment un papier sur la fonction de gènes orthologues et paralogues (voir aussi ce billet), et mon co-auteur Christophe Dessimoz a écrit un billet invité sur le blog de Jonathan Eisen, qui donne « l’histoire derrière le papier ». Je vais vous proposer ici une traduction de son billet, avec des modifications pour accommoder le fait que son histoire est à la première personne (à savoir Christophe), et qu’ici c’est mon blog, et donc ça sera à la première personne à savoir moi. Je remercie Christophe de m’avoir autorisé à ré-utiliser ainsi son texte.

Avertissement : ce billet est un peu technique ; mais je pense qu’il est intéressant de montrer comment fonctionne la recherche en vrai.

Dans cet article, nous avons soutenu la « conjecture orthologues », à savoir l’idée très répandue mais peu testée que les orthologues tendent à être davantage conservés fonctionnellement que les paralogues.

Dans ce billet nous allons également explorer quelques problèmes plus généraux, y compris les écueils de l’analyse statistique sur des données très hétérogènes comme la Gene Ontology, et le rôle clé de l’expertise par les pairs (peer-reviewing).

Comme beaucoup d’autres projets en bioinformatique, celui-ci a démarré comme une analyse rapide qui allait prendre « quelques heures », et a fini par nous occuper pendant plusieurs années…

La conjecture orthologue et les hypothèses alternatives

La conjecture orthologue est l’hypothèse que, en moyenne et pour des niveaux de divergence de séquence similaires, des gènes qui ont divergé par spéciation (des « orthologues ») sont plus similaires en fonction que des gènes qui ont divergé par duplication (« paralogues »). Elle est basée sur l’idée que la duplication de gènes est un moteur principal de l’innovation fonctionnelle. Ceci fait sens, intuitivement, parce que la copie supplémentaire obtenue par duplication devrait avoir la liberté d’évoluer une nouvelle fonction. Tout ceci forme le « dogme » conventionnel.

Alternativement, pour des niveaux similaires de divergence de séquence, il pourrait ne pas y avoir de différence particulière entre orthologues et paralogues. C’est le modèle le plus simple, et il fait sens si la fonction d’un gène est uniquement porté par sa séquence protéique (nous ne considérons ici qu’un produit protéique par gène). D’après cette hypothèse, nous attendons une corrélation forte entre similarité de séquence et de fonction.

Mais ce ne sont pas les seules hypothèses possibles. Notamment, Nehrt et collègues ont trouvé une conservation de fonction plus forte entre homologues dans la même espèce, qu’entre homologues d’espèces différentes, ce qui les a amené à conclure que « l’aspect le plus important de la similarité de fonction n’est pas la similarité de séquence, mais plutôt la similarité de contexte ». Si l’environnement (le « contexte ») est bien la force évolutive principale, il n’est pas déraisonable de spéculer que les paralogues dans la même espèce puissent évoluer de manière corrélée, et soient ainsi fonctionnellement plus similaires que leurs équivalents entre espèces.

Pourquoi s’embêter à tester ces hypothèses ?

Tester ces hypothèses est important non seulement pour une meilleure compréhension générale de l’évolution de la fonction des gènes, mais aussi parce que cela a des implications pratiques. La grande majorité des annotations fonctionnelles des gènes (98% des annotations Gene Ontology) sont propagées computationnellement, depuis des données expérimentales dans une poignée d’organismes modèles. Et la propagation utilise souvent des modèles du type de la conjecture orthologue.

Comment notre travail a commencé

Notre projet est né durant une pause à la conférence pour le 10ème anniversaire de l’Institut suisse de bioinformatique, en septembre 2008. Christophe m’expliquait son travail avec Adrian Althenhoff sur l’évaluation de méthodes de détection d’orthologues, dans lequel ils avaient utilisé la similarité de fonction comme indicateur de l’orthologie. Ils avaient implicitement supposé que la conjecture orthologue était correcte, ce que je leur ai fait remarquer. J’étais assez sceptique de cette conjecture, et vers cette époque, avec mon doctorant Romain Studer, nous avions publié un article d’opinion dans Trends in Genetics, intitulé « How confident can we be that orthologs are similar, but paralogs differ? » (chez Elsevier pas libre d’accès, désolé ; exemplaire gratuit ici). Avec toutes les données en main, nous avons décidé de retourner l’analyse d’Adrian et Christophe, et de comparer la similarité d’annotation Gene Ontology des orthologues et des paralogues. Loin de nous l’idée que cette analyse nous occuperait plus de 3 ans !

Première tentative

Cela nous a pris seulement quelques semaines pour obtenir nos premiers résultats. Mais nous étions très intrigués. Comme Nehrt et al. allaient le publier plus tard, nous avons observé que les paralogues au sein de la même espèce tendaient à être plus conservés fonctionnellement que les orthologues. Au départ nous étions très sceptiques. Après tout, Christophe s’attendait à confirmer la conjecture orthologue, et je penchais en faveur d’une divergence uniforme. Nous avons commencé à contrôler pour toutes sortes de biais potentiels, et à contrôler la structure des données (par exemple la source des prédictions d’orthologie / paralogie, les mesures de similarité de fonction ou de séquence, la variation entre groupes d’espèces). Après un an, nos annexes étaient devenus un PDF de 67 pages rempli à craquer de graphes. Mais l’observation de départ tenait sous toutes sortes de conditions. A ce point, nous commencions à penser que nos résultats n’étaient pas artéfactuels, et qu’il était temps de les rendre publics. (Nous commencions aussi à manquer d’idées pour des contrôles supplémentaires, et espérions que les experts pourraient nous aider !)

Rejets

Nous avons essayé de publier le papier dans des journaux prestigieux, mais notre manuscript a été rejeté avant d’être expertisé. Nous avons trouvé frustrant que, bien que le travail soit jugé important, il soit rejeté avant expertise pour raison invoquée de problème technique. L’éditeur devrait juger de l’importance, et les experts de la qualité technique, en principe.

Finalement Genome Research a envoyé notre manuscript à expertiser, et nous avons reçu un rapport critique mais informatif. L’expert a dit que nos résultats étaient dus à des facteurs espèce-spécifiques, dus à ce que « les paralogues dans la même espèce tendent à être ‘manipulés’ ensemble, par les expérimentateurs et les annotateurs ». L’argument était construit sur un exemple que nous avions discuté dans le papier : Cdc10/Cdc12 chez S. cerevisiae et Spn2/Spn4 chez S. pombe sont des paralogues au sein de chaque espèce (des levures – des champignons unicellulaires), tandis que Cdc10/Spn2 et Cdc12/Spn4 sont les paires d’orthologues. Les annotations Gene Ontology des orthologues étaient très différentes, tandis que les annotations des paralogues étaient très similaires. L’expert a regardé les articles d’origine des annotations en détail, et a remarqué que « la divergence fonctionnelle entre ces gènes est davantage apparente que réelle ». Les deux paires de paralogues sont des composants de l’anneau de septines (Wikipedia en anglais). Les différences d’annotation semblent dues à des différences dans les expériences faites et la façon dont elles ont été transcrites. L’expert a écrit :

« Un unique papier va souvent examiner les phénotypes [effets sur l’organisme] de plusieurs paralogues dans une espèce, menant à un papier, qui est probablement traité par un annotateur GO à la fois. Par contre, les phénotypes des orthologues dans différentes espèces proviennent presque toujours de papiers différents, via des équipes d’annotateurs différentes. »

L’effet ‘auteur’ : un biais facile à rater

Au départ, c’était tentant de simplement écarter la critique. Après tout, « le pluriel d’anecdote n’est pas données » [ref]. Plus important, nous avions essayé de prendre en compte plusieurs biais espèce-spécifiques, tels que les différences de fréquence d’annotations entre espèces (par exemple étude surtout de gènes du développement chez le nématode C. elegans). De plus, nous avions été prudents dans nos conclusions, suggérant que nos résultats pourraient être dus à un effet confondant, inconnu jusqu’ici, dans les données Gene Ontology (rappel : on était à court d’idées). Donc l’expert ne nous disais rien que nous ne sachions déjà.

Vraiment ? Stimulés par l’image des paralogues de même espèce manipulés ensemble, nous avons décidé d’étudier s’il pourrait y avoir une corrélation entre le partage d’auteurs et la similarité d’annotation de fonction. Voici ce que nous avons observé :

La similarité d’annotations de fonction à partir d’un papier commun est bien plus élevée qu’autrement ! Même si on se limite aux annotations tirés de papiers différents, mais avec au moins un auteur en commun, la similarité d’annotations fonctionnelles est encore bien plus élevée que pour les papiers sans aucun auteur commun.

Le paradoxe de Simpson

En soi, l’effet des auteurs n’est pas forcément un problème : si les annotations entre orthologues et paralogues sont distribués de manière semblable entre les origines, les différences d’auteur vont se compenser. Le problème dans notre cas est que les paralogues sont un ordre de grandeur plus fréquemment annotés à partir du même labo que les orthologues. D’où le paradoxe de Simpson : les paralogues apparaissent fonctionnellement plus similaires que les orthologues juste parce que les paralogues ont nettement plus de chances d’être étudiés par les mêmes personnes.

Un exemple classique du paradoxe de Simpson est le cas du « biais de genre à Berkeley » : l’université avait été attaquée en justice pour biais contre les candidates féminines, sur la base des nombres d’admissions totaux en 1973 (44% des hommes admis, contre 33% des femmes). En fait, le taux d’admission dans chaque département était similaire pour les deux sexes (et en faveur des femmes dans quelques départements). Le taux d’acceptation plus bas pour les femmes n’était pas du à un biais sexiste, mais à une tendance des femmes à candidater dans les départements les plus sélectifs. Par exemple si 100 femmes et 10 hommes candidatent dans un département avec 40% d’acceptation, et qu’il n’y a pas de biais, on va accepter 40 femmes et 4 hommes ; si en parallèle 100 hommes et 10 femmes candidatent dans un département avec 60% d’acceptation, on va accepter 60 hommes et 6 femmes ; en cumulé, on aura accepté 46 femmes et 64 hommes sans biais sexiste. Fou non ?

Papier de Nehrt et al.

La découverte de biais dû aux auteurs nous a forcé à ré-analyser toutes nos données, et à complètement ré-écrire notre manuscript. Après quelques mois de ce travail, en juin 2011, Matt Hahn et ses collègues ont publié leur papier (Nehrt et al). Matt a écrit l’histoire très intéressante (et parallèle à la notre) derrière son papier sur le blog de Eisen. En bref, ils ont trouvé que les paralogues au sein d’une espèce (seuls humain et souris ont été comparés) sont plus similaires en fonction que les orthologues.

Tout en n’étant pas très surpris par leurs observations sur le fond – elles étaient cohérentes avec notre manuscript rejeté – nous avons été frappés par la similarité dans la présentation des résultats :

A gauche, figure 2A de Nehrt et al., à droite figure de notre manuscript rejeté en 2010. Remarquer que leurs lignes bleues et vertes sont combinées dans notre ligne jaune.

La publication de Nehrt et al nous a donné des sentiments mélangés. Clairement, leur travail enlevait une part de la nouveauté dans notre étude. Mais en même temps, ils ont attiré beaucoup d’attention sur le problème (y compris en inventant le nom de « conjecture orthologue »). Et bien sur, nous savions déjà à ce point-là que leurs observations étaient confondues par des facteurs tels que le biais des auteurs, donc ça n’était pas la fin de l’histoire.

Est-il possible de tirer des conclusions fiables de données d’observation telles que les annotations GO ?

Avant de passer à nos résultats, ça vaut le coup de réfléchir encore un peu sur le problème des biais dans les données. Les statisticiens et les épidémiologistes font une distinction forte entre données expérimentales (provenant d’une expérience contrôlée, désignée de sorte que les groupes d’étude et de contrôle soient aussi identiques que possible en tous points sauf le paramètre à étudier), et les données d’observation* (données trouvées posées là n’importe comment par n’importe qui). Les données de la base de données GO tombe clairement dans la deuxième catégorie : des données d’observation. Nous sommes à la merci d’innombrables effets cachés qui peuvent biaiser nos conclusions de toutes sortes de manières.

* je traduis librement de l’anglais observational data

Pouvons-nous compter sur ces données du tout ? Pour certains, la réponse apparaît être un « non » catégorique. Une approche plus pragmatique a été exprimée par le consortium GO dans une réponse récente à Nehrt et al, où ils ont identifié des effets confondants potentiels ignorés dans cette étude, tels que les biais d’annotation espèce-spécifiques (ils ont suggéré sans rire que l’étude soutient plutôt « la conjecture de l’annotation biaisée »), et ont mis en avant que « les utilisateurs de GO doivent s’assurer qu’ils testent pour les biais potentiels et les prennent en compte avant interprétation ».

Au final, ce débat et notre expérience mettent en avant les problèmes des données d’observation. En même temps, ce type de données est souvent tout ce que nous avons, et la meilleure stratégie semble d’être en effet d’identifier autant que possible les facteurs confondants, de les prendre en compte, et d’avancer prudemment.

Une réponse

En contrôlant pour le biais d’auteurs et quelques autres – certains déjà connus, d’autres nouvellement identifiés – nous avons trouvé que pour des niveaux similaires de divergence, les orthologues tendent à être plus conservés que les paralogues. Ceci est vrai de différentes méthodes de prédiction des orthologues et paralogues, différents aspects de la fonction, différentes mesures de similarité de séquence, et différentes stratégies d’échantillonnage des données. Mais en termes absolus, la différence est souvent faible, et varie pas mal entre espèces et aspects de la fonction. Notre étude confirme donc la conjecture orthologue, mais en même temps montre qu’elle n’est pas si utile que ça en pratique, puisqu’elle a peu de pouvoir prédictif.

Cliquez pour voir l’original

A noter deux contributions cruciales à cette étude : les experts (peer-review), et la science ouverte. Nous avons clairement une dette envers l’expert qui a rejeté notre papier sur la base d’un biais potentiel dans l’origine des annotations. Les experts de la deuxième version ont fourni des avis détaillés et compétents. En ce qui concerne la science ouverte, comment ferions-nous de la bioinformatique sans ? Sans données publiquement disponibles de génomique et d’annotations fonctionnelles, une telle étude serait impossible.

Ceci n’est pas la fin de l’histoire, nous organisons un symposium à Dublin en juin sur le sujet, et je sais que plusieurs collègues travaillent encore à montrer que nous avons tous raté un point clé ou quelque chose comme ça. Et vous pouvez suivre mon collègue Christophe Dessimoz sur twitter @cdessimoz.