Histoire d’un article : la solution de la conjecture orthologue

Aujourd’hui un billet un peu particulier. Nous avons publié récemment un papier sur la fonction de gènes orthologues et paralogues (voir aussi ce billet), et mon co-auteur Christophe Dessimoz a écrit un billet invité sur le blog de Jonathan Eisen, qui donne « l’histoire derrière le papier ». Je vais vous proposer ici une traduction de son billet, avec des modifications pour accommoder le fait que son histoire est à la première personne (à savoir Christophe), et qu’ici c’est mon blog, et donc ça sera à la première personne à savoir moi. Je remercie Christophe de m’avoir autorisé à ré-utiliser ainsi son texte.

Avertissement : ce billet est un peu technique ; mais je pense qu’il est intéressant de montrer comment fonctionne la recherche en vrai.

Dans cet article, nous avons soutenu la « conjecture orthologues », à savoir l’idée très répandue mais peu testée que les orthologues tendent à être davantage conservés fonctionnellement que les paralogues.

Dans ce billet nous allons également explorer quelques problèmes plus généraux, y compris les écueils de l’analyse statistique sur des données très hétérogènes comme la Gene Ontology, et le rôle clé de l’expertise par les pairs (peer-reviewing).

Comme beaucoup d’autres projets en bioinformatique, celui-ci a démarré comme une analyse rapide qui allait prendre « quelques heures », et a fini par nous occuper pendant plusieurs années…

La conjecture orthologue et les hypothèses alternatives

La conjecture orthologue est l’hypothèse que, en moyenne et pour des niveaux de divergence de séquence similaires, des gènes qui ont divergé par spéciation (des « orthologues ») sont plus similaires en fonction que des gènes qui ont divergé par duplication (« paralogues »). Elle est basée sur l’idée que la duplication de gènes est un moteur principal de l’innovation fonctionnelle. Ceci fait sens, intuitivement, parce que la copie supplémentaire obtenue par duplication devrait avoir la liberté d’évoluer une nouvelle fonction. Tout ceci forme le « dogme » conventionnel.

Alternativement, pour des niveaux similaires de divergence de séquence, il pourrait ne pas y avoir de différence particulière entre orthologues et paralogues. C’est le modèle le plus simple, et il fait sens si la fonction d’un gène est uniquement porté par sa séquence protéique (nous ne considérons ici qu’un produit protéique par gène). D’après cette hypothèse, nous attendons une corrélation forte entre similarité de séquence et de fonction.

Mais ce ne sont pas les seules hypothèses possibles. Notamment, Nehrt et collègues ont trouvé une conservation de fonction plus forte entre homologues dans la même espèce, qu’entre homologues d’espèces différentes, ce qui les a amené à conclure que « l’aspect le plus important de la similarité de fonction n’est pas la similarité de séquence, mais plutôt la similarité de contexte ». Si l’environnement (le « contexte ») est bien la force évolutive principale, il n’est pas déraisonable de spéculer que les paralogues dans la même espèce puissent évoluer de manière corrélée, et soient ainsi fonctionnellement plus similaires que leurs équivalents entre espèces.

Pourquoi s’embêter à tester ces hypothèses ?

Tester ces hypothèses est important non seulement pour une meilleure compréhension générale de l’évolution de la fonction des gènes, mais aussi parce que cela a des implications pratiques. La grande majorité des annotations fonctionnelles des gènes (98% des annotations Gene Ontology) sont propagées computationnellement, depuis des données expérimentales dans une poignée d’organismes modèles. Et la propagation utilise souvent des modèles du type de la conjecture orthologue.

Comment notre travail a commencé

Notre projet est né durant une pause à la conférence pour le 10ème anniversaire de l’Institut suisse de bioinformatique, en septembre 2008. Christophe m’expliquait son travail avec Adrian Althenhoff sur l’évaluation de méthodes de détection d’orthologues, dans lequel ils avaient utilisé la similarité de fonction comme indicateur de l’orthologie. Ils avaient implicitement supposé que la conjecture orthologue était correcte, ce que je leur ai fait remarquer. J’étais assez sceptique de cette conjecture, et vers cette époque, avec mon doctorant Romain Studer, nous avions publié un article d’opinion dans Trends in Genetics, intitulé « How confident can we be that orthologs are similar, but paralogs differ? » (chez Elsevier pas libre d’accès, désolé ; exemplaire gratuit ici). Avec toutes les données en main, nous avons décidé de retourner l’analyse d’Adrian et Christophe, et de comparer la similarité d’annotation Gene Ontology des orthologues et des paralogues. Loin de nous l’idée que cette analyse nous occuperait plus de 3 ans !

Première tentative

Cela nous a pris seulement quelques semaines pour obtenir nos premiers résultats. Mais nous étions très intrigués. Comme Nehrt et al. allaient le publier plus tard, nous avons observé que les paralogues au sein de la même espèce tendaient à être plus conservés fonctionnellement que les orthologues. Au départ nous étions très sceptiques. Après tout, Christophe s’attendait à confirmer la conjecture orthologue, et je penchais en faveur d’une divergence uniforme. Nous avons commencé à contrôler pour toutes sortes de biais potentiels, et à contrôler la structure des données (par exemple la source des prédictions d’orthologie / paralogie, les mesures de similarité de fonction ou de séquence, la variation entre groupes d’espèces). Après un an, nos annexes étaient devenus un PDF de 67 pages rempli à craquer de graphes. Mais l’observation de départ tenait sous toutes sortes de conditions. A ce point, nous commencions à penser que nos résultats n’étaient pas artéfactuels, et qu’il était temps de les rendre publics. (Nous commencions aussi à manquer d’idées pour des contrôles supplémentaires, et espérions que les experts pourraient nous aider !)

Rejets

Nous avons essayé de publier le papier dans des journaux prestigieux, mais notre manuscript a été rejeté avant d’être expertisé. Nous avons trouvé frustrant que, bien que le travail soit jugé important, il soit rejeté avant expertise pour raison invoquée de problème technique. L’éditeur devrait juger de l’importance, et les experts de la qualité technique, en principe.

Finalement Genome Research a envoyé notre manuscript à expertiser, et nous avons reçu un rapport critique mais informatif. L’expert a dit que nos résultats étaient dus à des facteurs espèce-spécifiques, dus à ce que « les paralogues dans la même espèce tendent à être ‘manipulés’ ensemble, par les expérimentateurs et les annotateurs ». L’argument était construit sur un exemple que nous avions discuté dans le papier : Cdc10/Cdc12 chez S. cerevisiae et Spn2/Spn4 chez S. pombe sont des paralogues au sein de chaque espèce (des levures – des champignons unicellulaires), tandis que Cdc10/Spn2 et Cdc12/Spn4 sont les paires d’orthologues. Les annotations Gene Ontology des orthologues étaient très différentes, tandis que les annotations des paralogues étaient très similaires. L’expert a regardé les articles d’origine des annotations en détail, et a remarqué que « la divergence fonctionnelle entre ces gènes est davantage apparente que réelle ». Les deux paires de paralogues sont des composants de l’anneau de septines (Wikipedia en anglais). Les différences d’annotation semblent dues à des différences dans les expériences faites et la façon dont elles ont été transcrites. L’expert a écrit :

« Un unique papier va souvent examiner les phénotypes [effets sur l’organisme] de plusieurs paralogues dans une espèce, menant à un papier, qui est probablement traité par un annotateur GO à la fois. Par contre, les phénotypes des orthologues dans différentes espèces proviennent presque toujours de papiers différents, via des équipes d’annotateurs différentes. »

L’effet ‘auteur’ : un biais facile à rater

Au départ, c’était tentant de simplement écarter la critique. Après tout, « le pluriel d’anecdote n’est pas données » [ref]. Plus important, nous avions essayé de prendre en compte plusieurs biais espèce-spécifiques, tels que les différences de fréquence d’annotations entre espèces (par exemple étude surtout de gènes du développement chez le nématode C. elegans). De plus, nous avions été prudents dans nos conclusions, suggérant que nos résultats pourraient être dus à un effet confondant, inconnu jusqu’ici, dans les données Gene Ontology (rappel : on était à court d’idées). Donc l’expert ne nous disais rien que nous ne sachions déjà.

Vraiment ? Stimulés par l’image des paralogues de même espèce manipulés ensemble, nous avons décidé d’étudier s’il pourrait y avoir une corrélation entre le partage d’auteurs et la similarité d’annotation de fonction. Voici ce que nous avons observé :

La similarité d’annotations de fonction à partir d’un papier commun est bien plus élevée qu’autrement ! Même si on se limite aux annotations tirés de papiers différents, mais avec au moins un auteur en commun, la similarité d’annotations fonctionnelles est encore bien plus élevée que pour les papiers sans aucun auteur commun.

Le paradoxe de Simpson

En soi, l’effet des auteurs n’est pas forcément un problème : si les annotations entre orthologues et paralogues sont distribués de manière semblable entre les origines, les différences d’auteur vont se compenser. Le problème dans notre cas est que les paralogues sont un ordre de grandeur plus fréquemment annotés à partir du même labo que les orthologues. D’où le paradoxe de Simpson : les paralogues apparaissent fonctionnellement plus similaires que les orthologues juste parce que les paralogues ont nettement plus de chances d’être étudiés par les mêmes personnes.

Un exemple classique du paradoxe de Simpson est le cas du « biais de genre à Berkeley » : l’université avait été attaquée en justice pour biais contre les candidates féminines, sur la base des nombres d’admissions totaux en 1973 (44% des hommes admis, contre 33% des femmes). En fait, le taux d’admission dans chaque département était similaire pour les deux sexes (et en faveur des femmes dans quelques départements). Le taux d’acceptation plus bas pour les femmes n’était pas du à un biais sexiste, mais à une tendance des femmes à candidater dans les départements les plus sélectifs. Par exemple si 100 femmes et 10 hommes candidatent dans un département avec 40% d’acceptation, et qu’il n’y a pas de biais, on va accepter 40 femmes et 4 hommes ; si en parallèle 100 hommes et 10 femmes candidatent dans un département avec 60% d’acceptation, on va accepter 60 hommes et 6 femmes ; en cumulé, on aura accepté 46 femmes et 64 hommes sans biais sexiste. Fou non ?

Papier de Nehrt et al.

La découverte de biais dû aux auteurs nous a forcé à ré-analyser toutes nos données, et à complètement ré-écrire notre manuscript. Après quelques mois de ce travail, en juin 2011, Matt Hahn et ses collègues ont publié leur papier (Nehrt et al). Matt a écrit l’histoire très intéressante (et parallèle à la notre) derrière son papier sur le blog de Eisen. En bref, ils ont trouvé que les paralogues au sein d’une espèce (seuls humain et souris ont été comparés) sont plus similaires en fonction que les orthologues.

Tout en n’étant pas très surpris par leurs observations sur le fond – elles étaient cohérentes avec notre manuscript rejeté – nous avons été frappés par la similarité dans la présentation des résultats :

A gauche, figure 2A de Nehrt et al., à droite figure de notre manuscript rejeté en 2010. Remarquer que leurs lignes bleues et vertes sont combinées dans notre ligne jaune.

La publication de Nehrt et al nous a donné des sentiments mélangés. Clairement, leur travail enlevait une part de la nouveauté dans notre étude. Mais en même temps, ils ont attiré beaucoup d’attention sur le problème (y compris en inventant le nom de « conjecture orthologue »). Et bien sur, nous savions déjà à ce point-là que leurs observations étaient confondues par des facteurs tels que le biais des auteurs, donc ça n’était pas la fin de l’histoire.

Est-il possible de tirer des conclusions fiables de données d’observation telles que les annotations GO ?

Avant de passer à nos résultats, ça vaut le coup de réfléchir encore un peu sur le problème des biais dans les données. Les statisticiens et les épidémiologistes font une distinction forte entre données expérimentales (provenant d’une expérience contrôlée, désignée de sorte que les groupes d’étude et de contrôle soient aussi identiques que possible en tous points sauf le paramètre à étudier), et les données d’observation* (données trouvées posées là n’importe comment par n’importe qui). Les données de la base de données GO tombe clairement dans la deuxième catégorie : des données d’observation. Nous sommes à la merci d’innombrables effets cachés qui peuvent biaiser nos conclusions de toutes sortes de manières.

* je traduis librement de l’anglais observational data

Pouvons-nous compter sur ces données du tout ? Pour certains, la réponse apparaît être un « non » catégorique. Une approche plus pragmatique a été exprimée par le consortium GO dans une réponse récente à Nehrt et al, où ils ont identifié des effets confondants potentiels ignorés dans cette étude, tels que les biais d’annotation espèce-spécifiques (ils ont suggéré sans rire que l’étude soutient plutôt « la conjecture de l’annotation biaisée »), et ont mis en avant que « les utilisateurs de GO doivent s’assurer qu’ils testent pour les biais potentiels et les prennent en compte avant interprétation ».

Au final, ce débat et notre expérience mettent en avant les problèmes des données d’observation. En même temps, ce type de données est souvent tout ce que nous avons, et la meilleure stratégie semble d’être en effet d’identifier autant que possible les facteurs confondants, de les prendre en compte, et d’avancer prudemment.

Une réponse

En contrôlant pour le biais d’auteurs et quelques autres – certains déjà connus, d’autres nouvellement identifiés – nous avons trouvé que pour des niveaux similaires de divergence, les orthologues tendent à être plus conservés que les paralogues. Ceci est vrai de différentes méthodes de prédiction des orthologues et paralogues, différents aspects de la fonction, différentes mesures de similarité de séquence, et différentes stratégies d’échantillonnage des données. Mais en termes absolus, la différence est souvent faible, et varie pas mal entre espèces et aspects de la fonction. Notre étude confirme donc la conjecture orthologue, mais en même temps montre qu’elle n’est pas si utile que ça en pratique, puisqu’elle a peu de pouvoir prédictif.

Cliquez pour voir l’original

A noter deux contributions cruciales à cette étude : les experts (peer-review), et la science ouverte. Nous avons clairement une dette envers l’expert qui a rejeté notre papier sur la base d’un biais potentiel dans l’origine des annotations. Les experts de la deuxième version ont fourni des avis détaillés et compétents. En ce qui concerne la science ouverte, comment ferions-nous de la bioinformatique sans ? Sans données publiquement disponibles de génomique et d’annotations fonctionnelles, une telle étude serait impossible.

Ceci n’est pas la fin de l’histoire, nous organisons un symposium à Dublin en juin sur le sujet, et je sais que plusieurs collègues travaillent encore à montrer que nous avons tous raté un point clé ou quelque chose comme ça. Et vous pouvez suivre mon collègue Christophe Dessimoz sur twitter @cdessimoz.