Introduction au bricolage de significativité des tests statistiques

cliquez pour lire la BD

cliquez pour lire la BD

Il y aurait beaucoup à dire si la manipulation volontaire ou involontaire de la significativité statistique, et d’ailleurs si vous êtes sages c’est un sujet sur lequel j’ai l’intention de revenir. Mais en attendant un billet plus sérieux, voici un jeu proposé par le site de statistiques FiveThirtyEight.

Le paragraphe suivant est un peu chiant, vous pouvez le sauter pour aller à la partie amusante. Ou le lire, c’est un blog sciences ici après tout.

Lorsque l’on veut déterminer si une relation observée pourrait l’être aisément par hasard, ou est suffisamment peu probable pour être intéressante, on calcule la valeur dite « p ». De manière pas très intuitive, c’est la probabilité d’observer les données (ou un résultat encore plus extrême) si « l’hypothèse nulle était vraie », c’est–à-dire s’il ne se passait rien d’intéressant. Par exemple si on compare deux mesures pour voir si elles sont corrélées (la taille des gens et le nombre de chansons dans leur ipod/smartphone), si on a un p élevé ça veut dire qu’on a une probabilité élevée de voir ces mesures alors qu’il n’y a pas de corrélation. Alors qu’on a un p faible si on avait peu de chances d’observer ça par hasard. Habituellement, on fixe une limite en dessous de laquelle on rejette l’hypothèse nulle. Par exemple, limite à 5%, p observé à 2%, on rejette l’hypothèse « pas de relation entre taille et nombre de chansons ». Du coup on accepte implicitement l’hypothèse « il y a une relation », même si c’est un peu sioux (pour critique voir billets bayésiens ici et ailleurs au cafe-sciences). Mais ces maths ont été calculées en supposant que vous n’observiez qu’une série de mesures, et rapportiez votre résultat fidèlement. Or si vous observez plein de séries, même s’il ne se passe rien (l’hypothèse nulle est vraie), on aura parfois des valeurs extrêmes par hasard (par exemple dans 1 cas sur 50 p ≤ 2% = 1/50ème) (voir ancien billet sur Google Trends). Si on fait ça assez et qu’on ne rapporte sournoisement que le p le plus faible, on a un magnifique résultat « significatif » qui ne signifie rien du tout. La plupart des choses peuvent se mesurer de plusieurs manières. La taille, c’est la taille en cm, ou divisée par l’âge, ou le poids ; le nombre de chansons, c’est leur nombre, leur longueur d’écoute totale, seulement celles écoutées récemment ? Donc avec une seule série d’observations on peut faire plein de comparaisons.

Le site FiveThirtyEight, dans un billet sur les problèmes de la science (« Science Isn’t Broken. It’s just a hell of a lot harder than we give it credit for. ») propose aux lecteurs d’essayer plusieurs manières de mesurer d’une part le taux de Démocrates ou Républicains au pouvoir aux Etats-Unis, et d’autre part plusieurs manières de mesurer l’économie. Ainsi, en jouant avec les paramètres, on peut obtenir des résultats montrant que les Démocrates sont bons ou mauvais pour l’économie, avec des tests statistiques tout-à-fait « significatifs ». Essayez en cliquant ci-dessous :

cliquez pour aller jouer au "p-value hacking"

cliquez pour aller jouer au « p-value hacking »

Ce qui est terrible c’est qu’un résultat final d’un tel tripatouillage, pris en isolation, est techniquement correct (pas de fraude, pas de trucage visible), mais pourtant représente volontairement mal la réalité. Alors que le but des statistiques est de nous aider à mieux représenter et comprendre la réalité. Ceci est l’illustration d’un problème important en recherche scientifique : les chercheurs peuvent modifier leur analyse jusqu’à trouver un résultat apparemment convaincant et conforme à leurs attentes, mais qui en fait n’a pas réellement été testé.

C’est le « p-value hacking », que j’ai essayé de traduire par « bricolage de significativité » dans le titre, et c’est un problème important. Les solutions sont difficiles, mais la plus importante est d’avoir le problème à l’esprit.

Pour finir une petite blague statistique en anglais (vu ici) : « that’s rather mean » « you mean average? that’s a standard error. » (traduction difficile, jouant sur mean = méchant ou moyenne ; average = moyenne ; standard error = erreur typique ou erreur-type). Bon ça m’a fait rire, je suis un horrible geek, désolé.

9 réponses à “Introduction au bricolage de significativité des tests statistiques

  1. That is so mean to standard math dunce like me! ^_^

  2. Application pratique du problème de la pêche aux bonnes valeurs de p : nos bons vieux OGM…

    Comparez deux séries d’animaux, des témoins (« nourris sans OGM » pour reprendre un slogan commercial d’une multinationale de la distribution) et des traitements (nourris avec une ration issue de plantes GM).

    Analysez plusieurs dizaines de paramètres.

    Au besoin « ajustez » les paramètres (par exemple, on « mesure » l’inflammation gastrique par une observation visuelle de la couleur de l’estomac, on range en quatre classes, et hop…).

    Vous trouverez inévitablement quelques paramètres avec la bonne valeur de p.

    Et, bien sûr, vous communiquez sur ces paramètres.

    Illustration pratique – non, on ne citera pas S… — Carman et al. :

    http://imposteurs.over-blog.com/article-judy-a-carman-le-seralinisme-fait-une-emule-en-australie-119976261.html

    • En fait un gros problème de ce genre de manipulations c’est que ça peut être invisible, et donc apparaître comme de la bonne science. Alors que dans les manipulations grossières des pseudo-scientifiques comme cités dans votre commentaire, les erreurs sont flagrantes.

      Quand on compare tout à tout sans hypothèse, et qu’on le dit, le problème de tests multiples est clair.

      Quand on joue avec les manières de représenter un paramètre (« taux de Démocrates ») pour tester une hypothèse claire (« les Démocrates sont bons pour l’économie »), c’est nettement plus subtil. Et donc plus dangereux.

  3. Ping : Introduction au bricolage de significativit&eac...

  4. « p-value hacking » ça pourrait se traduire par « optimisation de la p-value ». Parce que c’est exactement ça au final. Des gens cherchent la situation où la p-value est minimale et publient ce résultat.

    • Je trouve « optimisation » trop positif, mais pourquoi pas.

      • Dans tous les cas on peut parler de parler de « p-valeur biaisée ».
        Si l’erreur est intentionnelle, on peut parler de « p-valeur corrompue ».

        Fort intéressant billet.

  5. Ping : Introduction au bricolage de significativit&eac...

  6. Intéressant. 🙂
    ça me fait penser au comic d’xkcd : https://xkcd.com/882/