Que cherchez-vous ?

Publicité
24 août 2023
Temps de lecture : 3 minutes

Ce qui se cache derrière un résultat «statistiquement significatif»

Illustration: Martin Patenaude-Monette

Québec Science inaugure une nouvelle rubrique qui donne la parole aux scientifiques d’ici. Il y est cette fois question de statistiques : la valeur p passe au tordeur !

Par Sébastien Béland, Michael Cantinotti et Denis Cousineau

« Les résultats sont statistiquement significatifs. » Cette phrase, omniprésente en science, est souvent considérée comme une sorte de sceau de validité d’une étude scientifique. Cette préconception repose sur une mesure régulièrement utilisée : la valeur p. Un chiffre abstrait, souvent mal compris et interprété par rapport à un seuil arbitraire : tous les ingrédients sont réunis pour mystifier autant le grand public que des chercheurs et chercheuses aguerris. De plus en plus de voix s’élèvent d’ailleurs pour dénoncer la toute-puissance de ce p, qui fait la pluie et le beau temps dans le monde de la publication scientifique.

La valeur p représente la « signification statistique » d’un test d’hypothèse. Pour comprendre cet élément, il faut savoir que de nombreuses recherches quantitatives testent une hypothèse dite « nulle », qui positionne l’absence d’effet entre les variables à l’étude. De l’interprétation de la valeur p découlent deux cas de figure : soit on rejette l’hypothèse nulle, soit on la garde.

Imaginons qu’une étude examine l’augmentation des déplacements actifs chez 300 participants qui utilisent une nouvelle application mobile. L’hypothèse nulle stipule que le nombre total de kilomètres parcourus sera le même avec ou sans l’appli. Si, à l’inverse, une augmentation ou une diminution des déplacements actifs est enregistrée par l’étude, comment savoir si l’écart est attribuable à l’appli ou plutôt à une fluctuation d’échantillonnage (tout échantillon est, en effet, une partie d’une population qui la représente plus ou moins bien) ? C’est là que la valeur p entre en scène. Supposons qu’avec l’appli, 165 personnes bougent plus, tandis que 135 autres bougent moins. La probabilité qu’un tel résultat apparaisse sans appli (soit une situation décrite par l’hypothèse nulle) est de 9 % (donc 0,09).

Pour comprendre, imaginez 300 pièces de monnaie sur lesquelles il est écrit « augmentation » d’un côté et « diminution » de l’autre. Lancez-les en l’air un grand nombre de fois, et comptez le nombre de fois où 165 ou plus d’entre elles tombent du même côté. Vous trouverez que cela n’arrive qu’assez rarement, soit dans 9 % des lancers. Ce résultat constitue la valeur p.

Le seuil alpha

Pour déterminer si l’appli a bel et bien un effet, on a besoin du seuil alpha. Ce seuil prend généralement une valeur prédéfinie, telle que 0,05 ou 0,01 en sciences biomédicales et en psychologie ou encore 0,00003 en physique. Si la valeur p est supérieure au seuil prédéterminé, les données ne sont pas jugées suffisamment convaincantes pour justifier le rejet de l’hypothèse nulle. Autrement dit, le changement observé sera attribué à une fluctuation d’échantillonnage. À l’inverse, lorsque la valeur p est inférieure à ce seuil, les don­nées sont considérées comme incompatibles avec l’hypothèse nulle. On peut alors rejeter celle-ci (et donc considérer que l’utilisation de l’appli se distingue de sa non-utilisation quant à la distance parcourue) en se disant qu’il y a suffisamment peu de risques de se tromper. Dans l’exemple des déplacements, le seuil alpha serait probablement de 0,05. Les données (on se souvient que p = 0,09) ne sont donc pas assez probantes pour rejeter l’hypothèse nulle.

Des questions se posent quant à l’intérêt de la valeur p en soi. Dans notre exemple, pourquoi devrait-on se réjouir d’une valeur p de 0,049 et éprouver de la déception face à une valeur de 0,051 ? À l’évidence, ces deux valeurs résultent de différences négligeables dans les données et généralement sans portée réelle pour le développement des connaissances.

En outre, rejeter le fait qu’un phénomène soit associé à une simple fluctuation d’échantillonnage ne constitue pas une indication de la force de la relation qui est étudiée, que l’on nomme « taille d’effet », ni de la pertinence pratique de la relation (parfois appelée « signification clinique » dans le domaine de la santé). Ainsi, un phénomène avec une valeur p significative peut être peu intéressant pour l’avancée des connaissances, surtout si d’autres interventions ou médicaments existants sont caractérisés par une taille d’effet plus importante.

Le cas de la colchicine

Une illustration récente concerne le traitement avec la colchicine, un anti-inflammatoire qui a suscité tout un battage médiatique au Québec après la publication d’une étude scientifique en 2021. L’équipe de l’Institut de cardiologie de Montréal a étudié l’effet de cette substance sur la prévention des hospitalisations et de la mortalité reliées à la COVID-19 avant l’arrivée des vaccins. On retrouve dans cette étude un bénéfice du médicament statistiquement significatif (p = 0,042) pour un sous-groupe de 4 159 patients, dont la moitié avait reçu un placebo. Toutefois, en ajoutant 329 participants pour qui le diagnostic de COVID-19 n’était pas établi hors de tout doute par un test PCR, la valeur p passe à 0,081. Ce résultat ne permet plus d’affirmer que le médicament est efficace.

Il est intéressant de rappeler que d’autres travaux scientifiques ont montré que la colchicine ne constituait pas une intervention pertinente pour combattre la COVID-19. La valeur p de 0,042 n’était donc pas… une valeur sûre ! Comment s’y retrouver ?

Selon nous, la communauté scientifique ne devrait pas clamer une découverte sur la seule base d’une valeur p. Un résultat prometteur (donc, ayant une faible valeur p) doit être reproduit et accompagné d’une explication sensée. De plus, il ne faut pas oublier qu’une bonne méthodologie peut se passer de statistiques, mais que les statistiques, elles, ne peuvent jamais se passer d’une bonne méthodologie et du contexte qui les ont vues naître. Une valeur p significative est surtout une invitation à poursuivre une piste de recherche qui semble encourageante.

Sébastien Béland est professeur au Département d’admi­nistration et fondements de l’éducation de l’Université de Montréal, Michael Cantinotti, professeur au Département de psychologie de l’Université du Québec à Trois-Rivières et Denis Cousineau, professeur à l’École de psychologie de l’Univer­sité d’Ottawa.

Les scientifiques qui ont envie de prendre la parole dans nos pages peuvent écrire à courrier@quebecscience.qc.ca

Publicité