Inférence statistique et test d’hypothèses
De nombreuses études scientifiques cherchent à mesurer, expliquer et faire des prédictions sur des phénomènes naturels. D’autres études cherchent à détecter et à mesurer les effets d’une intervention sur un système. L’inférence statistique fournit un cadre conceptuel et computationnel pour répondre aux questions scientifiques dans chaque contexte. L’estimation et le test d’hypothèse sont des regroupements généraux de procédures inférentielles. L’estimation convient aux situations dans lesquelles l’objectif principal est l’évaluation de la magnitude d’une quantité, telle que la mesure d’une constante physique ou le taux de changement d’une réponse correspondant à un changement d’une variable explicative. Le test d’hypothèse convient aux contextes dans lesquels l’intérêt scientifique se concentre sur l’effet possible d’un événement naturel ou d’une intervention intentionnelle, et une étude est menée pour évaluer les preuves pour et contre cet effet. Dans ce contexte, le test d’hypothèse permet de répondre à des questions binaires. Par exemple, une plante poussera-t-elle plus vite avec l’engrais A ou l’engrais B ? Les enfants des petites classes apprennent-ils mieux ? Un médicament expérimental est-il plus efficace qu’un placebo ? Plusieurs types de méthodes statistiques plus spécialisées sont utilisés dans la recherche scientifique, notamment des méthodes de conception d’études et des méthodes de développement et d’évaluation d’algorithmes de prédiction.
Parce que les tests d’hypothèses ont été impliqués dans une grande partie des évaluations de reproductibilité et de réplicabilité, nous considérons ce mode d’inférence statistique de manière assez détaillée. Cependant, les considérations de reproductibilité et de réplicabilité s’appliquent largement à d’autres modes et types d’inférence statistique. Par exemple, la question de tirer plusieurs inférences statistiques à partir des mêmes données est pertinente pour tous les tests d’hypothèses et dans l’estimation.
Les études impliquant des tests d’hypothèses impliquent généralement de nombreux facteurs qui peuvent introduire une variation dans les résultats. Certains de ces facteurs sont reconnus, d’autres ne le sont pas. L’affectation aléatoire des sujets ou des objets testés à l’un ou l’autre des groupes de comparaison est un moyen de contrôler l’influence possible des sources de variation reconnues et non reconnues. L’affectation aléatoire peut contribuer à éviter les différences systématiques entre les groupes comparés, mais elle n’affecte pas la variation inhérente au système (par exemple, une population ou une intervention) étudié.
Les scientifiques utilisent le terme d’hypothèse nulle pour décrire la supposition qu’il n’y a pas de différence entre les deux groupes d’intervention ou qu’il n’y a pas d’effet d’un traitement sur un résultat mesuré (Fisher, 1935). Une formulation couramment utilisée du test d’hypothèse est basée sur la réponse à la question suivante : Si l’hypothèse nulle est vraie, quelle est la probabilité d’obtenir une différence au moins aussi grande que celle observée ? En général, plus la différence observée est grande, plus la probabilité d’obtenir une différence au moins aussi grande que celle observée est faible lorsque l’hypothèse nulle est vraie. Cette probabilité d’obtenir une différence au moins aussi grande que celle observée lorsque l’hypothèse nulle est vraie est appelée » valeur p « .3 Selon l’interprétation traditionnelle, si une valeur p calculée est inférieure à un seuil défini, les résultats peuvent être considérés comme statistiquement significatifs. Un seuil typique peut être p ≤ 0,05 ou, plus rigoureusement, p ≤ 0,01 ou p ≤ 0,005.4 Dans une déclaration publiée en 2016, le conseil de l’American Statistical Association (Wasserstein et Lazar, 2016, p. 129) a noté :
Bien que la valeur p puisse être une mesure statistique utile, elle est couramment mal utilisée et mal interprétée. Cela a conduit certaines revues scientifiques à décourager l’utilisation des valeurs p, et certains scientifiques et statisticiens à recommander leur abandon, avec certains arguments essentiellement inchangés depuis l’introduction des valeurs p.
Plus récemment, il a été soutenu que les valeurs p, correctement calculées et comprises, peuvent être informatives et utiles ; cependant, une conclusion de signification statistique basée sur un seuil arbitraire de vraisemblance (même un seuil familier tel que p ≤ 0,05) est peu utile et fréquemment trompeuse (Wasserstein et al, 2019 ; Amrhein et al., 2019b).
Comprendre ce qu’une valeur p ne représente pas est aussi important que de comprendre ce qu’elle indique. En particulier, la valeur p ne représente pas la probabilité que l’hypothèse nulle soit vraie. Au contraire, la valeur p est calculée en supposant que l’hypothèse nulle est vraie. La probabilité que l’hypothèse nulle soit vraie, ou que l’hypothèse alternative soit vraie, peut être basée sur des calculs informés en partie par les résultats observés, mais ce n’est pas la même chose qu’une valeur p.
Dans la recherche scientifique impliquant des hypothèses sur les effets d’une intervention, les chercheurs cherchent à éviter deux types d’erreurs qui peuvent conduire à la non-réplicabilité :
-
Erreur de type I-un faux positif ou un rejet de l’hypothèse nulle alors qu’elle est correcte
-
Erreur de type II-un faux négatif ou un échec du rejet d’une fausse hypothèse nulle, permettant à l’hypothèse nulle de se maintenir alors qu’une hypothèse alternative, et non l’hypothèse nulle, est correcte
Idéalement, les erreurs de type I et de type II seraient simultanément réduites dans la recherche. Par exemple, augmenter la puissance statistique d’une étude en augmentant le nombre de sujets dans une étude peut réduire la probabilité d’une erreur de type II pour toute probabilité donnée d’erreur de type I.5 Bien que l’augmentation des données qui vient avec des études de puissance plus élevée puisse aider à réduire à la fois les erreurs de type I et de type II, l’ajout de plus de sujets signifie généralement plus de temps et de coûts pour une étude.
Les chercheurs sont souvent obligés de faire des compromis dans lesquels la réduction de la probabilité d’un type d’erreur augmente la probabilité de l’autre. Par exemple, lorsque les valeurs p sont jugées utiles, les erreurs de type I peuvent être minimisées en abaissant le seuil de signification à un niveau plus rigoureux (par exemple, en abaissant la norme p ≤ 0,05 à p ≤ 0,005). Cependant, cela augmenterait simultanément la probabilité d’une erreur de type II. Dans certains cas, il peut être utile de définir des zones d’interprétation distinctes, où les valeurs p supérieures à un seuil de signification ne sont pas considérées comme significatives, les valeurs p inférieures à un seuil de signification plus strict sont considérées comme significatives, et les valeurs p comprises entre les deux seuils sont considérées comme non concluantes. Par ailleurs, on pourrait simplement accepter la valeur p calculée pour ce qu’elle est, c’est-à-dire la probabilité d’obtenir le résultat observé ou un résultat plus extrême si l’hypothèse nulle était vraie, et s’abstenir d’interpréter les résultats comme étant « significatifs » ou « non significatifs ». Le recours traditionnel à un seuil unique pour déterminer l’importance peut inciter à des comportements qui vont à l’encontre du progrès scientifique (voir la section sur le biais de publication au chapitre 5).
Des tensions peuvent apparaître entre la reproductibilité et la découverte, plus précisément entre la reproductibilité et la nouveauté des résultats. Les hypothèses dont les probabilités a priori sont faibles sont moins susceptibles d’être répliquées. Dans cette veine, Wilson et Wixted (2018) ont illustré comment les domaines qui étudient des résultats potentiellement révolutionnaires produiront des résultats moins reproductibles, en moyenne, que les domaines qui étudient des résultats hautement probables, presque établis. En effet, un domaine pourrait atteindre une réplicabilité quasi parfaite s’il limitait ses investigations à des phénomènes prosaïques déjà bien connus. Comme l’affirment Wilson et Wixted (2018, p. 193), » nous pouvons imaginer des pages remplies de résultats indiquant que les gens ont faim après avoir manqué un repas ou qu’ils ont sommeil après avoir veillé toute la nuit « , ce qui ne serait pas très utile » pour faire progresser la compréhension du monde. » Dans la même veine, il ne serait pas utile qu’un domaine se concentre uniquement sur des hypothèses improbables et farfelues.
Le but de la science n’est pas, et ne devrait pas être, que tous les résultats soient reproductibles. Les rapports de non-réplication des résultats peuvent susciter l’excitation car ils peuvent indiquer des phénomènes possiblement nouveaux et l’expansion des connaissances actuelles. De même, un certain niveau de non-réplicabilité est attendu lorsque les scientifiques étudient de nouveaux phénomènes qui ne sont pas bien établis. Au fur et à mesure que la connaissance d’un système ou d’un phénomène s’améliore, on s’attendrait à ce que la réplicabilité des études de ce système ou phénomène particulier augmente.
Évaluer la probabilité qu’une hypothèse soit correcte en partie sur la base des résultats observés peut également être abordé par le biais d’une analyse bayésienne. Cette approche part d’hypothèses a priori (avant l’observation des données), appelées probabilités a priori, et les révise sur la base des données observées en utilisant le théorème de Bayes, parfois décrit comme la formule de Bayes.
L’annexe D illustre comment une approche bayésienne de l’inférence peut, sous certaines hypothèses sur le mécanisme de génération des données et sur la vraisemblance a priori de l’hypothèse, utiliser les données observées pour estimer la probabilité qu’une hypothèse soit correcte. L’une des leçons les plus frappantes de l’analyse bayésienne est l’effet profond que les probabilités pré-expérimentales ont sur les probabilités post-expérimentales. Par exemple, selon les hypothèses présentées à l’annexe D, si la probabilité préalable d’une hypothèse expérimentale n’était que de 1 % et que les résultats obtenus étaient statistiquement significatifs au niveau p ≤ 0,01, seule une conclusion sur huit environ selon laquelle l’hypothèse était vraie serait correcte. Si la probabilité préalable était aussi élevée que 25 pour cent, alors plus de quatre études sur cinq seraient considérées comme correctes. Comme le bon sens le dicterait et comme l’analyse bayésienne peut le quantifier, il est prudent d’adopter un niveau de confiance plus faible dans les résultats d’une étude dont le résultat est très inattendu et surprenant que dans une étude pour laquelle les résultats étaient a priori plus plausibles (par exemple, voir l’encadré 2-2).
BOX 2-2
Probabilité pré-expérimentale : Un exemple.
Des résultats très surprenants peuvent représenter une avancée scientifique importante, même s’il est probable que seule une minorité d’entre eux s’avère au fil du temps correcte. Il peut être crucial, pour ce qui est de l’exemple du paragraphe précédent, d’apprendre lequel des huit résultats très inattendus (probabilité préalable, 1 %) peut être vérifié et lequel des cinq résultats modérément inattendus (probabilité préalable, 25 %) doit être écarté.
En gardant à l’esprit l’idée de probabilité préalable, la recherche axée sur la réalisation de petites avancées dans les connaissances existantes entraînerait un taux de réplication élevé (c’est-à-dire un taux élevé de réplications réussies) parce que les chercheurs rechercheraient des résultats qui sont très probablement corrects. Mais agir ainsi aurait l’effet indésirable de réduire la probabilité de faire de nouvelles découvertes majeures (Wilson et Wixted, 2018). De nombreuses avancées importantes dans le domaine scientifique ont résulté d’une approche plus audacieuse fondée sur des hypothèses plus spéculatives, bien que cette voie mène également à des impasses et à des intuitions qui semblent prometteuses au début, mais ne parviennent pas à survivre après des tests répétés.
Les approches « sûres » et « audacieuses » de la science présentent des avantages complémentaires. On pourrait arguer qu’un domaine est devenu trop conservateur si toutes les tentatives de réplication des résultats sont couronnées de succès, mais il est raisonnable de s’attendre à ce que les chercheurs donnent suite à des découvertes nouvelles mais incertaines par des études de réplication afin de trier les résultats prometteurs qui s’avèrent corrects. Les scientifiques doivent être conscients du niveau d’incertitude inhérent aux hypothèses spéculatives et aux résultats surprenants d’une seule et même étude.