INFERENZA STATISTICA E TEST DELLE IPOTESI
Molti studi scientifici cercano di misurare, spiegare e fare previsioni sui fenomeni naturali. Altri studi cercano di rilevare e misurare gli effetti di un intervento su un sistema. L’inferenza statistica fornisce un quadro concettuale e computazionale per affrontare le questioni scientifiche in ogni contesto. La stima e la verifica delle ipotesi sono ampi raggruppamenti di procedure inferenziali. La stima è adatta alle impostazioni in cui l’obiettivo principale è la valutazione della grandezza di una quantità, come la misura di una costante fisica o il tasso di cambiamento in una risposta corrispondente a un cambiamento in una variabile esplicativa. Il test di ipotesi è adatto alle impostazioni in cui l’interesse scientifico si concentra sul possibile effetto di un evento naturale o di un intervento intenzionale, e uno studio viene condotto per valutare le prove a favore e contro questo effetto. In questo contesto, il test di ipotesi aiuta a rispondere a domande binarie. Per esempio, una pianta crescerà più velocemente con il fertilizzante A o con il fertilizzante B? I bambini in classi più piccole imparano di più? Un farmaco sperimentale funziona meglio di un placebo? Diversi tipi di metodi statistici più specializzati sono utilizzati nell’indagine scientifica, compresi i metodi per la progettazione di studi e i metodi per lo sviluppo e la valutazione di algoritmi di previsione.
Perché il test di ipotesi è stato coinvolto in una parte importante delle valutazioni di riproducibilità e replicabilità, consideriamo questa modalità di inferenza statistica in qualche dettaglio. Tuttavia, le considerazioni sulla riproducibilità e la replicabilità si applicano ampiamente ad altre modalità e tipi di inferenza statistica. Per esempio, la questione di trarre più inferenze statistiche dagli stessi dati è rilevante per tutti i test di ipotesi e nella stima.
Gli studi che coinvolgono test di ipotesi tipicamente coinvolgono molti fattori che possono introdurre variazioni nei risultati. Alcuni di questi fattori sono riconosciuti e altri non sono riconosciuti. L’assegnazione casuale dei soggetti o degli oggetti del test all’uno o all’altro gruppo di confronto è un modo per controllare la possibile influenza delle fonti di variazione riconosciute e non riconosciute. L’assegnazione casuale può aiutare a evitare differenze sistematiche tra i gruppi che vengono confrontati, ma non influisce sulla variazione inerente al sistema (ad esempio, la popolazione o un intervento) sotto studio.
Gli scienziati usano il termine ipotesi nulla per descrivere la supposizione che non ci sia differenza tra i due gruppi di intervento o nessun effetto di un trattamento su qualche risultato misurato (Fisher, 1935). Una formulazione comunemente usata per la verifica delle ipotesi si basa sulla risposta alla seguente domanda: Se l’ipotesi nulla è vera, qual è la probabilità di ottenere una differenza grande almeno quanto quella osservata? In generale, maggiore è la differenza osservata, minore è la probabilità di ottenere una differenza almeno altrettanto grande di quella osservata quando l’ipotesi nulla è vera. Questa probabilità di ottenere una differenza almeno altrettanto grande di quella osservata quando l’ipotesi nulla è vera è chiamata “p-value”.3 Come tradizionalmente interpretato, se un p-value calcolato è inferiore a una soglia definita, i risultati possono essere considerati statisticamente significativi. Una soglia tipica può essere p ≤ 0,05 o, più rigorosamente, p ≤ 0,01 o p ≤ 0,005.4 In una dichiarazione rilasciata nel 2016, l’American Statistical Association Board (Wasserstein e Lazar, 2016, p. 129) ha notato:
Mentre il p-value può essere una misura statistica utile, è comunemente usato in modo improprio e interpretato male. Questo ha portato alcune riviste scientifiche a scoraggiare l’uso dei valori p, e alcuni scienziati e statistici a raccomandare il loro abbandono, con alcuni argomenti essenzialmente invariati da quando i valori p sono stati introdotti.
Più recentemente, è stato sostenuto che i valori p, correttamente calcolati e compresi, possono essere informativi e utili; tuttavia, una conclusione di significatività statistica basata su una soglia arbitraria di probabilità (anche una familiare come p ≤ 0,05) non è utile e spesso fuorviante (Wasserstein et al, 2019; Amrhein et al., 2019b).
Comprendere ciò che un valore p non rappresenta è importante quanto comprendere ciò che indica. In particolare, il valore p non rappresenta la probabilità che l’ipotesi nulla sia vera. Piuttosto, il valore p è calcolato sul presupposto che l’ipotesi nulla sia vera. La probabilità che l’ipotesi nulla sia vera, o che l’ipotesi alternativa sia vera, può essere basata su calcoli informati in parte dai risultati osservati, ma questo non è lo stesso di un valore p.
Nella ricerca scientifica che comporta ipotesi sugli effetti di un intervento, i ricercatori cercano di evitare due tipi di errore che possono portare alla non replicabilità:
-
Errore di tipo I – un falso positivo o un rifiuto dell’ipotesi nulla quando è corretta
-
Errore di tipo II – un falso negativo o il mancato rifiuto di una falsa ipotesi nulla, permettendo all’ipotesi nulla di stare in piedi quando un’ipotesi alternativa, e non l’ipotesi nulla, è corretta
In teoria, entrambi gli errori di tipo I e di tipo II dovrebbero essere ridotti contemporaneamente nella ricerca. Per esempio, aumentare la potenza statistica di uno studio aumentando il numero di soggetti in uno studio può ridurre la probabilità di un errore di tipo II per ogni data probabilità di errore di tipo I.5 Anche se l’aumento dei dati che deriva da studi con una maggiore potenza può aiutare a ridurre sia gli errori di tipo I che di tipo II, l’aggiunta di più soggetti significa tipicamente più tempo e costi per uno studio.
I ricercatori sono spesso costretti a fare compromessi in cui ridurre la probabilità di un tipo di errore aumenta la probabilità dell’altro. Per esempio, quando i valori di p sono considerati utili, gli errori di tipo I possono essere minimizzati abbassando la soglia di significatività a un livello più rigoroso (per esempio, abbassando lo standard p ≤ 0,05 a p ≤ 0,005). Tuttavia, questo aumenterebbe contemporaneamente la probabilità di un errore di tipo II. In alcuni casi, può essere utile definire zone interpretative separate, dove i valori di p sopra una soglia di significatività non sono considerati significativi, i valori di p sotto una soglia di significatività più stringente sono considerati significativi, e i valori di p tra le due soglie sono considerati inconcludenti. In alternativa, si potrebbe semplicemente accettare il valore p calcolato per quello che è – la probabilità di ottenere il risultato osservato o uno più estremo se l’ipotesi nulla fosse vera – e astenersi dall’interpretare ulteriormente i risultati come “significativi” o “non significativi”. La tradizionale dipendenza da una singola soglia per determinare la significatività può incentivare comportamenti che lavorano contro il progresso scientifico (vedi la sezione Publication Bias nel Capitolo 5).
Tensione può sorgere tra replicabilità e scoperta, in particolare, tra la replicabilità e la novità dei risultati. Le ipotesi con basse probabilità a priori hanno meno probabilità di essere replicate. In questo senso, Wilson e Wixted (2018) hanno illustrato come i campi che stanno indagando risultati potenzialmente rivoluzionari produrranno risultati che sono meno replicabili, in media, rispetto ai campi che stanno indagando risultati altamente probabili e quasi consolidati. Infatti, un campo potrebbe raggiungere una replicabilità quasi perfetta se limitasse le sue indagini a fenomeni prosaici che sono già ben noti. Come affermano Wilson e Wixted (2018, p. 193), “Possiamo immaginare pagine piene di risultati che la gente ha fame dopo aver saltato un pasto o che la gente ha sonno dopo essere stata alzata tutta la notte”, il che non sarebbe molto utile “per far progredire la comprensione del mondo”. Allo stesso modo, non sarebbe utile per un campo concentrarsi esclusivamente su ipotesi improbabili e stravaganti.
L’obiettivo della scienza non è, e non dovrebbe essere, che tutti i risultati siano replicabili. I resoconti di risultati non replicabili possono generare eccitazione in quanto possono indicare possibili nuovi fenomeni e l’espansione delle conoscenze attuali. Inoltre, ci si aspetta un certo livello di non replicabilità quando gli scienziati studiano nuovi fenomeni che non sono ben stabiliti. Man mano che la conoscenza di un sistema o di un fenomeno migliora, ci si aspetta che la replicabilità degli studi di quel particolare sistema o fenomeno aumenti.
La valutazione della probabilità che un’ipotesi sia corretta in parte sulla base dei risultati osservati può anche essere affrontata attraverso l’analisi bayesiana. Questo approccio parte da ipotesi a priori (prima dell’osservazione dei dati), note come probabilità a priori, e le rivede sulla base dei dati osservati usando il teorema di Bayes, talvolta descritto come formula di Bayes.
L’appendice D illustra come un approccio bayesiano all’inferenza possa, sotto certe ipotesi sul meccanismo di generazione dei dati e sulla probabilità a priori dell’ipotesi, usare i dati osservati per stimare la probabilità che un’ipotesi sia corretta. Una delle lezioni più sorprendenti dell’analisi bayesiana è il profondo effetto che le probabilità pre-sperimentali hanno sulle probabilità post-sperimentali. Per esempio, sotto le ipotesi mostrate nell’Appendice D, se la probabilità a priori di un’ipotesi sperimentale fosse solo dell’1% e i risultati ottenuti fossero statisticamente significativi al livello p ≤ 0,01, solo una su otto di tali conclusioni che l’ipotesi fosse vera sarebbe corretta. Se la probabilità a priori fosse del 25%, allora più di quattro studi su cinque sarebbero considerati corretti. Come il buon senso imporrebbe e l’analisi bayesiana può quantificare, è prudente adottare un livello inferiore di fiducia nei risultati di uno studio con un risultato altamente inaspettato e sorprendente rispetto a uno studio i cui risultati erano a priori più plausibili (ad esempio, vedi Box 2-2).
BOX 2-2
Probabilità pre-sperimentale: Un esempio.
I risultati altamente sorprendenti possono rappresentare un’importante scoperta scientifica, anche se è probabile che solo una minoranza di essi possa rivelarsi nel tempo corretta. Può essere cruciale, per quanto riguarda l’esempio del paragrafo precedente, imparare quali degli otto risultati altamente inaspettati (probabilità a priori, 1%) possono essere verificati e quale dei cinque risultati moderatamente inaspettati (probabilità a priori, 25%) dovrebbe essere scartato.
Tenendo l’idea della probabilità a priori in mente, la ricerca focalizzata sul fare piccoli progressi alla conoscenza esistente risulterebbe in un alto tasso di replicazione (cioè, un alto tasso di repliche di successo) perché i ricercatori sarebbero alla ricerca di risultati che sono molto probabilmente corretti. Ma questo avrebbe l’effetto indesiderato di ridurre la probabilità di fare nuove scoperte importanti (Wilson e Wixted, 2018). Molti importanti progressi nella scienza sono derivati da un approccio più audace basato su ipotesi più speculative, sebbene questa strada porti anche a vicoli ciechi e a intuizioni che sembrano promettenti all’inizio ma non riescono a sopravvivere dopo ripetuti test.
Gli approcci “sicuri” e “audaci” alla scienza hanno vantaggi complementari. Si potrebbe sostenere che un campo è diventato troppo conservatore se tutti i tentativi di replicare i risultati hanno successo, ma è ragionevole aspettarsi che i ricercatori seguano le nuove scoperte, ma incerte, con studi di replica per individuare quali risultati promettenti si dimostrino corretti. Gli scienziati dovrebbero essere consapevoli del livello di incertezza insito nelle ipotesi speculative e nei risultati sorprendenti in ogni singolo studio.