Inferența statistică și testarea ipotezelor
Multe studii științifice caută să măsoare, să explice și să facă predicții despre fenomenele naturale. Alte studii caută să detecteze și să măsoare efectele unei intervenții asupra unui sistem. Inferența statistică oferă un cadru conceptual și computațional pentru abordarea întrebărilor științifice în fiecare cadru. Estimarea și testarea ipotezelor sunt grupări largi de proceduri inferențiale. Estimarea este potrivită pentru mediile în care obiectivul principal este evaluarea mărimii unei cantități, cum ar fi măsura unei constante fizice sau rata de schimbare a unui răspuns corespunzător unei schimbări a unei variabile explicative. Testarea ipotezelor este potrivită pentru mediile în care interesul științific se concentrează asupra efectului posibil al unui eveniment natural sau al unei intervenții intenționate, iar un studiu este efectuat pentru a evalua dovezile în favoarea sau împotriva acestui efect. În acest context, testarea ipotezelor ajută la răspunsul la întrebări binare. De exemplu, va crește o plantă mai repede cu îngrășământul A sau cu îngrășământul B? Copiii din clasele mai mici învață mai mult? Un medicament experimental funcționează mai bine decât un placebo? Mai multe tipuri de metode statistice mai specializate sunt utilizate în cercetarea științifică, inclusiv metode de proiectare a studiilor și metode de dezvoltare și evaluare a algoritmilor de predicție.
Pentru că testarea ipotezelor a fost implicată într-o mare parte a evaluărilor reproductibilității și replicabilității, luăm în considerare acest mod de inferență statistică în câteva detalii. Cu toate acestea, considerațiile privind reproductibilitatea și replicabilitatea se aplică în general altor moduri și tipuri de inferență statistică. De exemplu, problema extragerii mai multor inferențe statistice din aceleași date este relevantă pentru toate testele de ipoteză și în estimare.
Studiile care implică teste de ipoteză implică de obicei mulți factori care pot introduce variații în rezultate. Unii dintre acești factori sunt recunoscuți, iar alții sunt nerecunoscuți. Alocarea aleatorie a subiecților sau a obiectelor de testare la unul sau altul dintre grupurile de comparație este o modalitate de a controla posibila influență atât a surselor de variație nerecunoscute, cât și a celor recunoscute. Alocarea aleatorie poate ajuta la evitarea diferențelor sistematice între grupurile care sunt comparate, dar nu afectează variația inerentă sistemului (de exemplu, populația sau o intervenție) care face obiectul studiului.
Științii folosesc termenul de ipoteză nulă pentru a descrie presupunerea că nu există nicio diferență între cele două grupuri de intervenție sau niciun efect al unui tratament asupra unor rezultate măsurate (Fisher, 1935). O formulare frecvent utilizată a testării ipotezelor se bazează pe răspunsul la următoarea întrebare: Dacă ipoteza nulă este adevărată, care este probabilitatea de a obține o diferență cel puțin la fel de mare ca cea observată? În general, cu cât diferența observată este mai mare, cu atât mai mică este probabilitatea ca o diferență cel puțin la fel de mare ca cea observată să fie obținută atunci când ipoteza nulă este adevărată. Această probabilitate de a obține o diferență cel puțin la fel de mare ca cea observată atunci când ipoteza nulă este adevărată se numește „valoare p”.3 Conform interpretării tradiționale, în cazul în care o valoare p calculată este mai mică decât un prag definit, rezultatele pot fi considerate semnificative din punct de vedere statistic. Un prag tipic poate fi p ≤ 0,05 sau, mai riguros, p ≤ 0,01 sau p ≤ 0,005.4 Într-o declarație emisă în 2016, Consiliul Asociației Americane de Statistică (Wasserstein și Lazar, 2016, p. 129) a remarcat:
În timp ce valoarea p poate fi o măsură statistică utilă, ea este frecvent utilizată și interpretată greșit. Acest lucru a făcut ca unele reviste științifice să descurajeze utilizarea valorilor p, iar unii oameni de știință și statisticieni să recomande abandonarea lor, unele argumente rămânând în esență neschimbate de când au fost introduse valorile p.
Mai recent, s-a argumentat că valorile p, calculate și înțelese în mod corespunzător, pot fi informative și utile; cu toate acestea, o concluzie de semnificație statistică bazată pe un prag arbitrar de probabilitate (chiar și unul familiar, cum ar fi p ≤ 0,05) nu este utilă și este frecvent înșelătoare (Wasserstein et al., 2019; Amrhein et al., 2019b).
Înțelegerea a ceea ce nu reprezintă o valoare p este la fel de importantă ca și înțelegerea a ceea ce indică aceasta. În special, valoarea p nu reprezintă probabilitatea ca ipoteza nulă să fie adevărată. Mai degrabă, valoarea p este calculată pornind de la ipoteza că ipoteza nulă este adevărată. Probabilitatea ca ipoteza nulă să fie adevărată, sau ca ipoteza alternativă să fie adevărată, se poate baza pe calcule informate parțial de rezultatele observate, dar acest lucru nu este același lucru cu o valoare p.
În cercetarea științifică care implică ipoteze despre efectele unei intervenții, cercetătorii încearcă să evite două tipuri de erori care pot duce la nereplicare:
-
Eroarea de tip I – o eroare fals pozitivă sau o respingere a ipotezei nule atunci când aceasta este corectă
-
Eroarea de tip II – o eroare fals negativă sau eșecul de a respinge o ipoteză nulă falsă, permițând ipotezei nule să se mențină atunci când o ipoteză alternativă, și nu ipoteza nulă, este corectă
În mod normal, atât erorile de tip I, cât și cele de tip II ar fi reduse simultan în cercetare. De exemplu, creșterea puterii statistice a unui studiu prin creșterea numărului de subiecți dintr-un studiu poate reduce probabilitatea unei erori de tip II pentru orice probabilitate dată de eroare de tip I.5 Deși creșterea numărului de date care vine odată cu studiile cu putere mai mare poate contribui la reducerea atât a erorilor de tip I, cât și a celor de tip II, adăugarea mai multor subiecți înseamnă, de obicei, mai mult timp și costuri suplimentare pentru un studiu.
Cercetătorii sunt adesea forțați să facă compromisuri în care reducerea probabilității unui tip de eroare crește probabilitatea celuilalt tip de eroare. De exemplu, atunci când valorile p sunt considerate utile, erorile de tip I pot fi reduse la minimum prin coborârea pragului de semnificație la un nivel mai strict (de exemplu, prin scăderea pragului standard p ≤ 0,05 la p ≤ 0,005). Cu toate acestea, acest lucru ar crește simultan probabilitatea unei erori de tip II. În unele cazuri, poate fi utilă definirea unor zone de interpretare separate, în care valorile p peste un prag de semnificație nu sunt considerate semnificative, valorile p sub un prag de semnificație mai riguros sunt considerate semnificative, iar valorile p între cele două praguri sunt considerate neconcludente. Alternativ, s-ar putea accepta pur și simplu valoarea p calculată pentru ceea ce este – probabilitatea de a obține rezultatul observat sau unul mai extrem dacă ipoteza nulă ar fi adevărată – și să se abțină de la interpretarea ulterioară a rezultatelor ca fiind „semnificative” sau „nesemnificative”. Încrederea tradițională într-un singur prag pentru a determina semnificația poate stimula comportamente care acționează împotriva progresului științific (a se vedea secțiunea „Publication Bias” din capitolul 5).
Pot apărea tensiuni între reproductibilitate și descoperire, mai exact, între reproductibilitatea și noutatea rezultatelor. Ipotezele cu probabilități a priori scăzute au mai puține șanse de a fi replicate. În acest sens, Wilson și Wixted (2018) au ilustrat modul în care domeniile care investighează rezultate potențial revoluționare vor produce rezultate care sunt mai puțin replicabile, în medie, decât domeniile care investighează rezultate foarte probabile, aproape consacrate. Într-adevăr, un domeniu ar putea obține o replicabilitate aproape perfectă dacă și-ar limita investigațiile la fenomene prozaice care sunt deja bine cunoscute. După cum afirmă Wilson și Wixted (2018, p. 193), „Ne putem imagina pagini pline de constatări conform cărora oamenilor le este foame după ce au ratat o masă sau că oamenilor le este somn după ce au stat treji toată noaptea”, ceea ce nu ar fi foarte util „pentru a avansa înțelegerea lumii”. În aceeași ordine de idei, nu ar fi util ca un domeniu să se concentreze exclusiv pe ipoteze improbabile și aberante.
Obiectivul științei nu este, și nici nu ar trebui să fie, ca toate rezultatele să fie replicabile. Rapoartele de nereplicare a rezultatelor pot genera entuziasm, deoarece pot indica fenomene posibil noi și extinderea cunoștințelor actuale. De asemenea, un anumit nivel de nereplicabilitate este de așteptat atunci când oamenii de știință studiază fenomene noi care nu sunt bine stabilite. Pe măsură ce cunoașterea unui sistem sau fenomen se îmbunătățește, este de așteptat ca replicabilitatea studiilor acelui sistem sau fenomen să crească.
Evaluarea probabilității ca o ipoteză să fie corectă în parte pe baza rezultatelor observate poate fi abordată, de asemenea, prin analiza bayesiană. Această abordare pornește de la ipoteze a priori (înainte de observarea datelor), cunoscute ca probabilități anterioare, și le revizuiește pe baza datelor observate folosind teorema lui Bayes, uneori descrisă ca formula Bayes.
Apendicele D ilustrează modul în care o abordare bayesiană a inferenței poate, sub anumite ipoteze privind mecanismul de generare a datelor și probabilitatea a priori a ipotezei, să utilizeze datele observate pentru a estima probabilitatea ca o ipoteză să fie corectă. Una dintre cele mai izbitoare lecții ale analizei bayesiene este efectul profund pe care șansele preexperimentale îl au asupra șanselor post-experimentale. De exemplu, în ipotezele prezentate în apendicele D, dacă probabilitatea anterioară a unei ipoteze experimentale era de numai 1 % și rezultatele obținute erau semnificative din punct de vedere statistic la nivelul p ≤ 0,01, numai aproximativ una din opt astfel de concluzii că ipoteza este adevărată ar fi fost corectă. Dacă probabilitatea prealabilă era de până la 25 %, atunci mai mult de patru din cinci astfel de studii ar fi fost considerate corecte. Așa cum dictează bunul simț și cum analiza bayesiană poate cuantifica, este prudent să se adopte un nivel de încredere mai scăzut în rezultatele unui studiu cu un rezultat extrem de neașteptat și surprinzător decât într-un studiu pentru care rezultatele au fost a priori mai plauzibile (de exemplu, a se vedea caseta 2-2).
CASTA 2-2
Probabilitatea preexperimentală: Un exemplu.
Rezultatele extrem de surprinzătoare pot reprezenta o descoperire științifică importantă, chiar dacă este probabil ca doar o minoritate dintre ele să se dovedească în timp a fi corecte. Poate fi crucial, în ceea ce privește exemplul din paragraful anterior, să aflăm care dintre cele opt rezultate extrem de neașteptate (probabilitate prealabilă, 1%) poate fi verificat și care dintre cele cinci rezultate moderat neașteptate (probabilitate prealabilă, 25%) ar trebui să fie neglijat.
Prin urmare, păstrând ideea de probabilitate prealabilă, cercetarea axată pe realizarea unor mici progrese în ceea ce privește cunoștințele existente ar avea ca rezultat o rată ridicată de replicare (adică o rată ridicată de replicări reușite), deoarece cercetătorii ar căuta rezultate care sunt foarte probabil corecte. Dar acest lucru ar avea efectul nedorit de a reduce probabilitatea de a face noi descoperiri majore (Wilson și Wixted, 2018). Multe progrese importante în știință au rezultat dintr-o abordare mai îndrăzneață, bazată pe ipoteze mai speculative, deși această cale duce, de asemenea, la fundături și la descoperiri care par promițătoare la început, dar care nu reușesc să supraviețuiască după testări repetate.
Abordările „sigure” și „îndrăznețe” ale științei au avantaje complementare. S-ar putea argumenta că un domeniu a devenit prea conservator dacă toate încercările de replicare a rezultatelor au succes, dar este rezonabil să ne așteptăm ca cercetătorii să urmărească descoperirile noi, dar incerte, prin studii de replicare pentru a sorta care rezultate promițătoare se dovedesc a fi corecte. Oamenii de știință ar trebui să fie conștienți de nivelul de incertitudine inerent în ipotezele speculative și în rezultatele surprinzătoare din orice studiu unic.