STATISTICKÁ INFERENCE A TESTOVÁNÍ HYPOTÉZ
Mnoho vědeckých studií se snaží měřit, vysvětlovat a předpovídat přírodní jevy. Jiné studie se snaží zjistit a změřit účinky zásahu do systému. Statistická inference poskytuje koncepční a výpočetní rámec pro řešení vědeckých otázek v každém z těchto prostředí. Odhady a testování hypotéz jsou širokou skupinou inferenčních postupů. Odhad je vhodný pro prostředí, ve kterém je hlavním cílem posouzení velikosti veličiny, jako je míra fyzikální konstanty nebo míra změny odpovědi odpovídající změně vysvětlující proměnné. Testování hypotéz je vhodné pro situace, kdy je vědecký zájem zaměřen na možný účinek přírodní události nebo záměrného zásahu a studie se provádí za účelem posouzení důkazů pro a proti tomuto účinku. V tomto kontextu pomáhá testování hypotéz odpovědět na binární otázky. Například: Poroste rostlina rychleji s hnojivem A, nebo s hnojivem B? Učí se děti v menších třídách více? Funguje experimentální lék lépe než placebo? Ve vědeckém zkoumání se používá několik typů specializovanějších statistických metod, včetně metod pro navrhování studií a metod pro vývoj a vyhodnocování predikčních algoritmů.
Protože se testování hypotéz podílí na velké části hodnocení reprodukovatelnosti a replikovatelnosti, budeme se tímto způsobem statistického odvozování zabývat poněkud podrobněji. Úvahy o reprodukovatelnosti a replikovatelnosti však platí obecně i pro ostatní způsoby a typy statistického odvozování. Například otázka vyvozování vícenásobných statistických závěrů ze stejných dat je relevantní pro veškeré testování hypotéz a při odhadech.
Studie zahrnující testování hypotéz obvykle zahrnují mnoho faktorů, které mohou do výsledků vnést odchylky. Některé z těchto faktorů jsou rozpoznané a některé nejsou rozpoznané. Náhodné přiřazení subjektů nebo testovaných objektů do jedné nebo druhé srovnávací skupiny je jedním ze způsobů, jak kontrolovat možný vliv jak nerozpoznaných, tak rozpoznaných zdrojů variability. Náhodné přiřazení může pomoci zabránit systematickým rozdílům mezi porovnávanými skupinami, ale neovlivňuje variabilitu vlastní zkoumanému systému (např. populaci nebo intervenci).
Vědci používají termín nulová hypotéza k popisu předpokladu, že mezi dvěma intervenčními skupinami není žádný rozdíl nebo že léčba nemá žádný vliv na nějaký měřený výsledek (Fisher, 1935). Běžně používaná formulace testování hypotéz vychází z odpovědi na následující otázku: Pokud je nulová hypotéza pravdivá, jaká je pravděpodobnost získání rozdílu alespoň tak velkého, jako je pozorovaný rozdíl? Obecně platí, že čím větší je pozorovaný rozdíl, tím menší je pravděpodobnost, že při pravdivosti nulové hypotézy bude získán rozdíl alespoň tak velký jako pozorovaný. Tato pravděpodobnost, že při pravdivosti nulové hypotézy získáme rozdíl alespoň tak velký jako pozorovaný, se nazývá „p-hodnota“.3 Jak se tradičně interpretuje, pokud je vypočtená p-hodnota menší než definovaná hranice, lze výsledky považovat za statisticky významné. Typická prahová hodnota může být p ≤ 0,05 nebo přísněji p ≤ 0,01 nebo p ≤ 0,005.4 V prohlášení vydaném v roce 2016 Rada Americké statistické asociace (Wasserstein a Lazar, 2016, s. 129) uvedla:
Ačkoli p-hodnota může být užitečným statistickým měřítkem, je běžně nesprávně používána a interpretována. To vedlo k tomu, že některé vědecké časopisy od používání p-hodnoty odrazují a někteří vědci a statistici doporučují její opuštění, přičemž některé argumenty se od doby, kdy byla p-hodnota poprvé zavedena, v podstatě nezměnily.
Nedávno se objevily argumenty, že p-hodnoty, správně vypočtené a pochopené, mohou být informativní a užitečné; nicméně závěr o statistické významnosti založený na libovolném prahu pravděpodobnosti (dokonce i známém, jako je p ≤ 0,05) je neužitečný a často zavádějící (Wasserstein et al., 2019; Amrhein et al., 2019b).
Pochopení toho, co p-hodnota nepředstavuje, je stejně důležité jako pochopení toho, co indikuje. Konkrétně p-hodnota nepředstavuje pravděpodobnost, že nulová hypotéza je pravdivá. Hodnota p se spíše počítá za předpokladu, že nulová hypotéza je pravdivá. Pravděpodobnost, že nulová hypotéza je pravdivá, nebo že alternativní hypotéza je pravdivá, může být založena na výpočtech částečně informovaných pozorovanými výsledky, ale to není totéž jako p-hodnota.
Ve vědeckém výzkumu zahrnujícím hypotézy o účincích zásahu se výzkumníci snaží vyhnout dvěma typům chyb, které mohou vést k neopakovatelnosti:
-
Chyba typu I – falešně pozitivní nebo zamítnutí nulové hypotézy, když je správná
-
Chyba typu II – falešně negativní nebo nezamítnutí falešné nulové hypotézy, což umožňuje, aby nulová hypotéza platila, když je správná alternativní hypotéza, a nikoli nulová hypotéza
V ideálním případě by se ve výzkumu současně omezily chyby typu I i typu II. Například zvýšení statistické síly studie zvýšením počtu subjektů ve studii může snížit pravděpodobnost chyby typu II při jakékoli dané pravděpodobnosti chyby typu I.5 Ačkoli nárůst dat, který přichází se studiemi s vyšší silou, může pomoci snížit chyby typu I i typu II, přidání většího počtu subjektů obvykle znamená více času a nákladů na studii.
Výzkumníci jsou často nuceni dělat kompromisy, při nichž snížení pravděpodobnosti jednoho typu chyby zvyšuje pravděpodobnost druhého. Například pokud jsou p-hodnoty považovány za užitečné, lze minimalizovat chyby typu I snížením prahu významnosti na přísnější úroveň (např. snížením standardní hodnoty p ≤ 0,05 na p ≤ 0,005). Tím by se však současně zvýšila pravděpodobnost chyby typu II. V některých případech může být užitečné vymezit oddělené interpretační zóny, kde p-hodnoty nad jedním prahem významnosti nejsou považovány za významné, p-hodnoty pod přísnějším prahem významnosti jsou považovány za významné a p-hodnoty mezi těmito dvěma prahy jsou považovány za neprůkazné. Případně lze jednoduše přijmout vypočtenou p-hodnotu takovou, jaká je – pravděpodobnost získání pozorovaného výsledku nebo ještě extrémnějšího výsledku, pokud by byla nulová hypotéza pravdivá, a upustit od další interpretace výsledků jako „významné“ nebo „nevýznamné“. Tradiční spoléhání se na jedinou hranici pro určení významnosti může podněcovat chování, které působí proti vědeckému pokroku (viz oddíl Publikační zkreslení v kapitole 5).
Může vzniknout napětí mezi replikovatelností a objevováním, konkrétně mezi replikovatelností a novostí výsledků. Hypotézy s nízkou apriorní pravděpodobností budou s menší pravděpodobností replikovány. V tomto duchu Wilson a Wixted (2018) ilustrovali, že obory, které zkoumají potenciálně převratné výsledky, budou produkovat výsledky, které jsou v průměru méně replikovatelné, než obory, které zkoumají vysoce pravděpodobné, téměř zavedené výsledky. Obor by totiž mohl dosáhnout téměř dokonalé replikovatelnosti, pokud by omezil své zkoumání na prozaické jevy, které jsou již dobře známé. Jak uvádějí Wilson a Wixted (2018, s. 193), „můžeme si představit stránky plné zjištění, že lidé mají hlad poté, co vynechali jídlo, nebo že lidé jsou ospalí poté, co zůstali vzhůru celou noc“, což by nebylo příliš užitečné „pro pokrok v chápání světa“. Stejně tak by nebylo užitečné, kdyby se obor zaměřoval pouze na nepravděpodobné, obskurní hypotézy.
Cílem vědy není a nemělo by být, aby všechny výsledky byly replikovatelné. Zprávy o nereplikovatelných výsledcích mohou vyvolat vzrušení, protože mohou naznačovat možné nové jevy a rozšíření současných znalostí. Určitá míra nereplikovatelnosti se také očekává, když vědci studují nové jevy, které nejsou dobře zavedené. S tím, jak se znalosti o systému nebo jevu zlepšují, lze očekávat, že se replikovatelnost studií daného systému nebo jevu bude zvyšovat.
K posouzení pravděpodobnosti, že je hypotéza správná, lze částečně na základě pozorovaných výsledků přistupovat také pomocí bayesovské analýzy. Tento přístup vychází z apriorních (před pozorováním dat) předpokladů, známých jako apriorní pravděpodobnosti, a reviduje je na základě pozorovaných dat pomocí Bayesovy věty, někdy označované jako Bayesův vzorec.
Příloha D ukazuje, jak může bayesovský přístup k odvozování za určitých předpokladů o mechanismu vytváření dat a o apriorní pravděpodobnosti hypotézy použít pozorovaná data k odhadu pravděpodobnosti, že hypotéza je správná. Jedním z nejvýraznějších poznatků z bayesovské analýzy je hluboký vliv, který mají předexperimentální šance na postexperimentální šance. Například za předpokladů uvedených v dodatku D, pokud by předběžná pravděpodobnost experimentální hypotézy byla pouze 1 % a získané výsledky by byly statisticky významné na hladině p ≤ 0,01, byl by správný pouze přibližně jeden z osmi takových závěrů, že hypotéza je pravdivá. Pokud by byla předběžná pravděpodobnost až 25 procent, pak by za správné byly považovány více než čtyři z pěti takových studií. Jak by velel zdravý rozum a jak dokáže Bayesovská analýza kvantifikovat, je rozumné přijmout nižší úroveň důvěry ve výsledky studie s velmi neočekávaným a překvapivým výsledkem než ve studii, u které byly výsledky a priori pravděpodobnější (např. viz rámeček 2-2).
Rámeček 2-2
Předpokládaná pravděpodobnost: Příklad.
Velmi překvapivé výsledky mohou představovat důležitý vědecký průlom, i když je pravděpodobné, že jen menšina z nich se může časem ukázat jako správná. Z hlediska příkladu v předchozím odstavci může být klíčové zjistit, který z osmi vysoce neočekávaných výsledků (předběžná pravděpodobnost 1 %) lze ověřit a který z pěti středně neočekávaných výsledků (předběžná pravděpodobnost 25 %) je třeba odmítnout.
Při zachování myšlenky předběžné pravděpodobnosti by výzkum zaměřený na dosažení malých pokroků ve stávajících znalostech vedl k vysoké míře replikace (tj. k vysoké míře úspěšných replikací), protože vědci by hledali výsledky, které jsou velmi pravděpodobně správné. Takový postup by však měl nežádoucí účinek v podobě snížení pravděpodobnosti učinění významných nových objevů (Wilson a Wixted, 2018). Mnoho významných pokroků ve vědě bylo výsledkem odvážnějšího přístupu založeného na spekulativnějších hypotézách, ačkoli tato cesta vede také do slepých uliček a k poznatkům, které se na první pohled zdají slibné, ale po opakovaném testování neobstojí.
„Bezpečný“ a „odvážný“ přístup k vědě mají vzájemně se doplňující výhody. Někdo by mohl namítnout, že se obor stal příliš konzervativním, pokud jsou všechny pokusy o replikaci výsledků úspěšné, ale je rozumné očekávat, že vědci sledují nové, ale nejisté objevy replikačními studiemi, aby se utřídilo, které slibné výsledky se ukáží jako správné. Vědci by si měli být vědomi míry nejistoty, která je vlastní spekulativním hypotézám a překvapivým výsledkům každé jednotlivé studie.