INFERENCJA STATYSTYCZNA I TESTOWANIE HYPOTEZ
Wiele badań naukowych ma na celu zmierzenie, wyjaśnienie i przewidywanie zjawisk naturalnych. Inne badania mają na celu wykrycie i zmierzenie wpływu interwencji na system. Wnioskowanie statystyczne zapewnia koncepcyjne i obliczeniowe ramy dla odpowiedzi na pytania naukowe w każdym z tych przypadków. Szacowanie i testowanie hipotez to szerokie grupy procedur wnioskowania. Estymacja jest odpowiednia dla ustawień, w których głównym celem jest ocena wielkości wielkości, takiej jak miara stałej fizycznej lub tempo zmian w odpowiedzi odpowiadającej zmianie zmiennej objaśniającej. Testowanie hipotez jest odpowiednie dla sytuacji, w których zainteresowanie naukowców skupia się na możliwym skutku zdarzenia naturalnego lub celowej interwencji, a badanie przeprowadza się w celu oceny dowodów za i przeciw temu skutkowi. W tym kontekście, testowanie hipotez pomaga odpowiedzieć na pytania binarne. Na przykład, czy roślina będzie rosła szybciej z nawozem A czy z nawozem B? Czy dzieci w mniejszych klasach uczą się więcej? Czy eksperymentalny lek działa lepiej niż placebo? W badaniach naukowych stosuje się kilka rodzajów bardziej wyspecjalizowanych metod statystycznych, w tym metody projektowania badań i metody opracowywania i oceny algorytmów predykcyjnych.
Ponieważ testowanie hipotez było zaangażowane w większą część oceny odtwarzalności i replikowalności, rozważamy ten sposób wnioskowania statystycznego w niektórych szczegółach. Jednak rozważania na temat odtwarzalności i replikowalności mają szerokie zastosowanie do innych trybów i rodzajów wnioskowania statystycznego. Na przykład, kwestia wyciągania wielu wniosków statystycznych z tych samych danych jest istotna dla wszystkich sposobów testowania hipotez i estymacji.
Badania obejmujące testowanie hipotez zazwyczaj obejmują wiele czynników, które mogą wprowadzić zmienność w wynikach. Niektóre z tych czynników są rozpoznane, a niektóre są nierozpoznane. Losowe przypisanie osób badanych lub obiektów testowych do jednej lub drugiej grupy porównawczej jest jednym ze sposobów kontroli możliwego wpływu zarówno nierozpoznanych, jak i rozpoznanych źródeł zmienności. Losowy przydział może pomóc uniknąć systematycznych różnic między porównywanymi grupami, ale nie wpływa na zmienność właściwą dla badanego systemu (np. populacji lub interwencji).
Naukowcy używają terminu hipoteza zerowa, aby opisać przypuszczenie, że nie ma różnicy między dwiema grupami interwencyjnymi lub nie ma wpływu leczenia na jakiś mierzony wynik (Fisher, 1935). Powszechnie stosowane sformułowanie testowania hipotez opiera się na odpowiedzi na następujące pytanie: Jeżeli hipoteza zerowa jest prawdziwa, to jakie jest prawdopodobieństwo uzyskania różnicy co najmniej tak dużej jak obserwowana? Na ogół im większa jest różnica obserwowana, tym mniejsze jest prawdopodobieństwo, że przy prawdziwości hipotezy zerowej uzyska się różnicę co najmniej tak dużą jak obserwowana. To prawdopodobieństwo uzyskania różnicy co najmniej tak dużej jak zaobserwowana, gdy hipoteza zerowa jest prawdziwa, nazywamy „wartością p „3. Zgodnie z tradycyjną interpretacją, jeśli obliczona wartość p jest mniejsza niż określony próg, wyniki można uznać za statystycznie istotne. Typowy próg może wynosić p ≤ 0,05 lub, bardziej rygorystycznie, p ≤ 0,01 lub p ≤ 0,005.4 W oświadczeniu wydanym w 2016 r. zarząd American Statistical Association (Wasserstein i Lazar, 2016, s. 129) zauważył:
Pomimo że wartość p może być użyteczną miarą statystyczną, jest ona powszechnie nadużywana i błędnie interpretowana. Doprowadziło to do tego, że niektóre czasopisma naukowe zniechęcają do stosowania wartości p, a niektórzy naukowcy i statystycy zalecają ich porzucenie, przy czym niektóre argumenty pozostają zasadniczo niezmienione od czasu, gdy wartości p zostały po raz pierwszy wprowadzone.
Ostatnio argumentowano, że wartości p, właściwie obliczone i zrozumiane, mogą być informacyjne i użyteczne; jednak wnioskowanie o istotności statystycznej na podstawie arbitralnego progu prawdopodobieństwa (nawet znanego, takiego jak p ≤ 0,05) jest niepomocne i często wprowadza w błąd (Wasserstein i in., 2019; Amrhein et al., 2019b).
Zrozumienie tego, czego wartość p nie reprezentuje, jest równie ważne jak zrozumienie tego, na co wskazuje. W szczególności, wartość p nie reprezentuje prawdopodobieństwa, że hipoteza zerowa jest prawdziwa. Raczej, wartość p jest obliczana przy założeniu, że hipoteza zerowa jest prawdziwa. Prawdopodobieństwo, że hipoteza zerowa jest prawdziwa lub że hipoteza alternatywna jest prawdziwa, może być oparte na obliczeniach opartych częściowo na zaobserwowanych wynikach, ale to nie to samo, co wartość p.
W badaniach naukowych obejmujących hipotezy dotyczące efektów interwencji, badacze starają się uniknąć dwóch rodzajów błędów, które mogą prowadzić do braku powtarzalności:
-
Błąd typu I – fałszywy wynik pozytywny lub odrzucenie hipotezy zerowej, gdy jest ona poprawna
-
Błąd typu II – fałszywy wynik negatywny lub nieodrzucenie fałszywej hipotezy zerowej, co pozwala na utrzymanie hipotezy zerowej, gdy hipoteza alternatywna, a nie hipoteza zerowa, jest poprawna
Idealnie, zarówno błędy typu I, jak i typu II byłyby jednocześnie redukowane w badaniach. Na przykład zwiększenie mocy statystycznej badania poprzez zwiększenie liczby uczestników badania może zmniejszyć prawdopodobieństwo wystąpienia błędu typu II przy danym prawdopodobieństwie wystąpienia błędu typu I.5 Chociaż zwiększenie ilości danych w badaniach o większej mocy może pomóc w zmniejszeniu zarówno błędów typu I, jak i typu II, dodanie większej liczby uczestników oznacza zazwyczaj więcej czasu i kosztów badania.
Badacze są często zmuszeni do dokonywania kompromisów, w których zmniejszenie prawdopodobieństwa wystąpienia jednego rodzaju błędu zwiększa prawdopodobieństwo wystąpienia drugiego. Na przykład, gdy wartości p uważane są za użyteczne, błędy typu I można zminimalizować poprzez obniżenie progu istotności do bardziej rygorystycznego poziomu (np. poprzez obniżenie standardowego p ≤ 0,05 do p ≤ 0,005). Jednakże jednocześnie zwiększyłoby to prawdopodobieństwo wystąpienia błędu typu II. W niektórych przypadkach przydatne może być określenie odrębnych stref interpretacyjnych, w których wartości p powyżej jednego progu istotności nie są uznawane za istotne, wartości p poniżej bardziej rygorystycznego progu istotności są uznawane za istotne, a wartości p pomiędzy tymi dwoma progami są uznawane za nierozstrzygające. Alternatywnie, można po prostu zaakceptować obliczoną wartość p za to, czym jest – prawdopodobieństwem uzyskania obserwowanego wyniku lub jednego bardziej skrajnego, jeśli hipoteza zerowa byłaby prawdziwa – i powstrzymać się od dalszego interpretowania wyników jako „znaczących” lub „nieistotnych”. Tradycyjne poleganie na jednym progu w celu określenia znaczenia może zachęcać do zachowań, które działają przeciwko postępowi naukowemu (patrz sekcja Publication Bias w rozdziale 5).
Między możliwością replikacji a odkryciem może powstać napięcie, a konkretnie między możliwością replikacji a nowością wyników. Hipotezy o niskim prawdopodobieństwie a priori są mniej prawdopodobne do zreplikowania. W tym duchu Wilson i Wixted (2018) zilustrowali, w jaki sposób dziedziny, które badają potencjalnie przełomowe wyniki, będą średnio produkować wyniki, które są mniej replikowalne niż dziedziny, które badają wysoce prawdopodobne, prawie ugruntowane wyniki. Rzeczywiście, dana dziedzina mogłaby osiągnąć niemal doskonałą replikowalność, gdyby ograniczyła swoje badania do prozaicznych zjawisk, które są już dobrze znane. Jak stwierdzają Wilson i Wixted (2018, s. 193), „możemy sobie wyobrazić strony pełne ustaleń, że ludzie są głodni po opuszczeniu posiłku lub że ludzie są senni po przespaniu całej nocy”, co nie byłoby zbyt pomocne „dla postępu w rozumieniu świata.” W tym samym duchu, nie byłoby to pomocne dla dziedziny, aby skupić się wyłącznie na nieprawdopodobnych, dziwacznych hipotezach.
Celem nauki nie jest, i nie powinno być, aby wszystkie wyniki były replikowalne. Raporty o niereplikowaniu wyników mogą generować podniecenie, ponieważ mogą wskazywać na nowe zjawiska i rozszerzenie obecnej wiedzy. Również pewien poziom niereplikowalności jest oczekiwany, gdy naukowcy badają nowe zjawiska, które nie są dobrze poznane. Jak wiedza o systemie lub zjawisku poprawia się, replikowalność badań tego konkretnego systemu lub zjawiska powinna wzrosnąć.
Oszacowanie prawdopodobieństwa, że hipoteza jest poprawna w części opartej na obserwowanych wynikach można również podejść poprzez analizę Bayesian. Podejście to rozpoczyna się od założeń a priori (przed obserwacją danych), znanych jako prawdopodobieństwa wstępne, i rewiduje je na podstawie zaobserwowanych danych przy użyciu twierdzenia Bayesa, czasami opisywanego jako formuła Bayesa.
Załącznik D ilustruje, jak bayesowskie podejście do wnioskowania może, przy pewnych założeniach dotyczących mechanizmu generowania danych i prawdopodobieństwa a priori hipotezy, wykorzystać zaobserwowane dane do oszacowania prawdopodobieństwa, że hipoteza jest poprawna. Jedną z najbardziej uderzających lekcji płynących z analizy bayesowskiej jest głęboki wpływ, jaki szanse przedeksperymentalne mają na szanse poeksperymentalne. Na przykład, przy założeniach przedstawionych w Załączniku D, jeśli wcześniejsze prawdopodobieństwo hipotezy eksperymentalnej wynosiło tylko 1 procent, a uzyskane wyniki były istotne statystycznie na poziomie p ≤ 0,01, tylko około jeden na osiem takich wniosków, że hipoteza jest prawdziwa, byłby poprawny. Jeśli wcześniejsze prawdopodobieństwo wynosiłoby aż 25 procent, wówczas więcej niż cztery z pięciu takich badań zostałyby uznane za poprawne. Jak nakazywałby zdrowy rozsądek, a analiza bayesowska może to skwantyfikować, rozsądnie jest przyjąć niższy poziom zaufania do wyników badania z wysoce nieoczekiwanym i zaskakującym wynikiem niż w przypadku badania, dla którego wyniki były a priori bardziej prawdopodobne (np. patrz Ramka 2-2).
Bramka 2-2
Prawdopodobieństwo przedeksperymentalne: An Example.
Wysoko zaskakujące wyniki mogą stanowić ważny przełom w nauce, nawet jeśli jest prawdopodobne, że tylko mniejszość z nich może z czasem okazać się poprawna. Kluczowe może być, w odniesieniu do przykładu z poprzedniego akapitu, nauczenie się, które z ośmiu wysoce nieoczekiwanych (wcześniejsze prawdopodobieństwo, 1%) wyników można zweryfikować, a które z pięciu umiarkowanie nieoczekiwanych (wcześniejsze prawdopodobieństwo, 25%) wyników należy zdyskontować.
Pamiętając o idei wcześniejszego prawdopodobieństwa, badania skoncentrowane na dokonywaniu niewielkich postępów w istniejącej wiedzy skutkowałyby wysokim wskaźnikiem replikacji (tj. wysokim wskaźnikiem udanych replikacji), ponieważ badacze szukaliby wyników, które z dużym prawdopodobieństwem są poprawne. Jednak takie postępowanie miałoby niepożądany skutek w postaci zmniejszenia prawdopodobieństwa dokonania nowych, znaczących odkryć (Wilson i Wixted, 2018). Wiele ważnych postępów w nauce wynikało z odważniejszego podejścia opartego na bardziej spekulatywnych hipotezach, chociaż ta ścieżka również prowadzi do ślepych zaułków i do spostrzeżeń, które na początku wydają się obiecujące, ale nie udaje im się przetrwać po wielokrotnym testowaniu.
„Bezpieczne” i „odważne” podejścia do nauki mają uzupełniające się zalety. Można by twierdzić, że dana dziedzina stała się zbyt konserwatywna, jeśli wszystkie próby replikacji wyników kończą się sukcesem, ale rozsądnie jest oczekiwać, że badacze będą śledzić nowe, ale niepewne odkrycia za pomocą badań replikacyjnych, aby ustalić, które z obiecujących wyników okazują się poprawne. Naukowcy powinni być świadomi poziomu niepewności nieodłącznie związanego ze spekulatywnymi hipotezami i zaskakującymi wynikami w każdym pojedynczym badaniu.