Tudományos módszerek és ismeretek - Reprodukálhatóság és megismételhetőség a tudományban - NCBI Könyvespolc

STATISZTIKAI LEVEZETÉS ÉS HIPOTÉZISEK TESZTELÉSE

Sok tudományos vizsgálat célja a természeti jelenségek mérése, magyarázata és előrejelzése. Más tanulmányok egy beavatkozás rendszerre gyakorolt hatását igyekeznek kimutatni és mérni. A statisztikai következtetés fogalmi és számítási keretet biztosít a tudományos kérdések megválaszolásához mindkét környezetben. A becslés és a hipotézisvizsgálat a következtetési eljárások tág csoportjai. A becslés olyan helyzetekben alkalmazható, amelyekben a fő cél egy mennyiség nagyságának felmérése, például egy fizikai állandó mérése vagy egy magyarázó változó változásának megfelelő válaszváltozás mértéke. A hipotézisvizsgálat olyan környezetben alkalmazható, ahol a tudományos érdeklődés egy természeti esemény vagy szándékos beavatkozás lehetséges hatására összpontosul, és a vizsgálat célja a hatás mellett vagy ellen szóló bizonyítékok értékelése. Ebben az összefüggésben a hipotézisvizsgálat segít megválaszolni a bináris kérdéseket. Például: gyorsabban nő-e egy növény A vagy B műtrágyával? A kisebb osztályokban tanuló gyerekek többet tanulnak? Egy kísérleti gyógyszer jobban hat, mint a placebo? A tudományos kutatásban többféle speciálisabb statisztikai módszert használnak, beleértve a vizsgálatok tervezésére szolgáló módszereket és az előrejelző algoritmusok fejlesztésére és értékelésére szolgáló módszereket.

Miatt a hipotézisvizsgálat a reprodukálhatóság és a megismételhetőség értékelésének jelentős részében részt vesz, a statisztikai következtetésnek ezt a módját vizsgáljuk meg részletesen. A reprodukálhatósággal és megismételhetőséggel kapcsolatos megfontolások azonban széles körben vonatkoznak a statisztikai következtetés más módozataira és típusaira is. Például az ugyanazon adatokból történő többszörös statisztikai következtetések levonásának kérdése minden hipotézisvizsgálat és becslés esetében releváns.

A hipotézisvizsgálatot magában foglaló tanulmányok jellemzően számos olyan tényezőt tartalmaznak, amelyek eltérést okozhatnak az eredményekben. E tényezők közül néhányat felismernek, néhányat pedig nem. A vizsgálati alanyok vagy vizsgálati tárgyak véletlenszerű hozzárendelése az egyik vagy másik összehasonlító csoporthoz az egyik módja annak, hogy kontrolláljuk mind a fel nem ismert, mind a felismert variációs források lehetséges hatását. A véletlenszerű hozzárendelés segíthet elkerülni az összehasonlítandó csoportok közötti szisztematikus különbségeket, de nem befolyásolja a vizsgált rendszerben (pl. populációban vagy beavatkozásban) rejlő variációt.

A tudósok a nullhipotézis kifejezést használják annak a feltételezésnek a leírására, hogy nincs különbség a két beavatkozási csoport között, vagy nincs hatása egy kezelésnek valamilyen mért eredményre (Fisher, 1935). A hipotézisvizsgálat általánosan használt megfogalmazása a következő kérdésre adott válaszon alapul: Ha a nullhipotézis igaz, mekkora a valószínűsége annak, hogy legalább akkora különbséget kapunk, mint a megfigyelt különbség? Általában minél nagyobb a megfigyelt különbség, annál kisebb a valószínűsége annak, hogy a nullhipotézis igaza esetén legalább akkora különbséget kapunk, mint a megfigyelt. Ezt a valószínűséget, hogy a nullhipotézis igaza esetén legalább akkora különbséget kapunk, mint a megfigyelt, “p-értéknek” nevezzük.3 A hagyományos értelmezés szerint, ha a számított p-érték kisebb, mint egy meghatározott küszöbérték, az eredmények statisztikailag szignifikánsnak tekinthetők. Egy tipikus küszöbérték lehet p ≤ 0,05 vagy szigorúbb esetben p ≤ 0,01 vagy p ≤ 0,005.4 Egy 2016-ban kiadott nyilatkozatában az Amerikai Statisztikai Egyesület vezetősége (Wasserstein és Lazar, 2016, 129. o.) megjegyezte:

Míg a p-érték hasznos statisztikai mérőszám lehet, gyakran visszaélnek vele és félreértelmezik. Ez oda vezetett, hogy egyes tudományos folyóiratok lebeszéltek a p-értékek használatáról, egyes tudósok és statisztikusok pedig a használatuk elhagyását javasolták, és egyes érvek lényegében változatlanok a p-értékek bevezetése óta.

Újabban azzal érvelnek, hogy a megfelelően kiszámított és értelmezett p-értékek informatívak és hasznosak lehetnek; azonban a statisztikai szignifikanciára vonatkozó következtetés egy önkényes valószínűségi küszöbérték (még egy olyan ismert küszöbérték is, mint a p ≤ 0,05) alapján nem hasznos és gyakran félrevezető (Wasserstein et al., 2019; Amrhein et al., 2019b).

Az, hogy mit nem jelez egy p-érték, legalább annyira fontos, mint annak megértése, hogy mit jelez. Különösen a p-érték nem azt a valószínűséget jelenti, hogy a nullhipotézis igaz. A p-értéket inkább abból a feltételezésből számítják ki, hogy a nullhipotézis igaz. Annak valószínűsége, hogy a nullhipotézis igaz, vagy hogy az alternatív hipotézis igaz, alapulhat számításokon, amelyek részben a megfigyelt eredményekből tájékozódnak, de ez nem azonos a p-értékkel.

A beavatkozás hatásaira vonatkozó hipotéziseket tartalmazó tudományos kutatásokban a kutatók kétféle hibát igyekeznek elkerülni, amelyek a megismételhetetlenséghez vezethetnek:

I. típusú hiba – hamis pozitív vagy a nullhipotézis elutasítása, amikor az helyes
II. típusú hiba – hamis negatív vagy a hamis nullhipotézis elutasításának elmulasztása, ami lehetővé teszi a nullhipotézis állítását, amikor egy alternatív hipotézis, és nem a nullhipotézis helyes

Ideális esetben mind az I., mind a II. típusú hibákat egyszerre csökkentenék a kutatásban. Például egy vizsgálat statisztikai erejének növelése a vizsgálati alanyok számának növelésével csökkentheti a II. típusú hiba valószínűségét az I. típusú hiba adott valószínűsége mellett.5 Bár a nagyobb teljesítményű vizsgálatokkal járó adatnövekedés segíthet mind az I., mind a II. típusú hibák csökkentésében, a több alany hozzáadása általában több időt és költséget jelent a vizsgálat számára.

A kutatók gyakran kénytelenek kompromisszumokat kötni, amelyek során az egyik típusú hiba valószínűségének csökkentése növeli a másik hiba valószínűségét. Például, ha a p-értékeket hasznosnak tartják, az I. típusú hibák minimalizálhatók a szignifikancia küszöb szigorúbb szintre történő csökkentésével (pl. a szokásos p ≤ 0,05 p ≤ 0,005-re csökkentésével). Ez azonban egyidejűleg növelné a II. típusú hiba valószínűségét. Bizonyos esetekben hasznos lehet külön értelmezési zónákat meghatározni, ahol az egyik szignifikancia küszöbérték feletti p-értékeket nem tekintik szignifikánsnak, a szigorúbb szignifikancia küszöbérték alatti p-értékeket szignifikánsnak, a két küszöbérték közötti p-értékeket pedig nem meggyőzőnek. Alternatív megoldásként egyszerűen elfogadhatjuk a számított p-értéket annak, ami – a megfigyelt eredmény vagy egy szélsőségesebb eredmény elérésének valószínűsége, ha a nullhipotézis igaz lenne -, és tartózkodhatunk az eredmények “szignifikáns” vagy “nem szignifikáns” további értelmezésétől. A szignifikancia meghatározásának egyetlen küszöbértékre való hagyományos támaszkodása olyan viselkedésre ösztönözhet, amely a tudományos fejlődés ellen hat (lásd az 5. fejezet Publikációs torzítás című szakaszát).

Feszültség keletkezhet a megismételhetőség és a felfedezés között, pontosabban a megismételhetőség és az eredmények újszerűsége között. Az alacsony a priori valószínűségű hipotéziseket kevésbé valószínű, hogy megismétlik. Ennek szellemében Wilson és Wixted (2018) bemutatta, hogy a potenciálisan úttörő eredményeket vizsgáló területek átlagosan kevésbé replikálható eredményeket produkálnak, mint a nagy valószínűségű, majdnem megalapozott eredményeket vizsgáló területek. Valóban, egy terület közel tökéletes replikálhatóságot érhet el, ha a vizsgálatokat olyan prózai jelenségekre korlátozza, amelyek már jól ismertek. Ahogy Wilson és Wixted (2018, 193. o.) megállapítja: “Elképzelhetünk olyan oldalakat, amelyek tele vannak olyan megállapításokkal, hogy az emberek éhesek, miután kihagytak egy étkezést, vagy hogy az emberek álmosak, miután egész éjjel fennmaradtak”, ami nem lenne túl hasznos “a világ megértésének előmozdítása szempontjából”. Ugyanígy nem lenne hasznos, ha egy tudományterület kizárólag valószínűtlen, szokatlan hipotézisekre összpontosítana.”

A tudomány célja nem az, és nem is kellene, hogy az legyen, hogy minden eredmény megismételhető legyen. A nem megismételhető eredményekről szóló jelentések izgalmat kelthetnek, mivel esetleg új jelenségekre és a jelenlegi ismeretek bővítésére utalhatnak. A megismételhetetlenség bizonyos szintje akkor is elvárható, ha a tudósok olyan új jelenségeket vizsgálnak, amelyek nem jól megalapozottak. Ahogy egy rendszerrel vagy jelenséggel kapcsolatos ismeretek javulnak, az adott rendszerrel vagy jelenséggel kapcsolatos vizsgálatok megismételhetősége várhatóan nőni fog.

A hipotézis helyességének valószínűségét részben a megfigyelt eredmények alapján a Bayes-analízis segítségével is meg lehet közelíteni. Ez a megközelítés a priori (az adatok megfigyelése előtti) feltételezésekből indul ki, amelyeket előzetes valószínűségeknek nevezünk, és a megfigyelt adatok alapján a Bayes-tétel (néha Bayes-formula) segítségével felülvizsgálja azokat.

A D. függelék bemutatja, hogy a következtetés bayesi megközelítése – az adatgenerálási mechanizmusra és a hipotézis a priori valószínűségére vonatkozó bizonyos feltételezések mellett – hogyan használhatja a megfigyelt adatokat egy hipotézis helyességének valószínűségének becslésére. A Bayes-elemzés egyik legszembetűnőbb tanulsága az a mélyreható hatás, amelyet a kísérlet előtti esélyek gyakorolnak a kísérlet utáni esélyekre. Például a D. függelékben bemutatott feltételezések mellett, ha egy kísérleti hipotézis előzetes valószínűsége csak 1 százalék volt, és a kapott eredmények p ≤ 0,01 szinten statisztikailag szignifikánsak voltak, csak körülbelül minden nyolcadik ilyen következtetés közül egy lenne helyes, hogy a hipotézis igaz. Ha az előzetes valószínűség elérné a 25 százalékot, akkor öt ilyen vizsgálatból több mint négyet helyesnek ítélnének. Ahogy azt a józan ész diktálná, és a Bayes-analízis számszerűsíteni tudja, bölcs dolog alacsonyabb szintű bizalmat fogadni egy nagyon váratlan és meglepő eredményt hozó vizsgálat eredményei iránt, mint egy olyan vizsgálat esetében, amelynek eredményei a priori valószínűbbek voltak (pl. lásd 2-2. doboz).

BOX 2-2

Pre-Experimental Probability: Egy példa.

A rendkívül meglepő eredmények fontos tudományos áttörést jelenthetnek, még akkor is, ha valószínű, hogy idővel csak kisebb részük bizonyul helyesnek. Az előző bekezdésben említett példa szempontjából kulcsfontosságú lehet, hogy megtudjuk, hogy a nyolc nagyon váratlan (előzetes valószínűség, 1%) eredmény közül melyik igazolható, és az öt közepesen váratlan (előzetes valószínűség, 25%) eredmény közül melyiket kell elvetni.

Az előzetes valószínűség gondolatát szem előtt tartva, a meglévő ismeretek kis előrelépésére összpontosító kutatás magas replikációs arányt (azaz a sikeres replikációk magas arányát) eredményezne, mivel a kutatók olyan eredményeket keresnének, amelyek nagy valószínűséggel helyesek. Ez azonban azzal a nemkívánatos hatással járna, hogy csökkenne a jelentős új felfedezések valószínűsége (Wilson és Wixted, 2018). A tudományban számos fontos előrelépés született a merészebb, spekulatívabb hipotéziseken alapuló megközelítésből, bár ez az út is zsákutcába vezet, és olyan felismerésekhez, amelyek elsőre ígéretesnek tűnnek, de ismételt tesztelés után nem maradnak fenn.

A tudomány “biztonságos” és “merész” megközelítésének egymást kiegészítő előnyei vannak. Lehet azzal érvelni, hogy egy terület túl konzervatív lett, ha az eredmények megismétlésére tett összes kísérlet sikeres, de ésszerű elvárni, hogy a kutatók az új, de bizonytalan felfedezéseket replikációs vizsgálatokkal kövessék nyomon, hogy kiválasszák, mely ígéretes eredmények bizonyulnak helyesnek. A tudósoknak tisztában kell lenniük a spekulatív hipotézisekben és az egyes tanulmányok meglepő eredményeiben rejlő bizonytalanság mértékével.

STATISZTIKAI LEVEZETÉS ÉS HIPOTÉZISEK TESZTELÉSE

BOX 2-2

Vélemény, hozzászólás? Kilépés a válaszból