STATISTICAL INFERENCE AND HYPOTHESIS TESTING
Veel wetenschappelijke studies zijn gericht op het meten, verklaren en voorspellen van natuurverschijnselen. Andere studies hebben tot doel de effecten van een interventie op een systeem op te sporen en te meten. Statistische inferentie biedt een conceptueel en computationeel kader voor het beantwoorden van de wetenschappelijke vragen in elke setting. Schatting en hypothese toetsing zijn brede groepen van inferentiële procedures. Schatting is geschikt voor situaties waarin het hoofddoel de beoordeling van de grootte van een grootheid is, zoals een maat voor een fysische constante of de veranderingssnelheid in een respons die overeenkomt met een verandering in een verklarende variabele. Het testen van hypothesen is geschikt voor omgevingen waarin de wetenschappelijke belangstelling gericht is op het mogelijke effect van een natuurlijke gebeurtenis of een opzettelijke interventie, en een studie wordt uitgevoerd om het bewijs voor en tegen dit effect te beoordelen. In deze context helpt het testen van hypothesen bij het beantwoorden van binaire vragen. Bijvoorbeeld, zal een plant sneller groeien met meststof A of meststof B? Leren kinderen in kleinere klassen meer? Werkt een experimenteel geneesmiddel beter dan een placebo? Verschillende soorten meer gespecialiseerde statistische methoden worden gebruikt in wetenschappelijk onderzoek, met inbegrip van methoden voor het ontwerpen van studies en methoden voor het ontwikkelen en evalueren van voorspellingsalgoritmen.
Omdat hypothesetoetsing betrokken is geweest bij een groot deel van de reproduceerbaarheids- en repliceerbaarheidsbeoordelingen, beschouwen we deze wijze van statistische gevolgtrekking in enig detail. Overwegingen met betrekking tot reproduceerbaarheid en repliceerbaarheid zijn echter ook van toepassing op andere vormen en typen van statistische gevolgtrekkingen. Zo is de kwestie van het trekken van meerdere statistische conclusies uit dezelfde gegevens relevant voor alle hypothesetests en bij schattingen.
Bij studies waarbij hypothesetests worden uitgevoerd, spelen doorgaans vele factoren een rol die variatie in de resultaten kunnen brengen. Sommige van deze factoren zijn bekend, andere zijn niet bekend. Willekeurige toewijzing van proefpersonen of testobjecten aan de ene of de andere vergelijkingsgroep is één manier om de mogelijke invloed van zowel niet-erkende als erkende variatiebronnen te controleren. Willekeurige toewijzing kan helpen systematische verschillen tussen de vergeleken groepen te voorkomen, maar heeft geen invloed op de variatie die inherent is aan het bestudeerde systeem (bv. een populatie of een interventie).
Wetenschappers gebruiken de term nulhypothese om de veronderstelling te beschrijven dat er geen verschil is tussen de twee interventiegroepen of geen effect van een behandeling op een gemeten resultaat (Fisher, 1935). Een veelgebruikte formulering van hypothesetoetsing is gebaseerd op het antwoord op de volgende vraag: Als de nulhypothese waar is, wat is dan de kans dat een verschil wordt verkregen dat minstens even groot is als het geobserveerde verschil? In het algemeen geldt dat hoe groter het waargenomen verschil is, hoe kleiner de kans is dat een verschil wordt verkregen dat ten minste even groot is als het waargenomen verschil indien de nulhypothese waar is. Deze waarschijnlijkheid van een verschil dat minstens even groot is als het waargenomen verschil wanneer de nulhypothese waar is, wordt de “p-waarde” genoemd.3 Zoals traditioneel geïnterpreteerd, als een berekende p-waarde kleiner is dan een bepaalde drempel, kunnen de resultaten als statistisch significant worden beschouwd. Een typische drempelwaarde kan p ≤ 0,05 zijn of, strenger, p ≤ 0,01 of p ≤ 0,005.4 In een verklaring uit 2016 merkte het bestuur van de American Statistical Association (Wasserstein en Lazar, 2016, p. 129) op:
Hoewel de p-waarde een nuttige statistische maatstaf kan zijn, wordt deze vaak verkeerd gebruikt en verkeerd geïnterpreteerd. Dit heeft ertoe geleid dat het gebruik van p-waarden in sommige wetenschappelijke tijdschriften wordt ontmoedigd en dat sommige wetenschappers en statistici de afschaffing van p-waarden aanbevelen, waarbij sommige argumenten in wezen ongewijzigd zijn gebleven sinds p-waarden voor het eerst werden geïntroduceerd.
Meer recent is betoogd dat p-waarden, op de juiste wijze berekend en begrepen, informatief en nuttig kunnen zijn; een conclusie van statistische significantie op basis van een arbitraire waarschijnlijkheidsdrempel (zelfs een bekende zoals p ≤ 0,05) is echter niet nuttig en vaak misleidend (Wasserstein et al, 2019; Amrhein et al., 2019b).
Het begrijpen van wat een p-waarde niet weergeeft is net zo belangrijk als het begrijpen van wat het wel aangeeft. In het bijzonder vertegenwoordigt de p-waarde niet de waarschijnlijkheid dat de nulhypothese waar is. De p-waarde wordt berekend uitgaande van de veronderstelling dat de nulhypothese waar is. De waarschijnlijkheid dat de nulhypothese waar is, of dat de alternatieve hypothese waar is, kan worden gebaseerd op berekeningen die gedeeltelijk zijn gebaseerd op de waargenomen resultaten, maar dit is niet hetzelfde als een p-waarde.
In wetenschappelijk onderzoek met hypothesen over de effecten van een interventie proberen onderzoekers twee soorten fouten te vermijden die kunnen leiden tot niet-repliceerbaarheid:
-
Type I-fout-een fout-positief of een verwerping van de nulhypothese wanneer deze juist is
-
Type II-fout-een fout-negatief of het niet verwerpen van een fout-nulhypothese, waardoor de nulhypothese blijft staan wanneer een alternatieve hypothese, en niet de nulhypothese, juist is
In het algemeen zouden zowel Type I- als Type II-fouten in onderzoek gelijktijdig worden verminderd. Door bijvoorbeeld de statistische power van een onderzoek te vergroten door het aantal proefpersonen in een onderzoek te verhogen, kan de kans op een Type II-fout worden verkleind bij een gegeven waarschijnlijkheid van een Type I-fout.5 Hoewel de toename van gegevens die gepaard gaat met studies met een hogere power zowel Type I- als Type II-fouten kan helpen verminderen, betekent het toevoegen van meer proefpersonen doorgaans meer tijd en kosten voor een onderzoek.
Onderzoekers zijn vaak gedwongen om afwegingen te maken waarbij het verkleinen van de kans op de ene soort fout de kans op de andere vergroot. Wanneer bijvoorbeeld p-waarden nuttig worden geacht, kunnen Type I-fouten worden geminimaliseerd door de significantiedrempel te verlagen tot een strenger niveau (bijvoorbeeld door de standaard p ≤ 0,05 te verlagen tot p ≤ 0,005). Dit zou echter tegelijk de kans op een type II-fout verhogen. In sommige gevallen kan het nuttig zijn afzonderlijke interpretatiezones te definiëren, waar p-waarden boven één significantiedrempel als niet significant worden beschouwd, p-waarden onder een strengere significantiedrempel als significant worden beschouwd, en p-waarden tussen de twee drempels als niet-sluitend worden beschouwd. Een andere mogelijkheid is de berekende p-waarde te aanvaarden voor wat zij is – de waarschijnlijkheid dat het waargenomen resultaat of een extremer resultaat wordt verkregen indien de nulhypothese waar zou zijn – en zich te onthouden van een verdere interpretatie van de resultaten als “significant” of “niet significant”. Het traditionele vertrouwen op een enkele drempel om significantie te bepalen kan aanzetten tot gedrag dat de wetenschappelijke vooruitgang tegenwerkt (zie de paragraaf Publication Bias in hoofdstuk 5).
Tension can arise between replicability and discovery, specifically, between the replicability and the novelty of the results. Hypothesen met een lage a priori waarschijnlijkheid worden minder snel gerepliceerd. In deze geest illustreerden Wilson en Wixted (2018) hoe velden die potentieel baanbrekende resultaten onderzoeken gemiddeld minder repliceerbare resultaten zullen produceren dan velden die zeer waarschijnlijke, bijna-gevestigde resultaten onderzoeken. Een veld zou namelijk een bijna perfecte repliceerbaarheid kunnen bereiken als het zijn onderzoek beperkt tot prozaïsche fenomenen die al goed bekend zijn. Zoals Wilson en Wixted (2018, p. 193) stellen: “We kunnen ons pagina’s vol voorstellen met bevindingen dat mensen honger hebben nadat ze een maaltijd hebben gemist of dat mensen slaperig zijn nadat ze de hele nacht zijn opgebleven,” wat niet erg nuttig zou zijn “voor het bevorderen van het begrip van de wereld.” In dezelfde geest zou het niet nuttig zijn voor een vakgebied om zich uitsluitend te richten op onwaarschijnlijke, bizarre hypothesen.
Het doel van de wetenschap is niet, en zou dat ook niet moeten zijn, dat alle resultaten repliceerbaar zijn. Berichten over niet-repliceerbare resultaten kunnen opwindend zijn, omdat zij kunnen wijzen op mogelijk nieuwe verschijnselen en uitbreiding van de huidige kennis. Ook wordt een zekere mate van niet-repliceerbaarheid verwacht wanneer wetenschappers nieuwe verschijnselen bestuderen die nog niet goed zijn vastgesteld. Naarmate de kennis van een systeem of verschijnsel toeneemt, zal de repliceerbaarheid van studies van dat systeem of verschijnsel naar verwachting toenemen.
De beoordeling van de waarschijnlijkheid dat een hypothese mede op grond van de waargenomen resultaten juist is, kan ook worden benaderd via een Bayesiaanse analyse. Deze benadering begint met a priori (vóór de waarneming van de gegevens) veronderstellingen, bekend als priori waarschijnlijkheden, en herziet deze op basis van de waargenomen gegevens met behulp van het theorema van Bayes, soms omschreven als de formule van Bayes.
Aanhangsel D illustreert hoe een Bayesiaanse benadering van inferentie, onder bepaalde veronderstellingen over het mechanisme van gegevensgeneratie en over de a priori waarschijnlijkheid van de hypothese, de waargenomen gegevens kan gebruiken om de waarschijnlijkheid te schatten dat een hypothese juist is. Een van de meest opvallende lessen uit de Bayesiaanse analyse is het ingrijpende effect dat de pre-experimentele kansen hebben op de post-experimentele kansen. Indien bijvoorbeeld onder de hypothesen van aanhangsel D de voorafgaande waarschijnlijkheid van een experimentele hypothese slechts 1 procent bedroeg en de verkregen resultaten statistisch significant waren op het p ≤ 0,01-niveau, zou slechts ongeveer één op acht van dergelijke conclusies dat de hypothese waar was, juist zijn. Als de voorafgaande waarschijnlijkheid 25 procent bedroeg, zouden meer dan vier van de vijf van dergelijke studies correct worden geacht. Zoals het gezond verstand zou voorschrijven en Bayesiaanse analyse kan kwantificeren, is het verstandig een lager niveau van vertrouwen aan te nemen in de resultaten van een onderzoek met een zeer onverwacht en verrassend resultaat dan in een onderzoek waarvan de resultaten a priori aannemelijker waren (zie bijvoorbeeld kader 2-2).
Kader 2-2
erexperimentele waarschijnlijkheid: Een voorbeeld.
Zeer verrassende resultaten kunnen een belangrijke wetenschappelijke doorbraak betekenen, ook al is het waarschijnlijk dat slechts een minderheid ervan na verloop van tijd juist zal blijken te zijn. Het kan, in termen van het voorbeeld in de vorige paragraaf, van cruciaal belang zijn om te leren welke van de acht zeer onverwachte (voorafgaande waarschijnlijkheid, 1%) resultaten kunnen worden geverifieerd en welke van de vijf gematigd onverwachte (voorafgaande waarschijnlijkheid, 25%) resultaten buiten beschouwing moeten worden gelaten.
Het idee van voorafgaande waarschijnlijkheid in gedachten houdend, zou onderzoek dat is gericht op het maken van kleine vorderingen op bestaande kennis resulteren in een hoog replicatiepercentage (d.w.z. een hoog percentage succesvolle replicaties), omdat onderzoekers zouden zoeken naar resultaten waarvan het zeer waarschijnlijk is dat ze juist zijn. Maar dit zou het ongewenste effect hebben dat de kans op het doen van belangrijke nieuwe ontdekkingen afneemt (Wilson en Wixted, 2018). Veel belangrijke vooruitgang in de wetenschap is voortgekomen uit een gedurfdere aanpak op basis van meer speculatieve hypothesen, hoewel dit pad ook leidt tot doodlopende wegen en tot inzichten die in eerste instantie veelbelovend lijken, maar na herhaalde testen niet overleven.
De “veilige” en “gedurfde” benaderingen van wetenschap hebben complementaire voordelen. Men zou kunnen aanvoeren dat een vakgebied te conservatief is geworden als alle pogingen om resultaten te repliceren succes hebben, maar het is redelijk te verwachten dat onderzoekers nieuwe maar onzekere ontdekkingen opvolgen met replicatiestudies om uit te zoeken welke veelbelovende resultaten juist blijken te zijn. Wetenschappers moeten zich bewust zijn van de mate van onzekerheid die inherent is aan speculatieve hypothesen en aan verrassende resultaten in een enkele studie.