STATISTISK INFERENS OCH HYPOTHESITESTNING
Många vetenskapliga studier syftar till att mäta, förklara och göra förutsägelser om naturfenomen. Andra studier syftar till att upptäcka och mäta effekterna av ett ingrepp i ett system. Statistisk inferens ger ett konceptuellt och beräkningsmässigt ramverk för att ta itu med de vetenskapliga frågorna i varje situation. Uppskattning och hypotesprövning är breda grupper av inferensförfaranden. Uppskattning lämpar sig för situationer där huvudmålet är att bedöma storleken på en kvantitet, t.ex. ett mått på en fysisk konstant eller förändringshastigheten i ett svar som motsvarar en förändring i en förklarande variabel. Hypotesprövning lämpar sig för situationer där det vetenskapliga intresset är inriktat på den möjliga effekten av en naturlig händelse eller ett avsiktligt ingripande, och en undersökning genomförs för att bedöma bevisen för eller emot denna effekt. I detta sammanhang hjälper hypotesprövning till att besvara binära frågor. Till exempel: Kommer en växt att växa snabbare med gödsel A eller gödsel B? Lär sig barn i mindre klasser mer? Fungerar ett experimentellt läkemedel bättre än placebo? Flera typer av mer specialiserade statistiska metoder används i vetenskapliga undersökningar, bland annat metoder för att utforma studier och metoder för att utveckla och utvärdera förutsägelsealgoritmer.
Då hypotesprövning har varit inblandad i en stor del av bedömningarna av reproducerbarhet och replikerbarhet, tar vi upp denna form av statistisk slutsats i viss detalj. Överväganden om reproducerbarhet och replikerbarhet gäller dock i stort sett för andra former och typer av statistiska slutsatser. Till exempel är frågan om att dra flera statistiska slutsatser från samma data relevant för all hypotesprövning och vid skattning.
Studier som innefattar hypotesprövning innefattar vanligtvis många faktorer som kan medföra variation i resultaten. En del av dessa faktorer är kända och en del är okända. Slumpmässig fördelning av försökspersoner eller testobjekt till den ena eller andra av jämförelsegrupperna är ett sätt att kontrollera det möjliga inflytandet av både icke erkända och erkända variationskällor. Slumpmässig tilldelning kan bidra till att undvika systematiska skillnader mellan grupper som jämförs, men den påverkar inte den variation som är inneboende i det system (t.ex. en population eller en intervention) som studeras.
Vetenskapsmän använder termen nollhypotes för att beskriva antagandet att det inte finns någon skillnad mellan de två interventionsgrupperna eller att det inte finns någon effekt av en behandling på ett visst uppmätt resultat (Fisher, 1935). En vanligt förekommande formulering av hypotesprövning bygger på svaret på följande fråga: Om nollhypotesen är sann, hur stor är sannolikheten för att få en skillnad som är minst lika stor som den observerade? I allmänhet gäller att ju större den observerade skillnaden är, desto mindre är sannolikheten för att en skillnad som är minst lika stor som den observerade skulle erhållas om nollhypotesen är sann. Denna sannolikhet att få en skillnad som är minst lika stor som den observerade när nollhypotesen är sann kallas ”p-värde”.3 Enligt traditionell tolkning kan resultaten anses vara statistiskt signifikanta om ett beräknat p-värde är mindre än ett definierat tröskelvärde. Ett typiskt tröskelvärde kan vara p ≤ 0,05 eller, mer strikt, p ≤ 0,01 eller p ≤ 0,005.4 I ett uttalande från 2016 konstaterade American Statistical Association Board (Wasserstein och Lazar, 2016, s. 129):
Samtidigt som p-värdet kan vara ett användbart statistiskt mått, missbrukas och misstolkas det ofta. Detta har lett till att vissa vetenskapliga tidskrifter avråder från att använda p-värden och att vissa forskare och statistiker rekommenderar att de överges, med vissa argument i stort sett oförändrade sedan p-värden först infördes.
På senare tid har det hävdats att p-värden, korrekt beräknade och förstådda, kan vara informativa och användbara; en slutsats om statistisk signifikans baserad på ett godtyckligt tröskelvärde för sannolikhet (även ett välkänt tröskelvärde som t.ex. p ≤ 0,05) är dock föga hjälpsam och ofta vilseledande (Wasserstein et al, 2019; Amrhein et al., 2019b).
Att förstå vad ett p-värde inte representerar är lika viktigt som att förstå vad det indikerar. I synnerhet representerar p-värdet inte sannolikheten för att nollhypotesen är sann. Snarare beräknas p-värdet utifrån antagandet att nollhypotesen är sann. Sannolikheten för att nollhypotesen är sann, eller att den alternativa hypotesen är sann, kan baseras på beräkningar som delvis bygger på de observerade resultaten, men detta är inte samma sak som ett p-värde.
I vetenskaplig forskning som omfattar hypoteser om effekterna av en intervention försöker forskarna undvika två typer av fel som kan leda till icke-replikerbarhet:
-
Typ I-fel – ett falskt positivt fel eller ett förkastande av nollhypotesen när den är korrekt
-
Typ II-fel – ett falskt negativt fel eller ett misslyckande med att förkasta en falsk nollhypotes, vilket innebär att nollhypotesen får stå fast när en alternativ hypotes, och inte nollhypotesen, är korrekt
Det är meningen att både typ I- och typ II-felen skulle minskas samtidigt i forskning. Att öka den statistiska styrkan i en studie genom att öka antalet försökspersoner i en studie kan till exempel minska sannolikheten för ett typ II-fel för varje given sannolikhet för typ I-fel.5 Även om ökningen av data som följer med studier med högre styrkan kan bidra till att minska både typ I- och typ II-fel, innebär fler försökspersoner vanligen mer tid och mer kostnader för en studie.
Förskare tvingas ofta göra avvägningar där en minskning av sannolikheten för den ena typen av fel ökar sannolikheten för den andra. När p-värden anses vara användbara kan till exempel typ I-fel minimeras genom att sänka signifikansgränsen till en strängare nivå (t.ex. genom att sänka standarden p ≤ 0,05 till p ≤ 0,005). Detta skulle dock samtidigt öka sannolikheten för typ II-fel. I vissa fall kan det vara lämpligt att definiera separata tolkningszoner, där p-värden över en signifikanströskel inte anses vara signifikanta, p-värden under en strängare signifikanströskel anses vara signifikanta och p-värden mellan de två trösklarna anses vara ofullständiga. Alternativt kan man helt enkelt acceptera det beräknade p-värdet för vad det är – sannolikheten att få det observerade resultatet eller ett mer extremt resultat om nollhypotesen var sann – och avstå från att ytterligare tolka resultaten som ”signifikanta” eller ”icke signifikanta”. Det traditionella beroendet av ett enda tröskelvärde för att avgöra signifikans kan ge incitament till beteenden som motverkar vetenskapliga framsteg (se avsnittet Publikationsbias i kapitel 5).
Spänningar kan uppstå mellan replikerbarhet och upptäckt, närmare bestämt mellan resultatens replikerbarhet och deras nyhet. Hypoteser med låga a priori-sannolikheter är mindre sannolika att replikeras. I detta sammanhang illustrerade Wilson och Wixted (2018) hur områden som undersöker potentiellt banbrytande resultat kommer att producera resultat som i genomsnitt är mindre replikerbara än områden som undersöker mycket sannolika, nästan etablerade resultat. Faktum är att ett fält skulle kunna uppnå nästan perfekt replikerbarhet om det begränsade sina undersökningar till prosaiska fenomen som redan var välkända. Som Wilson och Wixted (2018, s. 193) konstaterar: ”Vi kan tänka oss sidor fulla av resultat som visar att människor är hungriga efter att ha missat en måltid eller att människor är sömniga efter att ha varit uppe hela natten”, vilket inte skulle vara särskilt användbart ”för att främja förståelsen av världen”. På samma sätt skulle det inte vara till hjälp för ett område att enbart fokusera på osannolika, outlandish hypoteser.
Målet med vetenskapen är inte, och borde inte vara, att alla resultat ska vara replikerbara. Rapporter om resultat som inte kan upprepas kan skapa spänning eftersom de kan tyda på eventuellt nya fenomen och utvidgning av den nuvarande kunskapen. Man förväntar sig också en viss grad av icke-replikerbarhet när forskare studerar nya fenomen som inte är väletablerade. I takt med att kunskapen om ett system eller fenomen förbättras kan man förvänta sig att replikerbarheten av studier av just det systemet eller fenomenet ökar.
Bedömning av sannolikheten för att en hypotes är korrekt, delvis baserat på de observerade resultaten, kan också göras med hjälp av Bayesiansk analys. Detta tillvägagångssätt börjar med a priori (före dataobservation) antaganden, kända som prioriska sannolikheter, och reviderar dem på grundval av de observerade data med hjälp av Bayes’ teorem, ibland beskrivet som Bayes-formeln.
Anhang D illustrerar hur ett Bayesianskt tillvägagångssätt för slutsats kan, under vissa antaganden om mekanismen för datagenerering och om hypotesens a priori-sannolikhet, använda observerade data för att skatta sannolikheten för att en hypotes är korrekt. En av de mest slående lärdomarna från Bayesiansk analys är den djupgående effekt som oddsen före experimentet har på oddsen efter experimentet. Om t.ex. den tidigare sannolikheten för en experimentell hypotes enligt de antaganden som visas i bilaga D endast var 1 procent och de erhållna resultaten var statistiskt signifikanta på p ≤ 0,01-nivån, skulle endast ungefär en av åtta slutsatser om att hypotesen var sann vara riktiga. Om den tidigare sannolikheten var så hög som 25 procent skulle mer än fyra av fem sådana studier anses vara korrekta. Som sunt förnuft skulle säga och som Bayesiansk analys kan kvantifiera, är det klokt att anta en lägre nivå av förtroende för resultaten av en studie med ett mycket oväntat och överraskande resultat än för en studie för vilken resultaten på förhand var mer rimliga (se t.ex. ruta 2-2).
ruta 2-2
Pre-experimentell sannolikhet: Ett exempel.
Högst överraskande resultat kan utgöra ett viktigt vetenskapligt genombrott, även om det är troligt att endast en minoritet av dem med tiden kan visa sig vara korrekta. Det kan vara avgörande, när det gäller exemplet i föregående stycke, att lära sig vilket av de åtta mycket oväntade resultaten (sannolikhet på förhand 1 %) som kan verifieras och vilket av de fem måttligt oväntade resultaten (sannolikhet på förhand 25 %) som bör uteslutas.
Om man håller idén om sannolikhet på förhand i minnet skulle forskning som är inriktad på att göra små framsteg för att öka den befintliga kunskapen resultera i en hög replikeringsfrekvens (dvs. en hög andel lyckade replikeringar), eftersom forskarna skulle leta efter resultat som med stor sannolikhet är korrekta. Men att göra detta skulle ha den oönskade effekten att minska sannolikheten för att göra stora nya upptäckter (Wilson och Wixted, 2018). Många viktiga framsteg inom vetenskapen har resulterat från ett djärvare tillvägagångssätt baserat på mer spekulativa hypoteser, även om denna väg också leder till återvändsgränder och till insikter som till en början verkar lovande men som inte överlever efter upprepade tester.
De ”säkra” och ”djärva” tillvägagångssätten inom vetenskapen har komplementära fördelar. Man skulle kunna hävda att ett område har blivit för konservativt om alla försök att replikera resultat är framgångsrika, men det är rimligt att förvänta sig att forskare följer upp nya men osäkra upptäckter med replikationsstudier för att reda ut vilka lovande resultat som visar sig vara korrekta. Forskare bör vara medvetna om den nivå av osäkerhet som är inneboende i spekulativa hypoteser och i överraskande resultat i en enskild studie.