STATISTISCHE INFERENZ UND HYPOTHESENPRÜFUNG
Viele wissenschaftliche Studien zielen darauf ab, natürliche Phänomene zu messen, zu erklären und Vorhersagen zu treffen. Andere Studien zielen darauf ab, die Auswirkungen eines Eingriffs auf ein System zu erkennen und zu messen. Die statistische Inferenz bietet einen konzeptionellen und rechnerischen Rahmen für die Beantwortung der wissenschaftlichen Fragen in jedem Bereich. Schätzung und Hypothesentest sind weit gefasste Gruppen von Schlussfolgerungsverfahren. Schätzungen eignen sich für Situationen, in denen das Hauptziel die Bewertung der Größe einer Größe ist, wie z. B. die Messung einer physikalischen Konstante oder die Änderungsrate einer Reaktion, die einer Änderung einer erklärenden Variable entspricht. Hypothesentests eignen sich für Situationen, in denen sich das wissenschaftliche Interesse auf die mögliche Wirkung eines natürlichen Ereignisses oder einer absichtlichen Intervention konzentriert und eine Studie durchgeführt wird, um die Beweise für oder gegen diese Wirkung zu bewerten. In diesem Zusammenhang helfen Hypothesentests, binäre Fragen zu beantworten. Wächst eine Pflanze beispielsweise schneller mit Dünger A oder mit Dünger B? Lernen Kinder in kleineren Klassen besser? Wirkt ein experimentelles Medikament besser als ein Placebo? In der Wissenschaft werden verschiedene Arten speziellerer statistischer Methoden verwendet, darunter Methoden für die Planung von Studien und Methoden für die Entwicklung und Bewertung von Vorhersagealgorithmen.
Da Hypothesentests einen großen Teil der Bewertungen der Reproduzierbarkeit und Replizierbarkeit ausmachen, betrachten wir diese Art der statistischen Schlussfolgerung etwas ausführlicher. Die Überlegungen zur Reproduzierbarkeit und Replizierbarkeit gelten jedoch im Allgemeinen auch für andere Formen und Arten statistischer Schlussfolgerungen. So ist beispielsweise die Frage des Ziehens mehrerer statistischer Schlussfolgerungen aus denselben Daten für alle Hypothesentests und Schätzungen von Bedeutung.
Bei Studien, die Hypothesentests beinhalten, spielen in der Regel viele Faktoren eine Rolle, die zu Abweichungen bei den Ergebnissen führen können. Einige dieser Faktoren sind bekannt, andere sind unbekannt. Die zufällige Zuordnung von Probanden oder Testobjekten zu der einen oder anderen Vergleichsgruppe ist eine Möglichkeit, den möglichen Einfluss sowohl von nicht erkannten als auch von erkannten Variationsquellen zu kontrollieren. Die zufällige Zuweisung kann dazu beitragen, systematische Unterschiede zwischen den zu vergleichenden Gruppen zu vermeiden, hat jedoch keinen Einfluss auf die dem untersuchten System (z. B. der Bevölkerung oder einer Intervention) innewohnende Variation.
Wissenschaftler verwenden den Begriff Nullhypothese, um die Annahme zu beschreiben, dass es keinen Unterschied zwischen den beiden Interventionsgruppen oder keine Wirkung einer Behandlung auf ein gemessenes Ergebnis gibt (Fisher, 1935). Eine häufig verwendete Formulierung der Hypothesenprüfung basiert auf der Antwort auf die folgende Frage: Wenn die Nullhypothese wahr ist, wie groß ist die Wahrscheinlichkeit, einen Unterschied zu erhalten, der mindestens so groß ist wie der beobachtete Unterschied? Im Allgemeinen gilt: Je größer der beobachtete Unterschied ist, desto geringer ist die Wahrscheinlichkeit, dass ein Unterschied, der mindestens so groß ist wie der beobachtete, erzielt wird, wenn die Nullhypothese wahr ist. Diese Wahrscheinlichkeit, einen Unterschied zu erhalten, der mindestens so groß ist wie der beobachtete, wenn die Nullhypothese wahr ist, wird als „p-Wert“ bezeichnet.3 Wenn ein berechneter p-Wert kleiner als ein bestimmter Schwellenwert ist, können die Ergebnisse als statistisch signifikant betrachtet werden. Ein typischer Schwellenwert kann p ≤ 0,05 oder, strenger, p ≤ 0,01 oder p ≤ 0,005 sein.4 In einer Erklärung aus dem Jahr 2016 stellte der Vorstand der American Statistical Association (Wasserstein und Lazar, 2016, S. 129) fest:
Während der p-Wert ein nützliches statistisches Maß sein kann, wird er häufig falsch verwendet und falsch interpretiert. Dies hat dazu geführt, dass einige wissenschaftliche Zeitschriften von der Verwendung von p-Werten abraten und einige Wissenschaftler und Statistiker ihre Abschaffung empfehlen, wobei einige Argumente seit der Einführung von p-Werten im Wesentlichen unverändert sind.
In jüngerer Zeit wird argumentiert, dass p-Werte, wenn sie richtig berechnet und verstanden werden, informativ und nützlich sein können; eine Schlussfolgerung über die statistische Signifikanz auf der Grundlage eines willkürlichen Schwellenwerts für die Wahrscheinlichkeit (selbst eines bekannten wie p ≤ 0,05) ist jedoch nicht hilfreich und häufig irreführend (Wasserstein et al, 2019; Amrhein et al., 2019b).
Das Verständnis dessen, was ein p-Wert nicht darstellt, ist ebenso wichtig wie das Verständnis dessen, was er anzeigt. Insbesondere stellt der p-Wert nicht die Wahrscheinlichkeit dar, dass die Nullhypothese wahr ist. Vielmehr wird der p-Wert unter der Annahme berechnet, dass die Nullhypothese wahr ist. Die Wahrscheinlichkeit, dass die Nullhypothese wahr ist oder dass die Alternativhypothese wahr ist, kann auf Berechnungen beruhen, die zum Teil auf den beobachteten Ergebnissen beruhen, aber dies ist nicht dasselbe wie ein p-Wert.
In der wissenschaftlichen Forschung, die Hypothesen über die Auswirkungen einer Intervention beinhaltet, versuchen Forscher zwei Arten von Fehlern zu vermeiden, die zu Nicht-Wiederholbarkeit führen können:
-
Fehler des Typs I – ein falsches Positiv oder eine Ablehnung der Nullhypothese, wenn diese richtig ist
-
Fehler des Typs II – ein falsches Negativ oder die Nichtverwerfung einer falschen Nullhypothese, wodurch die Nullhypothese aufrechterhalten wird, wenn eine Alternativhypothese und nicht die Nullhypothese richtig ist
Im Idealfall würden in der Forschung sowohl Fehler des Typs I als auch des Typs II gleichzeitig reduziert werden. Beispielsweise kann die Erhöhung der statistischen Aussagekraft einer Studie durch die Erhöhung der Anzahl der Probanden in einer Studie die Wahrscheinlichkeit eines Fehlers vom Typ II bei einer gegebenen Wahrscheinlichkeit eines Fehlers vom Typ I verringern.5 Obwohl die Zunahme der Daten, die mit Studien mit höherer Aussagekraft einhergeht, dazu beitragen kann, sowohl Fehler vom Typ I als auch vom Typ II zu verringern, bedeutet die Hinzufügung von mehr Probanden in der Regel mehr Zeit und Kosten für eine Studie.
Forscher sind oft gezwungen, Kompromisse zu schließen, bei denen die Verringerung der Wahrscheinlichkeit einer Fehlerart die Wahrscheinlichkeit der anderen erhöht. Wenn beispielsweise p-Werte als nützlich erachtet werden, können Fehler vom Typ I minimiert werden, indem die Signifikanzschwelle auf ein strengeres Niveau gesenkt wird (z. B. indem der Standardwert p ≤ 0,05 auf p ≤ 0,005 gesenkt wird). Dies würde jedoch gleichzeitig die Wahrscheinlichkeit eines Fehlers vom Typ II erhöhen. In einigen Fällen kann es sinnvoll sein, getrennte Interpretationsbereiche zu definieren, in denen p-Werte oberhalb einer Signifikanzschwelle als nicht signifikant, p-Werte unterhalb einer strengeren Signifikanzschwelle als signifikant und p-Werte zwischen den beiden Schwellen als nicht schlüssig gelten. Alternativ könnte man den berechneten p-Wert einfach als das akzeptieren, was er ist – die Wahrscheinlichkeit, das beobachtete Ergebnis oder ein noch extremeres Ergebnis zu erhalten, wenn die Nullhypothese wahr wäre – und von einer weiteren Interpretation der Ergebnisse als „signifikant“ oder „nicht signifikant“ absehen. Der traditionelle Rückgriff auf einen einzigen Schwellenwert zur Bestimmung der Signifikanz kann Verhaltensweisen fördern, die dem wissenschaftlichen Fortschritt zuwiderlaufen (siehe den Abschnitt „Publication Bias“ in Kapitel 5).
Es kann zu Spannungen zwischen Replizierbarkeit und Entdeckung kommen, insbesondere zwischen der Replizierbarkeit und der Neuartigkeit der Ergebnisse. Hypothesen mit geringer A-priori-Wahrscheinlichkeit werden mit geringerer Wahrscheinlichkeit repliziert. In diesem Sinne haben Wilson und Wixted (2018) veranschaulicht, dass Bereiche, die potenziell bahnbrechende Ergebnisse untersuchen, im Durchschnitt weniger replizierbare Ergebnisse hervorbringen als Bereiche, die sehr wahrscheinliche, fast etablierte Ergebnisse untersuchen. Tatsächlich könnte ein Bereich eine nahezu perfekte Replizierbarkeit erreichen, wenn er seine Untersuchungen auf prosaische Phänomene beschränkt, die bereits gut bekannt sind. Wie Wilson und Wixted (2018, S. 193) feststellen, „können wir uns Seiten voller Ergebnisse vorstellen, dass Menschen hungrig sind, nachdem sie eine Mahlzeit verpasst haben, oder dass Menschen schläfrig sind, nachdem sie die ganze Nacht wach geblieben sind“, was nicht sehr hilfreich wäre, „um das Verständnis der Welt voranzubringen.“ Genauso wenig wäre es hilfreich, wenn sich ein Fachgebiet ausschließlich auf unwahrscheinliche, ausgefallene Hypothesen konzentrieren würde.
Das Ziel der Wissenschaft ist es nicht und sollte es auch nicht sein, dass alle Ergebnisse replizierbar sind. Berichte über nicht replizierbare Ergebnisse können für Aufregung sorgen, da sie möglicherweise auf neue Phänomene und die Erweiterung des derzeitigen Wissens hinweisen. Außerdem wird ein gewisses Maß an Nicht-Replizierbarkeit erwartet, wenn Wissenschaftler neue Phänomene untersuchen, die noch nicht gut erforscht sind. Wenn sich das Wissen über ein System oder ein Phänomen verbessert, ist zu erwarten, dass die Reproduzierbarkeit von Studien über dieses bestimmte System oder Phänomen zunimmt.
Die Bewertung der Wahrscheinlichkeit, dass eine Hypothese zum Teil auf der Grundlage der beobachteten Ergebnisse richtig ist, kann auch durch eine Bayes’sche Analyse erfolgen. Dieser Ansatz geht von a priori (vor der Datenbeobachtung) getroffenen Annahmen aus, die als Vorwahrscheinlichkeiten bekannt sind, und revidiert diese auf der Grundlage der beobachteten Daten unter Verwendung des Bayes-Theorems, das manchmal als Bayes-Formel bezeichnet wird.
Anhang D veranschaulicht, wie ein Bayes’scher Ansatz für Schlussfolgerungen unter bestimmten Annahmen über den Mechanismus der Datenerzeugung und über die a priori-Wahrscheinlichkeit der Hypothese beobachtete Daten verwenden kann, um die Wahrscheinlichkeit zu schätzen, dass eine Hypothese richtig ist. Eine der auffälligsten Lehren aus der Bayes’schen Analyse ist die tiefgreifende Auswirkung, die die präexperimentelle Wahrscheinlichkeit auf die postexperimentelle Wahrscheinlichkeit hat. Wenn beispielsweise unter den in Anhang D dargestellten Annahmen die Vorwahrscheinlichkeit einer Versuchshypothese nur 1 % beträgt und die erzielten Ergebnisse auf dem Niveau p ≤ 0,01 statistisch signifikant sind, wäre nur etwa eine von acht Schlussfolgerungen, dass die Hypothese richtig ist, richtig. Bei einer Wahrscheinlichkeit von 25 % würden mehr als vier von fünf solcher Studien als richtig erachtet werden. Wie der gesunde Menschenverstand gebietet und die Bayes’sche Analyse quantifizieren kann, ist es ratsam, ein geringeres Maß an Vertrauen in die Ergebnisse einer Studie mit einem höchst unerwarteten und überraschenden Ergebnis anzunehmen als in eine Studie, deren Ergebnisse a priori plausibler waren (siehe z. B. Kasten 2-2).
Kasten 2-2
Präexperimentelle Wahrscheinlichkeit: Ein Beispiel.
Hochgradig überraschende Ergebnisse können einen wichtigen wissenschaftlichen Durchbruch darstellen, auch wenn sich wahrscheinlich nur eine Minderheit von ihnen im Laufe der Zeit als richtig erweisen wird. Im Sinne des Beispiels im vorigen Absatz kann es entscheidend sein, zu erfahren, welche der acht höchst unerwarteten Ergebnisse (Vorwahrscheinlichkeit 1 %) verifiziert werden können und welche der fünf mäßig unerwarteten Ergebnisse (Vorwahrscheinlichkeit 25 %) außer Acht gelassen werden sollten.
Wenn man sich die Idee der Vorwahrscheinlichkeit vor Augen hält, würde eine Forschung, die sich darauf konzentriert, kleine Fortschritte im bestehenden Wissen zu erzielen, zu einer hohen Replikationsrate (d. h. einer hohen Rate erfolgreicher Replikationen) führen, da die Forscher nach Ergebnissen suchen würden, die sehr wahrscheinlich richtig sind. Dies hätte jedoch den unerwünschten Effekt, dass die Wahrscheinlichkeit, wichtige neue Entdeckungen zu machen, sinken würde (Wilson und Wixted, 2018). Viele wichtige Fortschritte in der Wissenschaft sind das Ergebnis eines kühneren Ansatzes, der auf spekulativeren Hypothesen beruht, obwohl dieser Weg auch in Sackgassen und zu Erkenntnissen führt, die zunächst vielversprechend erscheinen, sich aber nach wiederholten Tests nicht bewähren.
Die „sicheren“ und „kühnen“ Ansätze in der Wissenschaft haben komplementäre Vorteile. Man könnte argumentieren, dass ein Gebiet zu konservativ geworden ist, wenn alle Versuche, Ergebnisse zu wiederholen, erfolgreich sind, aber es ist vernünftig zu erwarten, dass Forscher neuen, aber unsicheren Entdeckungen mit Wiederholungsstudien nachgehen, um herauszufinden, welche vielversprechenden Ergebnisse sich als richtig erweisen. Wissenschaftler sollten sich des Grades an Unsicherheit bewusst sein, der spekulativen Hypothesen und überraschenden Ergebnissen in jeder einzelnen Studie innewohnt.