Was ist homoskedastisch?
Homoskedastisch (auch „homoskedastisch“) bezeichnet eine Bedingung, bei der die Varianz des Residuums bzw. des Fehlerterms in einem Regressionsmodell konstant ist. Das heißt, der Fehlerterm ändert sich nur wenig, wenn sich der Wert der Vorhersagevariable ändert. Man kann auch sagen, dass die Varianz der Datenpunkte für alle Datenpunkte ungefähr gleich ist. Dies deutet auf ein gewisses Maß an Konsistenz hin und erleichtert die Modellierung und die Arbeit mit den Daten durch Regression. Das Fehlen von Homoskedastizität kann jedoch darauf hindeuten, dass das Regressionsmodell zusätzliche Prädiktorvariablen enthalten muss, um die Leistung der abhängigen Variable zu erklären.
Key Takeaways
- Homoskedastizität tritt auf, wenn die Varianz des Fehlerterms in einem Regressionsmodell konstant ist.
- Ist die Varianz des Fehlerterms homoskedastisch, war das Modell gut definiert. Wenn die Varianz zu groß ist, ist das Modell möglicherweise nicht gut definiert.
- Das Hinzufügen zusätzlicher Prädiktorvariablen kann dazu beitragen, die Leistung der abhängigen Variable zu erklären.
- Oppositiv tritt Heteroskedastizität auf, wenn die Varianz des Fehlerterms nicht konstant ist.
Wie Homoskedastizität funktioniert
Homoskedastizität ist eine Annahme der linearen Regressionsmodellierung, und Daten dieser Art funktionieren gut mit der Methode der kleinsten Quadrate. Wenn die Varianz der Fehler um die Regressionslinie herum stark schwankt, kann das Regressionsmodell schlecht definiert sein. Das Gegenteil von Homoskedastizität ist Heteroskedastizität, so wie das Gegenteil von „homogen“ „heterogen“ ist. Heteroskedastizität (auch „Heteroskedastizität“ genannt) bezieht sich auf einen Zustand, in dem die Varianz des Fehlerterms in einer Regressionsgleichung nicht konstant ist.
Wenn man bedenkt, dass die Varianz die gemessene Differenz zwischen dem vorhergesagten Ergebnis und dem tatsächlichen Ergebnis einer bestimmten Situation ist, kann die Bestimmung der Homoskedastizität dabei helfen, festzustellen, welche Faktoren für die Genauigkeit angepasst werden müssen.
Besondere Überlegungen
Ein einfaches Regressionsmodell oder eine Gleichung besteht aus vier Termen. Auf der linken Seite steht die abhängige Variable. Sie stellt das Phänomen dar, das das Modell zu „erklären“ versucht. Auf der rechten Seite befinden sich eine Konstante, eine Vorhersagevariable und ein Rest- oder Fehlerterm. Der Fehlerterm gibt den Anteil der Variabilität in der abhängigen Variable an, der nicht durch die Vorhersagevariable erklärt wird.
Beispiel für Homoskedastik
Angenommen, Sie möchten die Testergebnisse von Studenten anhand der Zeit erklären, die jeder Student mit Lernen verbracht hat. In diesem Fall wären die Testergebnisse die abhängige Variable und die für das Lernen aufgewendete Zeit wäre die Vorhersagevariable.
Der Fehlerterm würde den Anteil der Varianz in den Testergebnissen angeben, der nicht durch den Zeitaufwand für das Lernen erklärt wurde. Wenn diese Varianz gleichmäßig oder homoskedastisch ist, dann würde dies darauf hindeuten, dass das Modell eine angemessene Erklärung für die Testleistung darstellt – sie wird durch die aufgewendete Lernzeit erklärt.
Die Varianz kann aber auch heteroskedastisch sein. Ein Diagramm der Fehlertermdaten könnte zeigen, dass ein großer Anteil an Studienzeit sehr eng mit hohen Testergebnissen korrespondiert, dass aber die Testergebnisse mit geringer Studienzeit stark variieren und sogar einige sehr hohe Ergebnisse enthalten. Die Varianz der Ergebnisse ließe sich also nicht einfach durch eine Prädiktorvariable – die Lernzeit – gut erklären. In diesem Fall ist wahrscheinlich ein anderer Faktor im Spiel, und das Modell muss möglicherweise erweitert werden, um ihn oder sie zu identifizieren.
Weitere Untersuchungen könnten ergeben, dass einige Schüler die Antworten auf den Test im Voraus kannten oder dass sie zuvor einen ähnlichen Test abgelegt hatten und daher für diesen speziellen Test nicht zu lernen brauchten. Es könnte sich auch herausstellen, dass die Schüler unabhängig von ihrer Lernzeit und ihren Leistungen in früheren Tests, unabhängig vom Fach, unterschiedlich gut in der Lage waren, den Test zu bestehen.
Um das Regressionsmodell zu verbessern, müsste der Forscher andere erklärende Variablen ausprobieren, die eine genauere Anpassung an die Daten ermöglichen könnten. Wenn zum Beispiel einige Schüler die Antworten im Voraus gesehen haben, hätte das Regressionsmodell zwei erklärende Variablen: die Zeit, die sie zum Lernen brauchen, und die Frage, ob der Schüler die Antworten bereits kennt. Mit diesen beiden Variablen würde ein größerer Teil der Varianz der Testergebnisse erklärt werden, und die Varianz des Fehlerterms könnte dann homoskedastisch sein, was darauf hindeutet, dass das Modell gut definiert ist.