Wat is homoskedastic?
Homoskedastisch (ook wel gespeld als “homoscedastisch”) verwijst naar een toestand waarin de variantie van de residu, of foutterm, in een regressiemodel constant is. Dat wil zeggen dat de foutterm niet veel varieert naarmate de waarde van de voorspellende variabele verandert. Een andere manier om dit te zeggen is dat de variantie van de datapunten voor alle datapunten ongeveer gelijk is. Dit suggereert een zekere mate van consistentie en maakt het gemakkelijker om de gegevens te modelleren en er via regressie mee te werken. Het ontbreken van homoskedasticiteit kan er echter op wijzen dat in het regressiemodel extra voorspellende variabelen moeten worden opgenomen om de prestaties van de afhankelijke variabele te verklaren.
Key Takeaways
- Homoskedasticiteit treedt op wanneer de variantie van de foutterm in een regressiemodel constant is.
- Als de variantie van de foutterm homoskedastisch is, was het model goed gedefinieerd. Als er te veel variantie is, is het model mogelijk niet goed gedefinieerd.
- Het toevoegen van extra voorspellende variabelen kan helpen de prestatie van de afhankelijke variabele te verklaren.
- Oppositief, heteroskedasticiteit treedt op wanneer de variantie van de foutterm niet constant is.
Hoe homoskedasticiteit werkt
Homoskedasticiteit is een aanname van lineaire regressiemodellering en gegevens van dit type werken goed met de kleinste kwadratenmethode. Als de variantie van de fouten rond de regressielijn veel varieert, kan het regressiemodel slecht gedefinieerd zijn. Het tegengestelde van homoskedasticiteit is heteroskedasticiteit, net zoals het tegengestelde van “homogeen” “heterogeen” is. Heteroskedasticiteit (ook wel gespeld als “heteroscedasticiteit”) verwijst naar een toestand waarin de variantie van de foutterm in een regressievergelijking niet constant is.
Wanneer men bedenkt dat variantie het gemeten verschil is tussen de voorspelde uitkomst en de werkelijke uitkomst van een bepaalde situatie, kan het bepalen van homoskedasticiteit helpen bepalen welke factoren moeten worden aangepast voor nauwkeurigheid.
Speciale overwegingen
Een eenvoudig regressiemodel, of vergelijking, bestaat uit vier termen. Aan de linkerkant staat de afhankelijke variabele. Deze staat voor het verschijnsel dat het model probeert te “verklaren”. Aan de rechterkant staan een constante, een voorspellende variabele en een residu- of foutterm. De foutterm geeft aan hoeveel variabiliteit in de afhankelijke variabele niet wordt verklaard door de voorspellende variabele.
Voorbeeld van homoskedastic
Voorbeeld: u wilt testscores van studenten verklaren aan de hand van de hoeveelheid tijd die elke student aan studie besteedt. In dat geval zouden de toetsscores de afhankelijke variabele zijn en de studietijd de voorspellende variabele.
De foutterm zou de hoeveelheid variantie in de testscores weergeven die niet wordt verklaard door de hoeveelheid studietijd. Als die variantie uniform is, of homoskedastisch, dan zou dat betekenen dat het model een adequate verklaring is voor de testprestaties – verklaard in termen van de bestede studietijd.
Maar de variantie kan heteroskedastisch zijn. Een plot van de fouttermgegevens kan laten zien dat een grote hoeveelheid studietijd zeer nauw overeenkomt met hoge testscores, maar dat de testscores met weinig studietijd sterk uiteenlopen en zelfs enkele zeer hoge scores omvatten. De variantie van de scores zou dus niet goed kunnen worden verklaard door slechts één voorspellende variabele – de hoeveelheid studietijd. In dit geval is er waarschijnlijk een andere factor aan het werk, en het model moet wellicht worden verbeterd om die te identificeren.
Verder onderzoek kan uitwijzen dat sommige studenten de antwoorden op de test van tevoren hadden gezien of dat ze eerder een soortgelijke test hadden gemaakt, en daarom niet voor deze specifieke test hoefden te studeren. Overigens kan ook blijken dat studenten verschillende niveaus van toetsvaardigheid hadden, onafhankelijk van hun studietijd en hun prestaties op eerdere toetsen, ongeacht het onderwerp.
Om het regressiemodel te verbeteren, zou de onderzoeker andere verklarende variabelen moeten uitproberen die een nauwkeuriger fit met de gegevens zouden kunnen opleveren. Als sommige studenten bijvoorbeeld de antwoorden van tevoren hadden gezien, zou het regressiemodel twee verklarende variabelen hebben: de studietijd, en of de student voorkennis had van de antwoorden. Met deze twee variabelen zou meer van de variantie van de testscores worden verklaard en de variantie van de foutterm zou dan homoskedastisch kunnen zijn, wat zou suggereren dat het model goed gedefinieerd was.