Vad är homoskedastisk?
Homoskedastisk (även stavat ”homoskedastisk”) avser ett tillstånd där variansen för residualerna, eller feltermen, i en regressionsmodell är konstant. Det vill säga, feltermen varierar inte mycket när värdet på prediktorvariabeln förändras. Ett annat sätt att säga detta är att variansen för datapunkterna är ungefär lika stor för alla datapunkter. Detta tyder på en nivå av konsistens och gör det lättare att modellera och arbeta med data genom regression. Bristen på homoskedasticitet kan dock tyda på att regressionsmodellen kan behöva inkludera ytterligare prediktorvariabler för att förklara den beroende variabelns prestanda.
Nyckelresultat
- Homoskedasticitet inträffar när variansen för feltermen i en regressionsmodell är konstant.
- Om variansen för feltermen är homoskedastisk var modellen väldefinierad. Om variansen är för stor är det möjligt att modellen inte är väldefinierad.
- Att lägga till ytterligare prediktorvariabler kan hjälpa till att förklara den beroende variabelns prestanda.
- Oppositut uppstår heteroskedasticitet när variansen i feltermen inte är konstant.
Hur homoskedasticitet fungerar
Homoskedasticitet är ett antagande för linjär regressionsmodellering och data av den här typen fungerar bra med metoden med minsta kvadrat. Om variansen för felen runt regressionslinjen varierar mycket kan regressionsmodellen vara dåligt definierad. Motsatsen till homoskedasticitet är heteroskedasticitet precis som motsatsen till ”homogen” är ”heterogen”. Heteroskedasticitet (även stavat ”heteroskedasticitet”) avser ett tillstånd där variansen för feltermen i en regressionsekvation inte är konstant.
När man betänker att variansen är den uppmätta skillnaden mellan det förutspådda utfallet och det faktiska utfallet i en viss situation, kan bestämning av homoskedasticitet hjälpa till att avgöra vilka faktorer som behöver justeras för noggrannhet.
Speciella överväganden
En enkel regressionsmodell, eller ekvation, består av fyra termer. På vänster sida finns den beroende variabeln. Den representerar det fenomen som modellen försöker ”förklara”. På höger sida finns en konstant, en prediktorvariabel och en residual- eller felterm. Feltermen visar hur stor del av variabiliteten i den beroende variabeln som inte förklaras av prediktorvariabeln.
Exempel på homoskedastisk
Antag till exempel att du vill förklara studenters provresultat med hjälp av den tid som varje student lägger på att studera. I det här fallet skulle provresultaten vara den beroende variabeln och den tid som spenderas på att studera skulle vara prediktorvariabeln.
Feltermen skulle visa hur stor del av variansen i provresultaten som inte förklaras av den tid som studerats. Om denna varians är enhetlig, eller homoskedastisk, skulle det betyda att modellen kan vara en adekvat förklaring för testresultatet – att förklara det i termer av den tid som lagts ner på studier.
Men variansen kan vara heteroskedastisk. En plott av feltermsdata kan visa att en stor mängd studietid motsvarar mycket nära höga provresultat, men att provresultat med låg studietid varierade mycket och även innehöll några mycket höga resultat. Variansen i resultaten skulle alltså inte förklaras väl av en enda prediktorvariabel – mängden studietid – utan bara av en enda prediktorvariabel. I det här fallet är det troligen någon annan faktor som spelar in, och modellen kan behöva förbättras för att identifiera den eller dem.
En ytterligare undersökning kan avslöja att vissa elever hade sett svaren på provet i förväg eller att de tidigare hade gjort ett liknande prov och därför inte behövde studera för just det här provet. För övrigt kan det bara visa sig att eleverna hade olika nivåer av förmåga att klara provet oberoende av deras studietid och deras resultat på tidigare prov, oavsett ämne.
För att förbättra regressionsmodellen skulle forskaren behöva pröva andra förklarande variabler som skulle kunna ge en mer exakt anpassning till data. Om till exempel vissa elever hade sett svaren i förväg skulle regressionsmodellen då ha två förklarande variabler: studietid och om eleven hade tidigare kunskap om svaren. Med dessa två variabler skulle en större del av variansen i testresultaten förklaras och variansen i feltermen skulle då kunna vara homoskedastisk, vilket tyder på att modellen var väldefinierad.