Mi az a homoszkedasztikus?
A homoszkedasztikus (más írásmóddal “homoszkedasztikus”) olyan állapotra utal, amikor egy regressziós modellben a reziduum vagy hibatermek szórása állandó. Ez azt jelenti, hogy a hibaterm nem változik nagymértékben, ahogy a prediktor változó értéke változik. Másképpen úgy is mondhatjuk, hogy az adatpontok varianciája minden adatpont esetében nagyjából azonos. Ez egyfajta állandóságot sugall, és megkönnyíti az adatok regresszióval történő modellezését és feldolgozását. A homoszkedaszticitás hiánya azonban arra utalhat, hogy a regressziós modellnek esetleg további prediktorváltozókat kell tartalmaznia a függő változó teljesítményének magyarázatához.
Key Takeaways
- Homoszkedaszticitás akkor fordul elő, ha a hibaterminus szórása a regressziós modellben állandó.
- Ha a hibatermin szórása homoszkedasztikus, akkor a modell jól definiált volt. Ha túl nagy a variancia, akkor a modell nem biztos, hogy jól definiált.
- További prediktorváltozók hozzáadása segíthet megmagyarázni a függő változó teljesítményét.
- A heteroszkedaszticitás akkor fordul elő, ha a hibatermin szórása nem állandó.
Hogyan működik a homoszkedaszticitás
A homoszkedaszticitás a lineáris regressziós modellezés egyik feltételezése, és az ilyen típusú adatok jól működnek a legkisebb négyzetek módszerével. Ha a hibák szórása a regressziós egyenes körül nagymértékben változik, a regressziós modell rosszul definiált lehet. A homoszkedaszticitás ellentéte a heteroszkedaszticitás, ahogy a “homogén” ellentéte a “heterogén”. A heteroszkedaszticitás (más írásmóddal “heteroszkedaszticitás”) olyan állapotra utal, amikor a regressziós egyenlet hibatermének szórása nem állandó.
Ha figyelembe vesszük, hogy a variancia az előre jelzett eredmény és az adott helyzet tényleges kimenetele közötti mért különbség, a homoszkedaszticitás meghatározása segíthet annak meghatározásában, hogy mely tényezőket kell kiigazítani a pontosság érdekében.
Speciális megfontolások
Egy egyszerű regressziós modell vagy egyenlet négy kifejezésből áll. A bal oldalon található a függő változó. Ez jelenti azt a jelenséget, amelyet a modell “meg akar magyarázni”. A jobb oldalon egy konstans, egy prediktor változó és egy reziduális vagy hiba kifejezés található. A hibaterm a függő változó azon változékonyságának mértékét mutatja, amelyet a prediktor változó nem magyaráz.
Példa a homoszkedasztikusra
Tegyük fel például, hogy a diákok teszteredményeit az egyes diákok tanulásra fordított idejével szeretnénk magyarázni. Ebben az esetben a teszteredmények lennének a függő változó, a tanulásra fordított idő pedig a prediktor változó.
A hiba kifejezés a teszteredmények azon varianciáját mutatná, amelyet nem magyarázott meg a tanulásra fordított idő. Ha ez a variancia egyenletes vagy homoszkedasztikus, akkor ez arra utalna, hogy a modell megfelelő magyarázatot adhat a tesztteljesítményre – a tanulásra fordított idővel magyarázva.
A variancia azonban heteroszkedasztikus is lehet. A hibafüggvény adatainak ábrázolása azt mutathatja, hogy a nagy mennyiségű tanulási idő nagyon szorosan megfelelt a magas teszteredményeknek, de az alacsony tanulási idővel elért teszteredmények széles skálán szóródtak, és még néhány nagyon magas eredményt is tartalmaznak. Tehát a pontszámok szórása nem lenne jól magyarázható pusztán egyetlen prediktív változóval – a tanulással töltött idő mennyiségével. Ebben az esetben valószínűleg valamilyen más tényező is szerepet játszik, és a modellt tovább kell fejleszteni annak vagy azoknak az azonosításához.
A további vizsgálatok során kiderülhet, hogy néhány diák előre látta a tesztre adott válaszokat, vagy hogy korábban már írtak egy hasonló tesztet, és ezért nem kellett tanulniuk erre a konkrét tesztre. Ha már itt tartunk, az is kiderülhet, hogy a tanulási időtől és a korábbi teszteken nyújtott teljesítményüktől függetlenül, tantárgytól függetlenül a diákok különböző szintű teszten való megfelelési képességekkel rendelkeztek.
A regressziós modell javításához a kutatónak ki kellene próbálnia más magyarázó változókat, amelyek pontosabb illeszkedést biztosíthatnának az adatokhoz. Ha például néhány diák előre látta volna a válaszokat, akkor a regressziós modellnek két magyarázó változója lenne: a tanulásra fordított idő és az, hogy a diák előzetesen ismerte-e a válaszokat. Ezzel a két változóval a teszteredmények varianciájának nagyobb része magyarázható lenne, és a hibaterminus varianciája ekkor homoszkedasztikus lenne, ami arra utalna, hogy a modell jól definiált.