Qu’est-ce que l’homoscédastique ?
L’homoscédastique (également orthographié » homoscédastique « ) désigne une condition dans laquelle la variance du résidu, ou terme d’erreur, dans un modèle de régression est constante. Autrement dit, le terme d’erreur ne varie pas beaucoup lorsque la valeur de la variable prédictive change. Une autre façon de dire cela est que la variance des points de données est à peu près la même pour tous les points de données. Cela suggère un niveau de cohérence et facilite la modélisation et le travail avec les données par régression. Cependant, l’absence d’homoscédasticité peut suggérer que le modèle de régression doit inclure des variables prédictives supplémentaires pour expliquer la performance de la variable dépendante.
Key Takeaways
- L’homoscédasticité se produit lorsque la variance du terme d’erreur dans un modèle de régression est constante.
- Si la variance du terme d’erreur est homoscédastique, le modèle était bien défini. S’il y a trop de variance, le modèle peut ne pas être bien défini.
- L’ajout de variables prédictives supplémentaires peut aider à expliquer la performance de la variable dépendante.
- L’hétéroscédasticité se produit lorsque la variance du terme d’erreur n’est pas constante.
Comment fonctionne l’homoscédasticité
L’homoscédasticité est une hypothèse de la modélisation de la régression linéaire et les données de ce type fonctionnent bien avec la méthode des moindres carrés. Si la variance des erreurs autour de la droite de régression varie beaucoup, le modèle de régression peut être mal défini. L’opposé de l’homoscédasticité est l’hétéroscédasticité, tout comme l’opposé de « homogène » est « hétérogène ». L’hétéroscédasticité (également orthographiée « hétéroscédasticité ») désigne une condition dans laquelle la variance du terme d’erreur dans une équation de régression n’est pas constante.
Si l’on considère que la variance est la différence mesurée entre le résultat prédit et le résultat réel d’une situation donnée, la détermination de l’homoscédasticité peut aider à déterminer quels facteurs doivent être ajustés pour la précision.
Préoccupations particulières
Un modèle de régression simple, ou équation, se compose de quatre termes. Sur le côté gauche se trouve la variable dépendante. Elle représente le phénomène que le modèle cherche à « expliquer ». Sur le côté droit se trouvent une constante, une variable prédictive et un résidu, ou terme d’erreur. Le terme d’erreur indique la quantité de variabilité de la variable dépendante qui n’est pas expliquée par la variable prédicteur.
Exemple d’homoscédasticité
Par exemple, supposons que vous vouliez expliquer les résultats des tests des élèves en utilisant le temps que chaque élève a passé à étudier. Dans ce cas, les résultats des tests seraient la variable dépendante et le temps passé à étudier serait la variable prédictive.
Le terme d’erreur montrerait la quantité de variance dans les notes de test qui n’est pas expliquée par le temps passé à étudier. Si cette variance est uniforme, ou homoscédastique, alors cela suggérerait que le modèle peut être une explication adéquate de la performance au test – l’expliquer en termes de temps passé à étudier.
Mais la variance peut être hétéroscédastique. Un tracé des données du terme d’erreur peut montrer qu’une grande quantité de temps d’étude correspond très étroitement à des scores de test élevés, mais que les scores de test à faible temps d’étude varient considérablement et comprennent même des scores très élevés. La variance des résultats ne serait donc pas bien expliquée par une seule variable prédictive, à savoir le temps passé à étudier. Dans ce cas, un autre facteur est probablement à l’œuvre, et il faudra peut-être améliorer le modèle afin de l’identifier ou de les identifier.
Une enquête plus poussée pourrait révéler que certains étudiants avaient vu les réponses du test à l’avance ou qu’ils avaient déjà passé un test similaire, et qu’ils n’avaient donc pas besoin d’étudier pour ce test particulier. D’ailleurs, il peut simplement s’avérer que les élèves avaient différents niveaux de capacités de réussite aux tests, indépendamment de leur temps d’étude et de leurs performances aux tests précédents, quelle que soit la matière.
Pour améliorer le modèle de régression, le chercheur devrait essayer d’autres variables explicatives qui pourraient fournir un ajustement plus précis aux données. Si, par exemple, certains élèves avaient vu les réponses à l’avance, le modèle de régression aurait alors deux variables explicatives : le temps d’étude et le fait que l’élève ait eu une connaissance préalable des réponses. Avec ces deux variables, une plus grande partie de la variance des résultats du test serait expliquée et la variance du terme d’erreur pourrait alors être homoscédastique, ce qui suggère que le modèle est bien défini.