Homoscédastique
Qu’est-ce que Homoskedastic?
Homoscédastique (également orthographié «homoscédastique») fait référence à une condition dans laquelle la variance du résidu, ou terme d’erreur, dans un modèle de régression est constante. Autrement dit, le terme d’erreur ne varie pas beaucoup à mesure que la valeur de la variable prédictive change. Une autre façon de dire cela est que la variance des points de données est à peu près la même pour tous les points de données. Cela suggère un niveau de cohérence et facilite la modélisation et l’utilisation des données par régression. Cependant, le manque d’homoscédasticité peut suggérer que le modèle de régression devra peut-être inclure des variables prédictives supplémentaires pour expliquer la performance de la variable dépendante.
Points clés à retenir
- L’homoscédasticité se produit lorsque la variance du terme d’erreur dans un modèle de régression est constante.
- Si la variance du terme d’erreur est homoscédastique, le modèle était bien défini. S’il y a trop de variance, le modèle peut ne pas être bien défini.
- L’ajout de variables prédictives supplémentaires peut aider à expliquer les performances de la variable dépendante.
- À l’opposé, l’hétéroscédasticité se produit lorsque la variance du terme d’erreur n’est pas constante.
Comment fonctionne l’homoscédasticité
L’homoscédasticité est une hypothèse de la modélisation de régression linéaire et les données de ce type fonctionnent bien avec la méthode des moindres carrés. Si la variance des erreurs autour de la droite de régression varie beaucoup, le modèle de régression peut être mal défini. Le contraire de l’homoscédasticité est l’hétéroscédasticité, tout comme le contraire de «homogène» est «hétérogène». L’ hétéroscédasticité (également orthographiée «hétéroscédasticité») fait référence à une condition dans laquelle la variance du terme d’erreur dans une équation de régression n’est pas constante.
Lorsque l’on considère que la variance est la différence mesurée entre le résultat prévu et le résultat réel d’une situation donnée, la détermination de l’homoscédasticité peut aider à déterminer quels facteurs doivent être ajustés pour l’exactitude.
Considérations particulières
Un modèle de régression simple, ou équation, se compose de quatre termes. Sur le côté gauche se trouve la variable dépendante. Il représente le phénomène que le modèle cherche à «expliquer». Sur le côté droit se trouvent une constante, une variable prédictive et un terme résiduel ou d’erreur. Le terme d’erreur indique le degré de variabilité de la variable dépendante qui n’est pas expliqué par la variable prédictive.
Exemple d’homoscédastique
Par exemple, supposons que vous vouliez expliquer les résultats des tests des élèves en utilisant le temps que chaque élève a passé à étudier. Dans ce cas, les scores aux tests seraient la variable dépendante et le temps passé à étudier serait la variable prédictive.
Le terme d’erreur montrerait la quantité de variance dans les scores de test qui n’a pas été expliquée par le temps d’étude. Si cette variance est uniforme ou homoscédastique, cela suggérerait que le modèle pourrait être une explication adéquate de la performance du test – l’expliquant en termes de temps passé à étudier.
Mais la variance peut être hétéroscédastique. Un graphique des données sur les termes d’erreur peut montrer qu’une grande quantité de temps d’étude correspondait très étroitement à des scores élevés aux tests, mais que les scores aux tests à faible durée d’étude variaient considérablement et comprenaient même des scores très élevés. Ainsi, la variance des scores ne serait pas bien expliquée simplement par une variable prédictive – le temps passé à étudier. Dans ce cas, un autre facteur est probablement à l’œuvre et le modèle devra peut-être être amélioré afin de l’identifier ou de les identifier.
Une enquête plus approfondie peut révéler que certains étudiants avaient vu les réponses au test à l’avance ou qu’ils avaient déjà passé un test similaire et qu’ils n’avaient donc pas besoin d’étudier pour ce test particulier. D’ailleurs, il se peut que les étudiants aient différents niveaux de capacité de réussite aux tests indépendamment de leur temps d’étude et de leurs performances aux tests précédents, quelle que soit la matière.
Pour améliorer le modèle de régression, le chercheur devrait essayer d’autres variables explicatives qui pourraient fournir un ajustement plus précis aux données. Si, par exemple, certains élèves avaient vu les réponses à l’avance, le modèle de régression aurait alors deux variables explicatives: le temps passé à étudier et si l’élève avait une connaissance préalable des réponses. Avec ces deux variables, une plus grande partie de la variance des scores de test serait expliquée et la variance du terme d’erreur pourrait alors être homoscédastique, suggérant que le modèle était bien défini.