Facteur d’inflation de variance (VIF)
Qu’est-ce qu’un facteur d’inflation de variance (VIF)?
Le facteur d’inflation de variance (VIF) est une mesure de la quantité de multicolinéarité dans un ensemble de variables de régression multiples . Mathématiquement, le VIF pour une variable de modèle de régression est égal au rapport de la variance globale du modèle à la variance d’un modèle qui n’inclut que cette seule variable indépendante. Ce ratio est calculé pour chaque variable indépendante. Un VIF élevé indique que la variable indépendante associée est fortement colinéaire avec les autres variables du modèle.
Points clés à retenir
- Un facteur d’inflation de variance (VIF) fournit une mesure de la multicolinéarité parmi les variables indépendantes dans un modèle de régression multiple.
- La détection de la multicolinéarité est importante car si la multicolinéarité ne réduit pas le pouvoir explicatif du modèle, elle réduit la signification statistique des variables indépendantes.
- Un facteur d’inflation à grande variance (VIF) sur une variable indépendante indique une relation hautement colinéaire avec les autres variables qui devraient être prises en compte ou ajustées dans la structure du modèle et la sélection des variables indépendantes.
Comprendre un facteur d’inflation de variance (VIF)
Un facteur d’inflation de variance est un outil permettant d’identifier le degré de multicolinéarité. Une régression multiple est utilisée lorsqu’une personne souhaite tester l’effet de plusieurs variables sur un résultat particulier. La variable dépendante est le résultat sur lequel agissent les variables indépendantes – les entrées dans le modèle. La multicollinéarité existe lorsqu’il existe une relation linéaire, ou corrélation, entre une ou plusieurs des variables ou entrées indépendantes.
La multicolinéarité crée un problème dans la régression multiple car les entrées s’influencent toutes les unes les autres. Par conséquent, ils ne sont pas réellement indépendants et il est difficile de tester dans quelle mesure la combinaison des variables indépendantes affecte la variable dépendante, ou résultat, dans le modèle de régression. En termes statistiques, un modèle de régression multiple où la multicolinéarité est élevée rendra plus difficile l’estimation de la relation entre chacune des variables indépendantes et la variable dépendante. De petits changements dans les données utilisées ou dans la structure de l’équation du modèle peuvent produire des changements importants et erratiques dans les coefficients estimés sur les variables indépendantes.
Pour garantir que le modèle est correctement spécifié et fonctionne correctement, il existe des tests qui peuvent être exécutés pour la multicolinéarité. Le facteur d’inflation de la variance est l’un de ces outils de mesure. L’utilisation de facteurs d’inflation de variance permet d’identifier la gravité de tout problème de multicolinéarité afin que le modèle puisse être ajusté. Le facteur d’inflation de la variance mesure dans quelle mesure le comportement (variance) d’une variable indépendante est influencé, ou gonflé, par son interaction / corrélation avec les autres variables indépendantes. Les facteurs d’inflation de la variance permettent de mesurer rapidement dans quelle mesure une variable contribue à l’ erreur-type dans la régression. Lorsque des problèmes importants de multicolinéarité existent, le facteur d’inflation de la variance sera très important pour les variables impliquées. Une fois ces variables identifiées, plusieurs approches peuvent être utilisées pour éliminer ou combiner des variables colinéaires, résolvant ainsi le problème de multicolinéarité.
Considérations particulières
Multicollinéarité
Bien que la multicolinéarité ne réduit pas le pouvoir prédictif global d’un modèle, elle peut produire des estimations des coefficients de régression qui ne sont pas statistiquement significatives. En un sens, cela peut être considéré comme une sorte de double comptage dans le modèle. Lorsque deux ou plusieurs variables indépendantes sont étroitement liées ou mesurent presque la même chose, alors l’effet sous-jacent qu’elles mesurent est comptabilisé deux fois (ou plus) pour les variables. Il devient difficile voire impossible de dire quelle variable influence réellement la variable indépendante. C’est un problème car le but de nombreux modèles économétriques est de tester exactement ce type de relation statistique entre les variables indépendantes et la variable dépendante.
Par exemple, supposons qu’un économiste veuille tester s’il existe une relation statistiquement significative entre le taux de chômage (variable indépendante) et le taux d’inflation (variable dépendante). L’inclusion de variables indépendantes supplémentaires liées au taux de chômage, de telles nouvelles demandes initiales de chômage, serait susceptible d’introduire une multicolinéarité dans le modèle. Le modèle global peut montrer un pouvoir explicatif fort et statistiquement suffisant, mais il est impossible de déterminer si l’effet est principalement dû au taux de chômage ou aux nouvelles demandes de chômage initiales. C’est ce que le VIF détecterait, et il suggérerait éventuellement de supprimer l’une des variables du modèle ou de trouver un moyen de les consolider pour capturer leur effet conjoint en fonction de l’hypothèse spécifique que le chercheur souhaite tester.