Régression pas à pas
Qu’est-ce que la régression pas à pas?
La régression pas à pas est la construction itérative étape par étape d’un modèle de régression qui implique la sélection de variables indépendantes à utiliser dans un modèle final. Il s’agit d’ajouter ou de supprimer successivement des variables explicatives potentielles et de tester la signification statistique après chaque itération.
La disponibilité de progiciels statistiques rend possible la régression par étapes, même dans les modèles comportant des centaines de variables.
Points clés à retenir
- La régression pas à pas est une méthode qui examine de manière itérative la signification statistique de chaque variable indépendante dans un modèle de régression linéaire.
- L’approche de sélection directe commence par rien et ajoute chaque nouvelle variable de manière incrémentielle, en testant la signification statistique.
- La méthode d’élimination vers l’arrière commence avec un modèle complet chargé avec plusieurs variables, puis supprime une variable pour tester son importance par rapport aux résultats globaux.
- La régression pas à pas a cependant ses inconvénients, car il s’agit d’une approche qui ajuste les données dans un modèle pour obtenir le résultat souhaité.
Types de régression pas à pas
L’objectif sous-jacent de la régression pas à pas est, à travers une série de tests (par exemple tests F, tests t ), de trouver un ensemble de variables indépendantes qui influencent de manière significative la variable dépendante. Cela se fait avec des ordinateurs par itération, qui consiste à arriver à des résultats ou à des décisions en passant par des cycles répétés ou des cycles d’analyse. La réalisation automatique de tests à l’aide de progiciels statistiques présente l’avantage de gagner du temps et de limiter les erreurs.
La régression pas à pas peut être obtenue soit en essayant une variable indépendante à la fois et en l’incluant dans le modèle de régression si elle est statistiquement significative, soit en incluant toutes les variables indépendantes potentielles dans le modèle et en éliminant celles qui ne sont pas statistiquement significatives. Certains utilisent une combinaison des deux méthodes et, par conséquent, il existe trois approches de la régression par étapes:
- La sélection directe commence sans aucune variable dans le modèle, teste chaque variable au fur et à mesure qu’elle est ajoutée au modèle, puis conserve celles qui sont considérées comme les plus statistiquement significatives – en répétant le processus jusqu’à ce que les résultats soient optimaux.
- L’élimination en amont commence par un ensemble de variables indépendantes, en supprimant une à la fois, puis en testant pour voir si la variable supprimée est statistiquement significative.
- L’élimination bidirectionnelle est une combinaison des deux premières méthodes qui testent les variables à inclure ou à exclure.
Exemple
Un exemple de régression par étapes utilisant la méthode d’élimination rétrograde serait une tentative de comprendre la consommation d’énergie dans une usine à l’aide de variables telles que la durée de fonctionnement de l’équipement, l’âge de l’équipement, la taille du personnel, les températures extérieures et la période de l’année. Le modèle inclut toutes les variables – puis chacune est supprimée, une à la fois, pour déterminer laquelle est la moins statistiquement significative. En fin de compte, le modèle pourrait montrer que la période de l’année et les températures sont les plus importantes, ce qui suggère peut-être que la consommation d’énergie de pointe à l’usine est lorsque l’utilisation du climatiseur est à son maximum.
Limitations de la régression pas à pas
L’analyse de régression, à la fois ratios cours / bénéfices et les rendements des actions sur de nombreuses années pour déterminer si les actions à faible ratio P / E (variable indépendante) offrent des rendements plus élevés (variable dépendante). Le problème avec cette approche est que les conditions du marché changent souvent et que les relations qui ont existé dans le passé ne sont pas nécessairement vraies dans le présent ou le futur.
Pendant ce temps, le processus de régression par étapes a de nombreux critiques et il y a même des appels à cesser complètement d’utiliser la méthode. Les statisticiens notent plusieurs inconvénients de l’approche, notamment des résultats incorrects, un biais inhérent au processus lui-même et la nécessité d’une puissance de calcul significative pour développer des modèles de régression complexes par itération.