18 avril 2021 5:27

Création d’un modèle de régression linéaire dans Excel

Qu’est-ce que la régression linéaire?

La régression linéaire est un graphique de données qui trace la relation linéaire  entre une variable indépendante et une variable dépendante. Il est généralement utilisé pour montrer visuellement la force de la relation et la dispersion des résultats – le tout dans le but d’expliquer le comportement de la variable dépendante.

Disons que nous voulions tester la force de la relation entre la quantité de crème glacée consommée et l’obésité. Nous prendrions la variable indépendante, la quantité de crème glacée, et la lierions à la variable dépendante, l’obésité, pour voir s’il y avait une relation. Étant donné qu’une régression est un affichage graphique de cette relation, plus la variabilité des données est faible, plus la relation est forte et plus l’ajustement à la droite de régression est serré.

Points clés à retenir

  • La régression linéaire modélise la relation entre une ou plusieurs variables dépendantes et indépendantes.
  • L’analyse de régression peut être réalisée si les variables sont indépendantes, s’il n’y a pas d’hétéroscédasticité et si les termes d’erreur des variables ne sont pas corrélés.
  • La modélisation de la régression linéaire dans Excel est plus facile avec l’outil d’analyse de données.

Considérations importantes

Il existe quelques hypothèses critiques concernant votre ensemble de données qui doivent être vraies pour procéder à une analyse de régression :

  1. Les variables doivent être vraiment indépendantes (en utilisant un test du chi carré ).
  2. Les données ne doivent pas avoir de variances d’ erreur différentes (c’est ce qu’on appelle l’ hétéroscédasticité (également orthographiée hétéroscédasticité)).
  3. Les termes d’erreur de chaque variable doivent être décorrélés. Sinon, cela signifie que les variables sont  corrélées en série.

Si ces trois choses semblent compliquées, elles le sont. Mais l’effet d’une de ces considérations n’est pas vraie est une estimation biaisée. Essentiellement, vous dénatureriez la relation que vous mesurez.

Sortie d’une régression dans Excel

La première étape de l’exécution d’une analyse de régression dans Excel consiste à vérifier que le plugin gratuit Excel Data Analysis ToolPak est installé. Ce plugin facilite le calcul d’une plage de statistiques. Il n’est pas  nécessaire de tracer une ligne de régression linéaire, mais cela simplifie la création de tableaux de statistiques. Pour vérifier s’il est installé, sélectionnez « Données » dans la barre d’outils. Si « Analyse des données » est une option, la fonction est installée et prête à être utilisée. Si elle n’est pas installée, vous pouvez demander cette option en cliquant sur le bouton Office et en sélectionnant «Options Excel».

À l’aide de l’outil d’analyse de données, la création d’une sortie de régression se fait en quelques clics.



La variable indépendante va dans la plage X.

Compte tenu des rendements du S&P 500 , disons que nous voulons savoir si nous pouvons estimer la force et la relation entre les rendements des actions Visa (

  1. Sélectionnez « Données » dans la barre d’outils. Le menu « Données » s’affiche.
  2. Sélectionnez « Analyse des données ». La boîte de dialogue Analyse des données – Outils d’analyse s’affiche.
  3. Dans le menu, sélectionnez «Régression» et cliquez sur «OK».
  4. Dans la boîte de dialogue Régression, cliquez sur la case « Input Y Range » et sélectionnez les données de la variable dépendante (rendements boursiers Visa (V)).
  5. Cliquez sur la case « Input X Range » et sélectionnez les données variables indépendantes (retours S&P 500).
  6. Cliquez sur « OK » pour exécuter les résultats.

[Remarque: si le tableau semble petit, cliquez avec le bouton droit sur l’image et ouvrez dans un nouvel onglet pour une résolution plus élevée.]

Interpréter les résultats

En utilisant ces données (les mêmes que celles de notre article R-carré ), nous obtenons le tableau suivant:

La valeur R 2, également appelée coefficient de détermination, mesure la proportion de variation de la variable dépendante expliquée par la variable indépendante ou l’adéquation du modèle de régression aux données. La valeur R 2 est comprise entre 0 et 1, et une valeur plus élevée indique un meilleur ajustement. La valeur p, ou valeur de probabilité, varie également de 0 à 1 et indique si le test est significatif. Contrairement à la valeur R 2, une valeur p plus petite est favorable car elle indique une corrélation entre les variables dépendantes et indépendantes.

Tracer une régression dans Excel

Nous pouvons tracer une régression dans Excel en mettant en évidence les données et en les présentant sous forme de nuage de points. Pour ajouter une ligne de régression, choisissez «Disposition» dans le menu «Outils de graphique». Dans la boîte de dialogue, sélectionnez « Trendline » puis « Linear Trendline ». Pour ajouter la valeur R 2, sélectionnez « Plus d’options de courbe de tendance » dans le menu « Ligne de tendance. Enfin, sélectionnez » Afficher la valeur R au carré sur le graphique « . Le résultat visuel résume la force de la relation, mais au détriment de ne pas fournir autant de détails que le tableau ci-dessus.