Définition moyenne gagnée - KamilTaylan.blog
18 avril 2021 17:07

Définition moyenne gagnée

Quelle est la moyenne gagnée?

La moyenne winsorisée est une méthode de calcul de la moyenne qui remplace initialement les valeurs les plus petites et les plus grandes par les observations les plus proches d’elles. Ceci est fait pour limiter l’effet des valeurs aberrantes ou des valeurs extrêmes anormales, ou des valeurs aberrantes, sur le calcul. Après avoir remplacé les valeurs, la formule de la moyenne arithmétique est ensuite utilisée pour calculer la moyenne winsorisée.

Points clés à retenir

  • La moyenne winsorisée est une méthode de calcul de la moyenne qui consiste à remplacer les valeurs les plus petites et les plus grandes d’un ensemble de données par les observations les plus proches de celles-ci.
  • Il atténue les effets des valeurs aberrantes en les remplaçant par des valeurs moins extrêmes.
  • La moyenne winsorisée n’est pas la même que la moyenne tronquée, ce qui implique de supprimer des points de données plutôt que de les remplacer – bien que les résultats des deux tendent à être proches.

Formule de la moyenne gagnée

Les moyennes valorisées sont exprimées de deux manières. Une moyenne winsorisée « k n  » fait référence au remplacement des observations les plus petites et les plus grandes ‘k’, où ‘k’ est un entier. Une moyenne winsorisée «X%» implique le remplacement d’un pourcentage donné de valeurs aux deux extrémités des données.

La moyenne winsorisée est obtenue en remplaçant les points de données les plus petits et les plus grands, puis en additionnant tous les points de données et en divisant la somme par le nombre total de points de données.

Que vous dit le winsorisé?

La moyenne winsorisée est moins sensible aux valeurs aberrantes car elle peut les remplacer par des valeurs moins extrêmes. Autrement dit, il est moins sensible aux valeurs aberrantes par rapport à la moyenne arithmétique. Cependant, si une distribution a des queues grasses, l’effet de la suppression des valeurs les plus élevées et les plus basses de la distribution aura peu d’influence en raison du degré élevé de variabilité des chiffres de distribution.

Exemple d’utilisation de la moyenne gagnée

Calculons la moyenne winsorisée pour l’ensemble de données suivant: 1, 5, 7, 8, 9, 10, 34. Dans cet exemple, nous supposons que la moyenne winsorisée est dans le premier ordre, dans lequel nous remplaçons les valeurs les plus petites et les plus grandes par leurs observations les plus proches.

L’ensemble de données apparaît maintenant comme suit: 5, 5, 7, 8, 9, 10, 10. Prendre une moyenne arithmétique du nouvel ensemble produit une moyenne winsorisée de 7,7, ou (5 + 5 + 7 + 8 + 9 + 10 + 10) divisé par 7. Notez que la moyenne arithmétique aurait plus élevé – 10,6. La moyenne winsorisée réduit efficacement l’influence de la valeur 34 comme valeur aberrante.

Ou considérez une moyenne winsorisée de 20% qui prend les 10% supérieurs et les 10% inférieurs et les remplace par leur valeur la plus proche. Nous allons gagner le jeu de données suivant: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Les deux les points de données les plus petits et les plus grands (10% des 20 points de données) seront remplacés par leur valeur la plus proche suivante. Ainsi, le nouvel ensemble de données est le suivant: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. La moyenne winsorisée est de 33,9, ou le total des données (678) divisé par le nombre total de points de données (20).

Moyenne gagnée vs moyenne réduite

La moyenne winsorisées comprend la modification des points de données, tandis que la moyenne tronquée consiste à enlever les points de données. Il est courant que la moyenne winsorisée et la moyenne tronquée soient proches ou parfois égales en valeur.

Limitations de la moyenne gagnée

Un inconvénient majeur des moyens winsorisés est qu’ils introduisent naturellement un certain biais dans l’ensemble de données. En réduisant l’influence des valeurs aberrantes, l’analyse est modifiée pour une meilleure analyse, mais supprime également les informations sur les données sous-jacentes.