18 avril 2021 9:16

Statistiques non paramétriques

Que sont les statistiques non paramétriques?

Les statistiques non paramétriques font référence à une méthode statistique dans laquelle les données ne sont pas supposées provenir de modèles prescrits qui sont déterminés par un petit nombre de paramètres; des exemples de tels modèles comprennent le modèle de distribution normale et le modèle de régression linéaire. Les statistiques non paramétriques utilisent parfois des données ordinales, ce qui signifie qu’elles ne reposent pas sur des nombres, mais plutôt sur un classement ou un ordre de tri. Par exemple, une enquête transmettant les préférences des consommateurs allant de «J’aime» à «Je n’aime pas» serait considérée comme une donnée ordinale.

Les statistiques non paramétriques comprennent les statistiques descriptives non paramétriques, les modèles statistiques, l’inférence et les tests statistiques. La structure du modèle des modèles non paramétriques n’est pas spécifiée a priori mais est plutôt déterminée à partir de données. Le terme non paramétrique ne signifie pas que de tels modèles manquent complètement de paramètres, mais plutôt que le nombre et la nature des paramètres sont flexibles et non fixés à l’avance. Un histogramme est un exemple d’estimation non paramétrique d’une distribution de probabilité.

Points clés à retenir

  • Les statistiques non paramétriques sont faciles à utiliser mais n’offrent pas l’exactitude précise des autres modèles statistiques.
  • Ce type d’analyse est souvent le mieux adapté lors de l’examen de l’ordre de quelque chose, où même si les données numériques changent, les résultats resteront probablement les mêmes.

Comprendre les statistiques non paramétriques

En statistique, les statistiques paramétriques comprennent des paramètres tels que la moyenne, l’écart type, la corrélation de Pearson, la variance, etc. Cette forme de statistiques utilise les données observées pour estimer les paramètres de la distribution. Dans les statistiques paramétriques, on suppose souvent que les données proviennent d’une distribution normale avec des paramètres inconnus μ (moyenne de la population) et σ2 (variance de la population), qui sont ensuite estimées à l’aide de la moyenne de l’échantillon et de la variance de l’échantillon.



Les statistiques non paramétriques ne font aucune hypothèse sur la taille de l’échantillon ou si les données observées sont quantitatives.

Les statistiques non paramétriques ne supposent pas que les données sont tirées d’une distribution normale. Au lieu de cela, la forme de la distribution est estimée sous cette forme de mesure statistique. Bien qu’il existe de nombreuses situations dans lesquelles une distribution normale peut être supposée, il existe également certains scénarios dans lesquels le véritable processus de génération de données est loin d’être normalement distribué.

Exemples de statistiques non paramétriques

Dans le premier exemple, considérons un analyste financier qui souhaite estimer la valeur à risque (VaR) d’un investissement. L’analyste rassemble des données sur les bénéfices de centaines d’investissements similaires sur un horizon temporel similaire. Plutôt que de supposer que les gains suivent une distribution normale, elle utilise l’histogramme pour estimer la distribution de manière non paramétrique. Le 5e centile de cet histogramme fournit alors à l’analyste une estimation non paramétrique de la VaR.

Pour un deuxième exemple, considérons un chercheur différent qui veut savoir si le nombre moyen d’heures de sommeil est lié à la fréquence à laquelle on tombe malade. Étant donné que de nombreuses personnes tombent rarement malades, voire pas du tout, et que d’autres tombent parfois malades beaucoup plus souvent que la plupart des autres, la distribution de la fréquence des maladies est clairement anormale, asymétrique et sujette aux valeurs aberrantes. Ainsi, plutôt que d’utiliser une méthode qui suppose une distribution normale de la fréquence des maladies, comme cela se fait dans l’analyse de régression classique, par exemple, le chercheur décide d’utiliser une méthode non paramétrique telle que l’analyse de régression quantile.

Considérations particulières

Les statistiques non paramétriques ont été appréciées en raison de leur facilité d’utilisation. Au fur et à mesure que le besoin de paramètres est éliminé, les données deviennent plus applicables à une plus grande variété de tests. Ce type de statistiques peut être utilisé sans la moyenne, la taille de l’échantillon, l’écart type ou l’estimation de tout autre paramètre connexe lorsqu’aucune de ces informations n’est disponible.

Étant donné que les statistiques non paramétriques font moins d’hypothèses sur les données d’échantillon, leur application est plus large que les statistiques paramétriques. Dans les cas où les tests paramétriques sont plus appropriés, les méthodes non paramétriques seront moins efficaces. En effet, les statistiques non paramétriques ignorent certaines informations disponibles dans les données, contrairement aux statistiques paramétriques.