Biais de sélection d’échantillon
Qu’est-ce que le biais de sélection d’échantillon?
Le biais de sélection de l’échantillon est un type de biais causé par le choix de données non aléatoires pour l’analyse statistique. Le biais existe en raison d’une faille dans le processus de sélection de l’échantillon, où un sous-ensemble de données est systématiquement exclu en raison d’un attribut particulier. L’exclusion du sous-ensemble peut influencer la signification statistique du test et biaiser les estimations des paramètres du modèle statistique.
Comprendre le biais de sélection d’échantillon
Le biais de survie est un type courant de biais de sélection de l’échantillon. Par exemple, lors du back-testing d’une stratégie d’investissement sur un grand groupe d’actions, il peut être pratique de rechercher des titres qui ont des données pour toute la période d’échantillonnage. Si nous voulions tester la stratégie sur 15 ans de données boursières, nous pourrions être enclins à rechercher des actions qui ont des informations complètes pour toute la période de 15 ans. Cependant, éliminer une action qui a cessé de se négocier ou qui a quitté le marché sous peu entraînerait un biais dans notre échantillon de données. Étant donné que nous n’incluons que les actions qui ont duré la période de 15 ans, nos résultats finaux seraient imparfaits, car ceux-ci se sont assez bien comportés pour survivre au marché.
Les indices de performance des hedge funds sont un exemple de biais de sélection d’échantillons soumis à un biais de survie. Étant donné que les hedge funds qui ne survivent pas arrêtent de rendre compte de leur performance aux agrégateurs d’indices, les indices qui en résultent sont naturellement orientés vers les fonds et les stratégies qui restent, donc «survivent». Cela peut également être un problème avec les services de rapports de fonds communs de placement populaires.
Les analystes peuvent s’adapter pour tenir compte de ces biais, mais peuvent introduire de nouveaux biais dans le processus.