Écart-type population, écart-type échantillon

Jp007
Modifié (February 2023) dans Statistiques
Écart-type population / racine de n 

et/ou 

Écart-type échantillon * racine de n sur (n-1)

Voici un énoncé de cours et son corrigé qui conduit à établir des relations entre les estimateurs de la population et ceux des échantillons, suivit de quelques questions qui montre mon incompréhension.

ÉNONCÉ
Soit une population = {1,2,3}  avec N = 3
Soit 9 échantillons chacun composé de 2 éléments (n=2) :
{1,1},{1,2},{1,3},
{2,1},{3,2},{2,3},
{3,1},{3,2},{3,3}

ESTIMATEURS DE LA POPULATION
Moyenne de la population

m = 1/3*(1+2+3)=2

Écart-type de la population 
σ = racine (1/3*(1+4+9)-4)=racine(2/3)

ESTIMATEURS DES ÉCHANTILLONS
Moyenne de chaque échantillon
1,1,5,2,
1,5,2,2,5,
2,2,5,3

Moyenne des moyennes de chaque échantillon
x barre
= 2 = m
Variance de chaque échantillon
0,0,25,1,
0,25,0,0,25
1,0,25,0

Moyenne des variances de chaque échantillon
σ barre^2=1/3=2/3*1/2=σ^2*1/n

Moyenne des écart-type de chaque échantillon
σ barre 
= racine(2/3*1/2 ) = σ/racine(n)

RELATION ENTRE POPULATION & ÉCHANTILLONS
m = x barre
σ  = σ barre * racine(n)

MES QUESTIONS INDÉPENDANTES
1. Pourquoi ne calcule-t-on pas la variance sur tous les éléments des échantillons sans faire de distinction parmi les couples ?

Ainsi à la place de considérer les données par couples (n=2) comme dans l'exemple :
{1,1},{1,2},{1,3},
{2,1},{3,2},{2,3},
{3,1},{3,2},{3,3}
On considèrerait un échantillon de n=18 éléments globalement :
{1,1,1,2,1,3,
2,1,2,2,2,3,
3,1,3,2,3,3}
On obtiendrait ainsi sur l’échantillon composé de 18 éléments un écart-type =racine (2/3) soit le même que celui de la population.

2 Pourquoi lorsque que l’on calcule l’écart-type sur chaque échantillon composé de 2 éléments ici dans cet exemple, on ne divise par la somme des écarts au carrée par n-1 plutôt que n ?

3 S’agit-il bien d’un échantillonnage non exhaustif car c’est une tirage avec remises ?
Pourtant tous les couples possibles sont considérés avec n=2 de façon exhaustive parmi les échantillons.

Réponses

  • gerard0
    Modifié (February 2023)
    Bonjour.
    Quelques remarques préalables.
    * Quand une population est bien connue, on ne fait pas de statistiques sur des échantillons, on perdrait de l'information.
    * L'utilisation d'une population de 3 valeurs n'a rien à voir avec le but des statistiques inférentielles, qui cherche à avoir des informations sur une population inconnue, à priori de grande taille.
    * On y travaille avec un échantillon, pas avec tous les échantillons possibles (ce qui a été fait ici).
    * Les valeurs calculées sur la population entière (ou l'ensemble des échantillons possibles d'une population connue) ne sont pas des "estimateurs" ni même des "estimations", ce sont des caractéristiques, au sens des stats descriptives. Les estimateurs sont des variables aléatoires sur un tirage supposé équiprobable en général.
    Tes relations sont classiques, mais ne servent pas directement. Les "échantillons" comportent des cas absurdes, comme (1,1) qui n'est pas un échantillon.
    Tes questions.
    1) Ça n'a pas de sens !! Un échantillon est une partie de la population, sans répétition (Tu irais voir 3 fois la même personne pour le même sondage d'opinion ? Un échantillon de ta population de 3 est constitué soit de 1 individu, soit de 2 (pour 0 on ne sait rien, et 3 donne un sondage exhaustif, et ramène aux stats descriptives.
    2) Tu confonds deux notions : l'analyse descriptive (on connaît tout) et les techniques d'échantillonnage (stats inférentielles) pour obtenir des estimations ou des tests d'hypothèse. Et ça concerne un échantillon, pas l'utilisation de tous les échantillons possibles. C'est dans l'estimation de la variance de la population inconnue par un échantillon effectif qu'on va diviser par n-1. La raison est mathématique, on prouve que c'est un meilleur estimateur.
    3) Rien à voir avec le sujet. Un échantillon exhaustif est la population entière. Et jamais de remise dans un échantillon.
    En bilan : Tu devrais lire un cours de base de statistiques, en particulier le vocabulaire élémentaire. Ce que tu présentes comme "un énoncé de cours et son corrigé"  est du n'importe quoi.
    Cordialement.
  • Jp007
    Modifié (February 2023)

    Bonjour Gérard,
    Merci beaucoup d’avoir pris le temps d’essayé de m’aider !
    J’ai compris vos 4 remarques préalables qui était déjà acquises pour moi et qui rendent l’appréhension de mon cours une peu difficile voire incohérent…

    Je pensais et je pense encore, peut-être a tord, que l’exemple du cours à pour but de démontrer par l’exemple les relations suivantes dans le cadre des statistiques inférentielles :
    m = x barre
    σ  = σ barre * racine(n)

    Alors peut-être que la démonstration est biaisée, voire fausse, car elle repose sur des statistiques descriptives (puisqu’on connait  tous les échantillons possibles) et du coup on ne peut rien en conclure dans un autre cadre celui des statistiques inférentielles mais j’insiste : c’est bien l’exemple de mon cours (et j’aimais bien cette démonstration par l’exemple car elle était simple)! Au delà de mon cours, comment expliquer autrement le racine(n) qui permet d’inférer sur la valeur de l’écart-type de la population à partir de l’écart de l’échantillon ?

    Ce que je n’ai pas compris c’est cette remarque « Les "échantillons" comportent des cas absurdes, comme (1,1) qui n'est pas un échantillon. »
    Pour moi P={1,2,3} sont l’ensemble des réalisations (ex: les notes obtenues à un test par 1 étudiant trois contrôles).
    {1,1} représenterait le résultat de deux tirages aléatoires dans la population avec remise et constitue un échantillon dans le cadre d’un échantillonnage non exhaustif d’après mon cours dont voici 2 définitions :
    Échantillonnage exhaustif : chaque individu prélevé n’est pas remis dans la population 

    Échantillonnage non exhaustif : chaque individu prélevé est remis dans la population.
    Qu’en pensez vous ?

    Vos réponses :
    1) votre réponse ne va-t-elle pas à l’encore des définitions de mon cours ci-dessus  (je suis un peu perdu) ?

     2) on va diviser par n-1. La raison est mathématique, on prouve que c'est un meilleur estimateur.
    OK, d’après ce que j’ai compris
    de façon intuitive:

    Ayant moins de valeurs dans l’échantillon on a moins de chance d’avoir une aussi large variabilité qu’avec de toutes  les valeurs de la population donc pour compenser on divise par (n-1) plutôt que (n) et lorsque la taille de l’échantillon augment cela devient négligeable (n>>>1)
    de façon formelle 1 :

    D’après l’exemple de wikipedia en anglais cf Bessel's correction,  la variance de l’échantillon est toujours plus petit ou égale à celle de la population en raison de la différence entre la moyenne de l’échantillon et celle de la population. Là encore, pour corriger le fait de sous estimer la variance on compense avec un dénominateur plus faible (n-1 à la place de n)
    de façon formelle 2 :

    C’est parce que l’espérance (# la moyenne) de la variance calculée sur différents échantillons = (n-1)/n*σ^2 au lieu de =σ^2 c’est donc une façon de corriger ce biais

    Je n’ai qu’une question dans le cadre de statistique inférentielle (on a un échantillon  de taille n et on essaie d’inférer sur les caractéristiques de la population)
    a) on doit toujours calculer la variance corrigée (somme des ((écarts à la moyenne)^2)/ (n-1)) ?
    b) à partir de la variance corrigée de l’échantillon on peu estimer la variance de la population via un facteur de n
    variance de la population = variance corrigée de l’échantillon * n ?

    3) Avez-vous un ou deux livres à me recommander ?
    Merci encore à l’aide précieuse que vous pouvez m’apporter !
  • Ah ! Tu as un vieux cours. Les échantillons "avec remise" ont très peu d'intérêt, sauf dans la méthode du bootstrap. 
    1) En fait, les méthodes des probas montrent que la moyenne des moyennes de tous les échantillons de taille n est la moyenne de la population, et que ce n'est pas le cas de la moyenne des variances. Je parle des échantillons sans remise. Si on fait remise, ça ne change rien pour la moyenne, mais fait diminuer la moyenne des variances, qui devient égale à la variance de la population. 
    Cependant, l'essentiel est le cas des "vrais" échantillons, sans remise.
    2) la façon formelle 2 est la bonne raison.
    a) oui
    b) je ne comprends pas. La variance corrigée donne une estimation de la variance de la population, qu'on ne peut pas calculer sur un échantillon.
    3) Quelle formation suis-tu ? Il y a des livres de tout nivaux, et on ne fait pas les mêmes stats suivant les secteurs.

    Cordialement. 
  • Merci à nouveau Gérerd, toutes vos réponses qui m'aident prendre recule

    1) ok

    2.b) 
    (pour moi :
    Soit on fait des calculs sur toutes les valeurs mesurées d'un caractère de la population soit sur n valeurs tirées au hasard que l'on désigne par l'échantillon.
    Les calculs sur les valeurs de l'échantillon permet d'estimer, d'inférer, les valeurs des caractéristiques, des  paramètres de la population. 
    Les calculs sur les valeurs de la population permet d'obtenir les valeurs exactes des caractéristiques, des  paramètres de la population) 

    Pourquoi la variance corrigée (somme (écart à la moyenne)^2)/(n-1)) ne devrait-elle pas être calculée sur les n valeurs d'un échantillon afin de se rapproche de la valeur exacte de la variance de la population ?


    3) J'ai un niveau L2 de math info

    Bon wekend
  • Heu... pour calculer la variance corrigée tu utilises bien les n valeurs des n éléments de l'échantillon (dans la somme). 
    Je reprendrai tout ça dans peu de jours, je n'ai pas de bonnes conditions de rédaction. Mais dans l'ensemble tu as l'air d'avoir compris.
    Pour les bouquins, si tu as une BU à proximité, aller y voir ce qu'elle a, en choisissant ce qui te convient le mieux est la bonne idée. Sinon des cours pour AES-sciences éco, voire BTS-DUT. 

    Cordialement. 
  • Ahah :smiley:  je viens de comprendre le quiproquo !
    lorsque vous avez écrit gerard0 a dit :
    La variance corrigée donne une estimation de la variance de la population, qu'on ne peut pas calculer sur un échantillon. 
    J'ai cru que vous disiez que l'on ne peut pas calculer la variance corrigée sur un échantillon :smiley: :smiley: :smiley: 
    mais en fait j'aurais du comprendre on ne peut pas calculer la variance de la population sur un échantillon... 
    Il n'y a pas qu'en Maths que j'ai du mal à comprendre les nuances : en français aussi... désolé et surtout MERCI ENCORE GERARD !

    (merci aussi pour les références bibliographiques)

    Bon weekend
Connectez-vous ou Inscrivez-vous pour répondre.