Estimateur ponctuel et intervalle de confiance

Jp007
Modifié (February 2023) dans Statistiques

Titre initial "estimateur ponctuel (lequel choisir) et intervalle de confiance (pourquoi cette formule) ?"
[Le titre doit être court (sans commentaires) et informatif. Il y a le corps du message pour donner les détails. AD]

Bonjour
J'ai encore un peu de mal à savoir quand utiliser l'écart-type corrigé ou pas ? Et pourquoi diviser l'écart-type estimé de la population par racine de (n) avec n la taille de mon échantillon...

Voici un problème, si vous pouvez m'aider à le résoudre je vous en serais gré.
P={étudiants}
N=100
X= résultat au test de français, variable quantitative de moyenne μ inconnue et d'écart-type σ inconnu dans P.
X suit une loi normale N(μ,σ). 

Soit un échantillon de X issu de P de taille n=10 sur lequel on observe
m = 11.4 qui est l'estimation ponctuelle de la moyenne inconnue μ.
sn= 4.673328578 l'estimation ponctuelle de l’écart-type inconnu σ.
s= 4.926120854 l'estimation ponctuelle corrigée de l’écart-type inconnu σ.
Sachant que s=sn * (n/(n-1))^0.5
Calculez l’estimation par intervalle de confiance au niveau 95% (au risque α=5%) de μ dans P :

Le cours me dit que l’intervalle de confiance de la moyenne d’une variable aléatoire suivant une loi normale se calcule ainsi avec n< 30 :
I=[m - t(1-α/2) * σ / n^0.5 ; m + t(1-α/2) * σ / n^0.5]
avec  t(1-α/2) = réalisation en dessous de laquelle la proba = 1-(risque/2) soit 1-0,05/2=0,975 cf table NORMALE… et je trouve t(1-α/2) = 1,96
Et là je bloque à appliquer la formule de mon encadrement.

  1. Dois-je utiliser l’estimation ponctuelle corrigée (s) ou non corrigée de l’écart-type (sn) ? Autrement dit σ=s  ou σ=sn ?
  2. Pourquoi dois-je encore diviser l’écart-type estimé de la population par (n)^0.5 dans la formule de mon intervalle ?

Réponses

  • gerard0
    Modifié (February 2023)
    Bonjour.
    sn est une mauvaise estimation de l'écart type de la population.
    La formule que tu cites correspond à l'intervalle de confiance dans le cas où l'écart-type est connu (il figure dans la formule !). 
    Quand l'écart-type est inconnu on utilise la loi de Student à la place de la loi Normale. 

    Pour le racine de n, c'est simplement que la variance d'un échantillon de n valeurs est la variance de la population divisée par n (calcul élémentaire si on connaît les propriétés de la variance)
    Cordialement. 
  • Jp007
    Modifié (February 2023)
    Bonjour Gérard
    Merci (encore) tous mes questions doivent vous sembler triviales !
    1.1) effectivement lorsque l'écart-type est inconnu, il faut utiliser la table de student et non celle de la loi normale !
    Il me parait plus cohérent d'utiliser s que sn pour estimer l'écart-type de la population car E(sn)=(n-1)/n*σ (j'avais un doute car j'avais vu des corrections où sn était utilisé).
    1.2) est-ce vrai que l'on peut utiliser la table de la loi normale à la place de la table de student lorsque n>30 (comme l'indique mon cours) ?
    J'ai un doute car la différence de valeurs me paraît énorme, par exemple avec n=31 et P=97,25% d'après ces tables (sauf erreur de lecture de ma part) :
    https://www.supagro.fr/cnam-lr/statnet/tables.htm#fractile avec  -> u=1.96
    https://www.supagro.fr/cnam-lr/statnet/tables.htm#student avec (ddl=30) -&gt; u=2.0423
    soit une différence de 0.0823
    2.1) je ne comprends pas pourquoi on doit diviser s par racine(n) alors qu'on vient de dire juste avant que s était le meilleur (entre s et sn) des estimateurs de l'écart-type de la population calculé à partir des n valeurs d'un échantillon... cela revient à corriger l'estimateur corrigé : pourquoi dans ce cas ne pas calculer directement s sur les n valeurs de l'échantillon ainsi :
    s = racine ( 1/(n * ( n-1)) * (somme (xi-m)^2))

    plutôt que de faire
    s = racine ( 1/( n-1) * (somme (xi-m)^2))
    et après de faire s / racine (n) ?
    2.2) savez-vous où je pourrais voir une démonstration simple qui illustre la nécessité de diviser s par racine(n) ?
  • gerard0
    Modifié (February 2023)
    1.1 : l'usage de s ou sn dépend des circonstances, de ce qui se passe. et la différence est négligeable si n est très grand
    1.2 : la loi de Student converge vers la loi Normale quand n tend vers l'infini. En pratique, pour n=100 on retrouve les approximations habituelles. N=30 est une classique des cours de stats, proposé mais jamais justifié, puisque injustifiable. Tout dépend de la précision des valeurs et de la précision souhaitée. Je n'ai jamais enseigné ce genre de règles qui datent de l'époque où il fallait faire tous les calculs à la main.
    2.1 : J'ai répondu dans mon message précédent. A moins que tu ne voies pas la différence entre estimer une valeur et estimer la moyenne d'un ensemble de valeurs.
    2.2 : N'importe quel cours de statistiques inférentielle explique ça, et la difficulté est de comprendre de quoi on parle. Il y a des formules sans racine de n, qui parlent évidemment d'autre chose. Revois vraiment de quoi il est question, une formule répond à une question très précise.
    Quand est-ce que tu prends un vrai cours ? Un cours de probas sur les variables aléatoires, puis un cours de stats/probas sur l'estimation.
Connectez-vous ou Inscrivez-vous pour répondre.