Intervalle de confiance : normale / student ?

Bonjour à tous,

Je bloque depuis un moment sur les conditions d'application des intervalles de confiance. En fonction des sources, je trouve des conditions très différentes et je n'ai pas les connaissances nécessaires à la compréhension des preuves dans le domaine des statistiques inférentielles et je n'arrive donc pas à départager les bonnes conditions de celles qui sont erronées.

Il me semble qu'une condition importante est que la moyenne empirique suivent une loi normale et que ceci est garanti suivant deux conditions :
- le caractère étudié sur la population suit une v.a. gaussienne (il s'agit alors d'une conséquence de la stablilité de la normalité par combinaison linéaire) ;
- les échantillons considérés sont de tailles supérieures ou égales à 30 (il s'agit alors d'une conséquence du TCL).

Si bien que l'on peut proposer, sous ces conditions, comme intervalle de confiance à 95%, le traditionnel :
$$\left[\overline{x}_n-1,96\frac{\sigma}{\sqrt{n}} ; \overline{x}_n+1,96\frac{\sigma}{\sqrt{n}}\right],\tag{$\star$}
$$ où $\overline{x}_n$ désigne une réalisation de la moyenne empirique.

Mes problèmes viennent ensuite car c'est essentiellement là que je trouve des conditions très variées d'application...

Comme on ne connaît pas $\sigma$, on le remplace par une estimation. Je crois comprendre qu'il est préférable d'utiliser alors l'écart-type corrigé $s_n^{corr}$plutôt que l'écart-type. Mais alors la moyenne empirique centrée réduite $\dfrac{\overline{X}_n-\mu}{\frac{s_n^{corr}}{\sqrt{n}}}$ ne suit plus une loi normale mais une loi de Student et on remplace alors le coefficient 1,96 dans l'intervalle de confiance par le coefficient correspondant dans la loi de Student (par exemple 2,045 pour un échantillon de taille 30) et $\sigma$ par $s_n^{corr}$.

Si jamais ce qui précède n'est pas erroné, je me demandais si les conditions d'application demeuraient les mêmes (le caractère étudié sur la population est gaussienne ou $n\geq 30$) ou si l'on pouvait l'appliquer à des échantillons petits et des distributions non normales (c'est ce que j'ai parfois lu mais j'ai des doutes...).

Enfin, pour des échantillons grands ($n\geq 30$) et une population non distribuée normalement certains auteurs remplacent simplement $\sigma$ dans la formule $(\star)$ par l'écart-type empirique standard $\sigma_n$ en laissant le $1,96$. Est-ce vraiment licite car cela permet dans ce cas un gain de précision appréciable par rapport à la loi de Student ?

Désolé d'avoir été long... Merci d'avance de vos réponses.

Réponses

  • Bonsoir.

    Les conditions d'application de la formule d'intervalle de confiance avec écart type inconnu (Student) sont les mêmes que pour l'écart type connu. Attention, la valeur 30 est pour une distribution statistique pas trop particulière, donc pas pour des variables qui ne prennent que quelques valeurs (par exemple si on travaille sur l'estimation d'une proportion - la loi est 1 si l'individu convient, 0 sinon - où l'approximation devient malsaine si la proportion est faible ou proche de 1).

    Pour de petits échantillons, si on est sûr de la Normalité de la population, pas de problème (Student travaillait sur des échantillons de bières à goûter, il avait besoin de traiter de tout petits échantillons !); par contre l'approximation gaussienne demande une taille raisonnable, plus faible que 30 si la répartition des valeurs est proche d'une gaussienne.

    Pour les grands échantillons, la valeur de Student pour 100 est quasiment 1,96, et l'erreur sur $\sigma$ faite en prenant $\sigma_n$ est infime, donc les deux méthodes se rejoignent. Pas de gain de précision. Pour n entre 50 et 100, c'est moins sain, il vaut mieux utiliser la règle de Student.

    Cordialement.
  • Merci beacoup Gerard0.

    Juste pour vérifier que j'ai bien compris : on utilise la loi normale si on connaît $\sigma$ et dans le cas contraire on utilise Student avec l'écart-type empirique.

    Ces deux cas sont valides pour une distribution gaussienne ou pour $n$ assez grand. L'évaluation du "assez grand" dépend de la distribution : plus elle est proche d'une gaussienne plus on peut l'utiliser pour des $n$ petits.

    Enfin pour des $n>100$ grands, les valeurs de Student sont proches de 1,96 et l'écart-type est proche de l'écart-type corrigé.

    Si c'est bien ça, encore un grand merci car cela fait un long moment que je bloque sur ce sujet !
  • Oui c'est ça. Vois une table de Student, tu verras que pour n=100 elle donne 1,96 (arrondi). Et la valeur 30 n'a rien de mathématique, elle convient pour les situations courantes (variable ayant de nombreuses valeurs possibles, variable à priori continue).
    Enfin, le test de Fischer a montré sa forte robustesse (*) celui de Student aussi.

    Cordialement.

    (*) Capacité à donner de bons résultats quand les conditions ne sont pas tout à fait vérifiées.
  • Un grand merci Gerard0 pour toutes ces explications. C'est très clair (comme d'habitude !).
Connectez-vous ou Inscrivez-vous pour répondre.