Distribution d'échantillonnage

Bonjour
Je voudrais savoir si dans un test de normalité, mon hypothèse $H_0$ pourrait s'écrire sous la forme simplifiée "la distribution de l'échantillon suit une loi normale" ou alors faut-il vraiment revenir à la population (je cherche une formulation la plus simple possible de $H_0$ sans trop perdre dans la rigueur) ?

Merci.

Réponses

  • Bonjour.

    En général, dans les tests de Normalité, on s'intéresse à la population considérée, pour savoir si la distribution statistique pourrait être modélisée par une variable aléatoire Normale. la distribution de l'échantillon étant discrète, l'hypothèse "la distribution de l'échantillon suit une loi normale" est toujours largement fausse.
    En fait, dans certaines situations, on sait d'avance que la variable n'est pas gaussienne. Par exemple lorsqu'elle ne peut avoir que quelques valeurs différentes. Dans d'autres cas, l'expérience accumulée par les connaisseurs est que la population statistique est distribuée de façon très proche d'une loi Normale (erreurs d'expérience par exemple). Ces arguments non statistiques sont bien plus probants que des tests de Normalité.

    Attention enfin : En stats, la "formulation la plus simple possible" est généralement fallacieuse. On ne peut pas se permettre de raccourcis.

    Cordialement.
  • Gérard

    Merci pour ta réponse, mais j'ai souvent l'impression qu'il y a un fossé entre la théorie et la pratique en statistiques (les conditions des tests sont parfois difficiles à vérifier rigoureusement), de même les conclusions des tests sont incompréhensibles pour un non statisticien (du type : il n'y a aucune raison de rejeter $H_0$, avec une double négation dans une même phrase).
  • Ce qui ne justifie pas de tirer des conclusions injustifiées de tests non adapté ni de faire croire qu'on a "prouvé statistiquement".
    C'est un peu décevant, mais bien normal : Avec peu de connaissance d'une population statistique, il est difficile de parler avec assurance.

    Cordialement
  • Bonjour fois2,

    je ne suis pas sûr de bien comprendre l'objectif de ta question : est-ce pour ta compréhension ou à objectif pédagogique ?

    De mon côté je préfère présenter les choses ainsi :

    On suppose une loi inconnue $X$ (distribution de la population)
    dont on est capable d'obtenir un échantillon $(x_1,...,x_n)$ (réalisations indépendantes de X).

    On pense que $X$ suis une loi normale. Un test de normalité consiste à vérifier si l'échantillon
    $(x_1,...,x_n)$ est compatible avec cette hypothèse.
    Ainsi l'hypothèse $H_0$ est "$X$ suis une loi normale" (donc sur la population et pas l'échantillon).

    Et bien entendu la conclusion d'un test est toujours "les données ne permettent pas de dire que $X$ ne suis pas une loi normale"
    ou "les données ne sont pas compatible avec le fait que $X$ suive une loi normale".
    En ce sens je rejoint Gerard : il vaut mieux avoir des raisons "non statistiques" de penser que $X$ suis une loi Gaussienne avant de faire un test de normalité.
  • Voire même à la place !

    Cordialement, Sylviel.
  • J'ai vu sur plusieurs cours avec pour "$H_0$ : les échantillons sont distribués suivant une loi normale" d'où ma question à savoir si cette écriture manquait de rigueur (donc fausse) ou pas.
  • Effectivement,

    c'est une belle bourde !! C'est une façon de dire (de travers) : $H_0$ : "les échantillons pourraient provenir d'un tirage aléatoire d'une variable aléatoire Normale"; ce qui est en fait ce qu'on teste; c'est un peu lourd, d’ailleurs, car l'échantillon n'est pas un tirage d'une variable aléatoire mais un tirage au hasard (on peut l'espérer, parfois même ça est faux) dans une population statistique dont on pense que les valeurs pourraient approximativement correspondre à un tirage d'une VA gaussienne.

    Attention, un grand nombre de cours universitaires sont fait par des non statisticiens qui reproduisent (à peu près) ce qu'ils on appris étudiants.Et dans certaines disciplines (particulièrement les sciences humaines et sociales, mais parfois les formations médicales) le rôle de la Normalité des données est surestimé (*); ce qui fait qu'on a sur les forums des questions du style "mes échantillons ne sont pas normaux, qu'est-ce que je peux faire ?"

    Cordialement.

    (*) jusqu'à l'imposer dans des analyses de régression !
Connectez-vous ou Inscrivez-vous pour répondre.