Tests de normalité

chrisR
Modifié (October 2022) dans Statistiques
Bonjour à tous
Je suis prof de chimie en BTS et je me pose un certain nombre de questions sur les statistiques.
Nous avons typiquement plusieurs pbs, le moindre étant la taille de nos échantillons.
1) Chaque mesure prenant un temps fou, qd nous en avons disons 5, c'est merveilleux. Évidemment nous donnons comme résultat final une moyenne et un intervalle de confiance basé sur la loi de Student.
Certes, mais par définition même du T de la loi de Student, X doit suivre une loi normale (et le dénominateur c'est l'estimateur de l'écart type qui suit une loi du khi2, l'indépendance entre X et l'estimateur de s étant assurée par le théorème de Cochran, mes valeurs étant bornées on est dans L2 et donc nous disposons d'un vrai produit scalaire si j'ai bien tout compris).
X doit donc suivre une loi normale.
Sur 5 valeurs, j'ai à peu près tout testé sur Minitab et excel (même des données invraisemblables à mon échelle : valeurs égales, légèrement inférieures au centre), AD, KS et bien entendu  SW disent que c'est normal...
J'ai donc plusieurs questions à ce sujet :
a) à mon sentiment, plus la taille de l'échantillon augmente plus il est difficile de prouver une normalité : est-ce globalement exact ? (j'ai bien dit globalement...)
b) Test d'Anderson Darling : je l'ai fait sur excel, je n'ai pas les mêmes résultats  que sur Minitab ; j'ai lu sur ce forum une discussion à ce sujet je ne suis pas le seul : quelqu'un aurait-il un cours sur la théorie svp? J'ai tenté de retrouver la formule A = -n- S en intégrant mais à part le -n que j'ai retrouvé à un moment j'ai eu ln(0) alors bon... ou alors m'aider dans ma démonstration ?
c) Test de WS : un peu la même question : autant le test de Ryan Joiner me paraît plus compréhensible (c'est un coef de corrélation), autant celui de WS est-il nébuleux...
d) KS prend comme fonction de répartition empirique i/n ; cette formule est modifiée par Harper, etc... et celle qui nous est souvent recommandée est (i-3/8)/(n+0.25). Je peux imaginer la correction du dénominateur si on suppose une loi disymétrique centrée par exemple sur la médiane, mais pas celle du dénominateur...
Je suis désolé par avance si mes questions  s'éloignent de l'objet de ce forum, mais ce sont des questions que nous nous posons vraiment.
Je vous remercie d'avance.

Réponses

  • gerard0
    Modifié (October 2022)
    Bonjour.
    La théorie parle de Normalité de la variable statistique étudiée (donc que cette variable peut être très proche d'un tirage aléatoire d'une variable gaussienne), pas de la Normalité de l'échantillon. Ce qui fait que les tests de Normalité n'ont d'intérêt que si on doute fortement de cette hypothèse; et sont souvent décevants.
    Pour de petits échantillons, les tests à risque raisonnable sont généralement positifs : on n'a pas le moyen de mettre en doute la Normalité. Même pour des variables non gaussiennes de façon évidente (série discrète, par exemple).
    Il est vrai aussi que le test devient de plus en plus négatif (significatif) quand la taille augmente, pour des statistiques réelles.
    Pour le reste, je n'ai pas suffisamment de connaissances pour t'aider, mais pour un niveau BTS, il me semble que la priorité est l'analyse de l'expérience, la chasse aux erreurs systématiques, puis la pratique courante : a priori, les erreurs restantes sont dues à de nombreux effets faibles, donc approximativement gaussiennes.
    Cordialement.
  • Bonjour Gerard et merci pour ta réponse

    J'ai pris le temps de la réflexion, car ta réponse m'a passablement perturbé. J'avais bien saisi la distinction entre la variable aléatoire et l'échantillon, mais il me semblait que justement les tests de normalité (pourquoi une majuscule, d'ailleurs?) permettent d'effectuer un certain nombre de tests sur l'échantillon (Student, Fisher, Levennes, etc...) et de façon générale les tests d'hypothèse pour donner un résultat sur la population avec un doute raisonnable.

    Donc les tests de normalité n'auraient pas un intérêt majeur dans le cas où il n'y a pas de doute raisonnable sur la normalité ?
    Bon, je vais donc faire une simulation MC alors...

    Ce qui n'empêche pas de renouveler ma demande : si quelqu'un a un cours sur lesdits tests, je suis intéressé, j'aime bien comprendre ce que je fais.

    Merci à toi, Gérard, et merci d'avance aux autres.

    Cordialement

  • gerard0
    Modifié (October 2022)
    "(pourquoi une majuscule, d'ailleurs?)"
    Simplement parce que la Normalité n'est pas la normalité, la loi Normale n'est pas la loi de l'essentiel des variables aléatoires, les séries statistiques suivent rarement la loi de Gauss (ne serait-ce que parce qu'on n'a que peu de valeurs), et pire, dans les analyses sur des données très nombreuses (data-mining), les test de (non-)Normalité sont systématiquement significatifs.
    Le nom de "loi normale" est une erreur historique (Quetelet & al) qui est restée, comme "nombres imaginaires purs" (même époque). Quetelet croyait que la distribution d'un caractère dans la population (humaine) devait suivre systématiquement une loi de Gauss (comme les erreurs d'artillerie ou d'expérimentation physique). Il a influencé des générations de statisticiens, démographes, biologistes et psychologues (on retrouve ça encore dans des cours universitaires) et certains continuent à tester la Normalité des échantillons, y compris dans des cas où c'est idiot (analyse de régression).
    Je n'ai pas de référence sur ces tests, seulement quelques connaissances de base essentiellement acquises dans le Saporta ("Probabilités, analyse de données et Statistiques").
    Cordialement.
  • Excellente anecdote, merci je la ressortirai!! :D

    Mais pourquoi diable ferait-on un test de normalité pour une régression linéaire?? à part pour les erreurs si on a plusieurs points à xi fixé, puisque c'est la théorie?
  • gerard0
    Modifié (October 2022)
    ChrisR,
    les stats sont souvent enseignées par n'importe qui dans les facs de sciences humaines et économiques (*). On ne va quand même pas bloquer un poste de Mcf pour un mathématicien, et ça peut compléter un service pour quelqu'un qui est prêt à reproduire le cours qu'il a eu 30 ans auparavant, cours qui lui même était la reproduction ...
    J'ai eu souvent des questions d'étudiants qui demandaient quoi faire parce que la série des dates n'était pas gaussienne, par exemple.
    Cordialement.
    (*) J'ai lu le cours d'un collègue universitaire qui utilisait comme exemple de base d'un cours pour débutants les résultats d'un sondage dont les réponses étaient 1) Très défavorable, 2) défavorable, 3) indifférent 4) favorable, 5) très favorable. Et avec ces "valeurs", il faisait des moyennes, des écarts types, etc.
Connectez-vous ou Inscrivez-vous pour répondre.