Validité intervalle de confiance Student
dans Statistiques
Bonjour à tous,
Je m'intéresse à l'influence du pH sur la croissance en masse d'une population. J'ai donc constitué trois échantillons de 25 individus que j'ai soumis à des conditions de pH différentes.
Après quelques semaines, j'ai mesuré la croissance (taille finale - taille initiale) de chaque individu et j'ai réalisé la moyenne pour chaque échantillon accompagnée des intervalles de confiance correspondants (Student, à 95%).
Je m'interroge cependant sur la validité de l'utilisation de tels intervalles de confiance. J'ai donc essayé d'évaluer la normalité des 3 distributions : histogrammes, QQ-plot, test de Shapiro-Wilk. Si les méthodes graphiques ne me semblaient pas "catastrophiquement non normales", les tests de Shapiro-Wilk donnent des p-value comprises entre $10^{-6}$ et au mieux $0,007$ ce qui, si j'ai bien compris permet de conclure à la non normalité des distributions.
Il me semble cependant que le théorème central limite permet de légitimer l'usage des intervalles de confiance en l'absence de l'hypothèse de normalité de la distribution à condition que l'échantillon soit suffisamment grand. Mon problème est de savoir si la taille d'échantillon que j'ai choisie (25) est suffisante dans mon cas.
Etant donné les p-values que j'ai obtenues, il me semble que la distribution est bien trop éloignée de la normalité pour autoriser des tailles d'échantillons aussi petites. Est-ce bien le cas ? Si oui, avez-vous d'autres outils à me proposer pour représenter mes données et étudier la significativité de l'influence du pH sur la croissance.
Merci d'avance de votre aide !
Je m'intéresse à l'influence du pH sur la croissance en masse d'une population. J'ai donc constitué trois échantillons de 25 individus que j'ai soumis à des conditions de pH différentes.
Après quelques semaines, j'ai mesuré la croissance (taille finale - taille initiale) de chaque individu et j'ai réalisé la moyenne pour chaque échantillon accompagnée des intervalles de confiance correspondants (Student, à 95%).
Je m'interroge cependant sur la validité de l'utilisation de tels intervalles de confiance. J'ai donc essayé d'évaluer la normalité des 3 distributions : histogrammes, QQ-plot, test de Shapiro-Wilk. Si les méthodes graphiques ne me semblaient pas "catastrophiquement non normales", les tests de Shapiro-Wilk donnent des p-value comprises entre $10^{-6}$ et au mieux $0,007$ ce qui, si j'ai bien compris permet de conclure à la non normalité des distributions.
Il me semble cependant que le théorème central limite permet de légitimer l'usage des intervalles de confiance en l'absence de l'hypothèse de normalité de la distribution à condition que l'échantillon soit suffisamment grand. Mon problème est de savoir si la taille d'échantillon que j'ai choisie (25) est suffisante dans mon cas.
Etant donné les p-values que j'ai obtenues, il me semble que la distribution est bien trop éloignée de la normalité pour autoriser des tailles d'échantillons aussi petites. Est-ce bien le cas ? Si oui, avez-vous d'autres outils à me proposer pour représenter mes données et étudier la significativité de l'influence du pH sur la croissance.
Merci d'avance de votre aide !
Réponses
-
Bonjour.
On trouve souvent dans les cours de statistiques la borne de 30 pour passer à l'approximation gaussienne. Mais c'est une cote mal taillée, trop forte pour de nombreux cas, trop faible pour des distributions n'ayant que très peu de valeurs. Dans ton cas, avec 25 valeurs par échantillon et des distributions graphiquement pas "catastrophiquement non normales" comme tu dis, les intervalles de confiance me semblent utilisables. Après, tout dépend de ce que tu veux en faire ...
Il y a juste une chose qui peut paraître bizarre : avec du " pas "catastrophiquement non normal" ", on ne devrait pas avoir des tests de non normalité trop rejetés. Mais il suffit d'une forme très dissymétrique, ou trop aplatie pour que la p-value baisse drastiquement. Ce qui ne remet pas en cause ce que je disais ci-dessus.
Cordialement. -
Merci beaucoup de ta réponse Gerard0.
J'ai en effet été surpris par ces valeurs pour les tests. Je vais refaire mes histogrammes et mes diagrammes Q-Q car j'ai peut-être été un peu trop optimiste dans mon estimation de leur aspect "pas catastrophiquement normal"... Je vais essayer de comprendre un peu mieux ce qu'il se passe. -
N'importe comment, les tests de normalité parlent de l'échantillon testé, pas de la population en cause. C'est elle qui doit être Normale, pas l'échantillon. Et des populations gaussiennes, c'est rare, les cas classiques sont essentiellement des valeurs dues à de nombreuses causes indépendantes et de même ordre de grandeur (comme les erreurs de mesure, ou la taille des individus dans une population très mélangée, ou les cotes de pièces industrielles). Ici, c'est " la croissance en masse d'une population" dont il faudrait savoir comment elle est répartie. A priori, si de nombreuses causes peuvent intervenir, sans être gaussienne, elle sera au moins assez variable pour qu'avec des échantillons de 25 les intervalles soient utilisables.
Cordialement. -
C'est noté encore merci pour votre aide précieuse.
De manière plus générale alors, je crois comprendre de votre réponse, que finalement, la normalité ou la "suffisante normalité" de la population est plutôt une hypothèse que l'on formule par rapport au contexte de l'expérience.
Mais du coup, à quoi bon réaliser des tests de normalité sur les échantillons avant de construire les intervalles de confiance (puisque ces tests ne nous informent que sur la normalité des échantillons) ? C'est pourtant la démarche que nous recommande de faire de nombreux cours de statistiques... -
Effectivement,
on voit ça souvent, y compris dans des circonstances où la Normalité n'a aucun sens (régression linéaire). Les tests de Normalité sont utiles quand justement on a de gros doutes et qu'on ne peut pas s'appuyer sur autre chose (robustesse du test, ou approximation gaussienne, ou ...). Ça justifiera alors de passer à des tests non paramétriques.
Cordialement. -
Ok, tout est clair. Merci beaucoup Gerard0.
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.1K Toutes les catégories
- 58 Collège/Lycée
- 22.1K Algèbre
- 37.5K Analyse
- 6.3K Arithmétique
- 58 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 20 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.7K Géométrie
- 83 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 337 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 801 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres