Validité intervalle de confiance Student
dans Statistiques
Bonjour à tous,
Je m'intéresse à l'influence du pH sur la croissance en masse d'une population. J'ai donc constitué trois échantillons de 25 individus que j'ai soumis à des conditions de pH différentes.
Après quelques semaines, j'ai mesuré la croissance (taille finale - taille initiale) de chaque individu et j'ai réalisé la moyenne pour chaque échantillon accompagnée des intervalles de confiance correspondants (Student, à 95%).
Je m'interroge cependant sur la validité de l'utilisation de tels intervalles de confiance. J'ai donc essayé d'évaluer la normalité des 3 distributions : histogrammes, QQ-plot, test de Shapiro-Wilk. Si les méthodes graphiques ne me semblaient pas "catastrophiquement non normales", les tests de Shapiro-Wilk donnent des p-value comprises entre $10^{-6}$ et au mieux $0,007$ ce qui, si j'ai bien compris permet de conclure à la non normalité des distributions.
Il me semble cependant que le théorème central limite permet de légitimer l'usage des intervalles de confiance en l'absence de l'hypothèse de normalité de la distribution à condition que l'échantillon soit suffisamment grand. Mon problème est de savoir si la taille d'échantillon que j'ai choisie (25) est suffisante dans mon cas.
Etant donné les p-values que j'ai obtenues, il me semble que la distribution est bien trop éloignée de la normalité pour autoriser des tailles d'échantillons aussi petites. Est-ce bien le cas ? Si oui, avez-vous d'autres outils à me proposer pour représenter mes données et étudier la significativité de l'influence du pH sur la croissance.
Merci d'avance de votre aide !
Je m'intéresse à l'influence du pH sur la croissance en masse d'une population. J'ai donc constitué trois échantillons de 25 individus que j'ai soumis à des conditions de pH différentes.
Après quelques semaines, j'ai mesuré la croissance (taille finale - taille initiale) de chaque individu et j'ai réalisé la moyenne pour chaque échantillon accompagnée des intervalles de confiance correspondants (Student, à 95%).
Je m'interroge cependant sur la validité de l'utilisation de tels intervalles de confiance. J'ai donc essayé d'évaluer la normalité des 3 distributions : histogrammes, QQ-plot, test de Shapiro-Wilk. Si les méthodes graphiques ne me semblaient pas "catastrophiquement non normales", les tests de Shapiro-Wilk donnent des p-value comprises entre $10^{-6}$ et au mieux $0,007$ ce qui, si j'ai bien compris permet de conclure à la non normalité des distributions.
Il me semble cependant que le théorème central limite permet de légitimer l'usage des intervalles de confiance en l'absence de l'hypothèse de normalité de la distribution à condition que l'échantillon soit suffisamment grand. Mon problème est de savoir si la taille d'échantillon que j'ai choisie (25) est suffisante dans mon cas.
Etant donné les p-values que j'ai obtenues, il me semble que la distribution est bien trop éloignée de la normalité pour autoriser des tailles d'échantillons aussi petites. Est-ce bien le cas ? Si oui, avez-vous d'autres outils à me proposer pour représenter mes données et étudier la significativité de l'influence du pH sur la croissance.
Merci d'avance de votre aide !
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
On trouve souvent dans les cours de statistiques la borne de 30 pour passer à l'approximation gaussienne. Mais c'est une cote mal taillée, trop forte pour de nombreux cas, trop faible pour des distributions n'ayant que très peu de valeurs. Dans ton cas, avec 25 valeurs par échantillon et des distributions graphiquement pas "catastrophiquement non normales" comme tu dis, les intervalles de confiance me semblent utilisables. Après, tout dépend de ce que tu veux en faire ...
Il y a juste une chose qui peut paraître bizarre : avec du " pas "catastrophiquement non normal" ", on ne devrait pas avoir des tests de non normalité trop rejetés. Mais il suffit d'une forme très dissymétrique, ou trop aplatie pour que la p-value baisse drastiquement. Ce qui ne remet pas en cause ce que je disais ci-dessus.
Cordialement.
J'ai en effet été surpris par ces valeurs pour les tests. Je vais refaire mes histogrammes et mes diagrammes Q-Q car j'ai peut-être été un peu trop optimiste dans mon estimation de leur aspect "pas catastrophiquement normal"... Je vais essayer de comprendre un peu mieux ce qu'il se passe.
Cordialement.
De manière plus générale alors, je crois comprendre de votre réponse, que finalement, la normalité ou la "suffisante normalité" de la population est plutôt une hypothèse que l'on formule par rapport au contexte de l'expérience.
Mais du coup, à quoi bon réaliser des tests de normalité sur les échantillons avant de construire les intervalles de confiance (puisque ces tests ne nous informent que sur la normalité des échantillons) ? C'est pourtant la démarche que nous recommande de faire de nombreux cours de statistiques...
on voit ça souvent, y compris dans des circonstances où la Normalité n'a aucun sens (régression linéaire). Les tests de Normalité sont utiles quand justement on a de gros doutes et qu'on ne peut pas s'appuyer sur autre chose (robustesse du test, ou approximation gaussienne, ou ...). Ça justifiera alors de passer à des tests non paramétriques.
Cordialement.