moyenne des écarts à la moyenne
dans Statistiques
Titre initial : STATISTIQUE : moyenne des écarts à la moyenne
[Tu es dans la rubrique "Statistiques". Pourquoi le répéter ? AD]
Bonjour
Je suis surpris de constater que les 2 estimateurs de dispersion que sont la moyenne des écarts à la ]moyenne et la variance n'aboutissent pas à la même conclusion.
Je dispose de 2 séries de moyenne m, de variance v1 et v2 respectivement. Appelons E1 et E2 les moyennes des écarts à la moyenne. Je m'attendais à ce que : E1<=E2 soit équivalent à v1<= v2.
C'est à dire que pour comparer la dispersion de 2 séries il est indifférent d'utiliser l'un ou l'autre des 2 estimateurs. Or le contre exemple qui suit montre que c'est faux !
On considère 2 séries à 2 valeurs d'effectif 1. On pose pour la première a=abs(x1-m) b=abs(x2-m) et pour la seconde a' =abs(x1'-m) et b'=abs(x2'-m).On a donc E1=(a+b)/2 et v1=(a²+b²)/2
Idem pour la seconde.
Posons a=0,5 b=0,1 a'=0,4 b'=0,3 on a alors E1<=E2 mais v1>V2.
Que signifie donc que les deux estimateurs de dispersion ne donnent pas les mêmes conclusions ?
Et dans ce cas pourquoi faudrait-il choisir un estimateur plutôt que l'autre ?
Merci de bien vouloir m'éclairer sur ce point.
[Tu es dans la rubrique "Statistiques". Pourquoi le répéter ? AD]
Bonjour
Je suis surpris de constater que les 2 estimateurs de dispersion que sont la moyenne des écarts à la ]moyenne et la variance n'aboutissent pas à la même conclusion.
Je dispose de 2 séries de moyenne m, de variance v1 et v2 respectivement. Appelons E1 et E2 les moyennes des écarts à la moyenne. Je m'attendais à ce que : E1<=E2 soit équivalent à v1<= v2.
C'est à dire que pour comparer la dispersion de 2 séries il est indifférent d'utiliser l'un ou l'autre des 2 estimateurs. Or le contre exemple qui suit montre que c'est faux !
On considère 2 séries à 2 valeurs d'effectif 1. On pose pour la première a=abs(x1-m) b=abs(x2-m) et pour la seconde a' =abs(x1'-m) et b'=abs(x2'-m).On a donc E1=(a+b)/2 et v1=(a²+b²)/2
Idem pour la seconde.
Posons a=0,5 b=0,1 a'=0,4 b'=0,3 on a alors E1<=E2 mais v1>V2.
Que signifie donc que les deux estimateurs de dispersion ne donnent pas les mêmes conclusions ?
Et dans ce cas pourquoi faudrait-il choisir un estimateur plutôt que l'autre ?
Merci de bien vouloir m'éclairer sur ce point.
Réponses
-
Bonjour,
Si on change d'outil pour mesurer la dispersion, pas étonnant que le classement puisse lui aussi être altéré. Sans compter qu'on pourrait aussi mesurer cette dispersion avec l'étendue ou l'écart-interquartile...
Bref, la dispersion n'est pas un paramètre intrinsèque à la série étudiée...
Bien cordialement,
Christian -
Merci d'avoir répondu à mon message mais je reste sur ma faim :
Si on me demande de comparer les notes de deux classes qui ont même moyenne, faut-il dire par exemple qu'une classe est plus régulière que l'autre avec les variances et qu'elle est moins régulière que l'autre avec la moyenne des écarts à la moyenne ?
Il me semble que l'indicateur de dispersion le plus naturel est celui de l'écart à la moyenne et que le fait d'élever au carré dans la variance n'a rien de naturel. Il me semble que la régularité est une notion intrinsèque à une série.
Merci de bien vouloir reprendre la discussion sur ce point que je trouve troublant. -
Il me semble que l'indicateur de dispersion le plus naturel est celui de l'écart à la moyenne et que le fait d'élever au carré dans la variance n'a rien de naturel
C'est un peu métaphysique comme remarque, mais c'est l'opposé la "bonne vision": pense que chaque élève vit dans sa dimension1 (tu ne le vois que par sa note, et t'as centré, ie la moyenne est 0). Prendre la somme des carrés, c'est calculer (le carréd') un hyperhypoténuse et c'est plus "naturel".Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi -
Bonjour,
Il faut prendre des paramètres qui sont associés l'un à l'autre. Tout réside dans la façon de savoir comment un nombre, comme la moyenne, peut résumer une série statistique, comment il peut être plus proche des $x_i$ qu'un autre. Et cela dépend de la "distance" que l'on considère...
Il se trouve que la moyenne m et l'écart-type sont associés car $m$ est précisément la valeur qui minimise de la fonction qui à $x$ associe
$g(x) = (x-{x}_{1})^{2} + (x - x_2)^2 + ... + (x - x_n)^2.$ Or le minimum est égal à la $n$ fois variance.
On peut associer de la même façon la moyenne des écarts à la moyenne et la médiane.
Il me paraît donc prudent de ne pas travailler avec n'importe quoi pour que la comparaison ait un certain sens.
Bien cordialement,
Christian -
Merci Christian pour cette remarque sur médiane et moyenne des valeurs absolues des écarts, je n'avais jamais réfléchi à cela.
-
Sa dernière remarque est encore mieux je trouve non? (Sur moyenne = minimum de la fonction variance...)Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
-
Enfin, je suis un peu bête, je n'ai pas lu l'autre, bon bin j'y vais la lireAide les autres comme toi-même car ils sont toi, ils sont vraiment toi
-
Ouaip, mais moyenne j'étais déjà au courant L'autre je n'y avais jamais réfléchi (faut dire que la moyenne de la valeur absolue des écarts ça fait pas envie).
-
j'étais déjà au courant
Honte à moi d'ailleurs car une collègue me l'avait signalé y a 2 ou 3ans, et ça m'avait pourtant marqué...Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi -
Ouaip, l'espérance c'est (à une petite identification près) la projection orthogonale dans $L^2(\Omega)$ sur la droite des v.a. constantes. T'as un truc dans le même goût pour l'espérance conditionnelle.
-
Très joli comme résumé!!!!!! Merci.Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
-
Bonsoir Blanc.
Tu as déjà eu une partie de la réponse. En voici une autre :faut-il dire par exemple qu'une classe est plus régulière que l'autre avec les variances et qu'elle est moins régulière que l'autre avec la moyenne des écarts à la moyenne ?
Un exemple vécu : Quand j'ai appris à conduire, je roulais à 60 km/h en ville et 110 sur certaines petites routes de campagne. Etais-je en faute ? Non, la code de la route était différent de celui d’aujourd’hui. En particulier, il n'y avait pas d'excès de vitesse en campagne, puisqu'il n'y avait pas de règle ! Donc les discussions étaient nombreuses sur "rouler trop vite", avec des avis contradictoires.
Cordialement. -
Bonjour Gerard
Quand on compare deux séries de notes de même moyenne , quelle définition pourrait-on donner de ce qu'une série est plus régulière qu'une autre et dans ce cas pourquoi choisir l'écart type comme le font les manuels ? L'utilisation de l’écart type sous tendrait alors une définition de la régularité qui n'est nullement explicitée dans les manuels et qui dans ce cas constitue un obstacle à la compréhension de ce que l'on fait.
Autre possibilité; poser d'emblée qu'une série est plus régulière qu'une autre si l'écart type de l'une est inférieur à l’écart type de l’autre,sans expliciter le concept de régularité. Cette voie est elle la meilleure ?
Merci de bien vouloir reprendre cette discussion. -
Bonjour.
Si un manuel parle de "série de notes plus régulière qu'une autre" parce que son écart type est plus faible, jette-le. En effet, ce mot "régulier" n'est pas un mot sérieux. Par contre, s'il dit que la série est moins dispersée, pas de problème, car il vient d'utiliser une mesure de dispersion. Ce qui ne veut pas dire qu'avec une autre mesure de dispersion, il n'aurait pas dit le contraire, avec l'étendue, ou avec l'interquartile.
Tout ça n'a pas vraiment d'importance. Et pour l'enseignant qui présente cette notion, l'important est de savoir pourquoi on l'a choisie. Pour ne pas refaire un débat qui a déjà été longuement fait sur ce forum, je te conseille de lire les deux pages du fil pourquoi l'écart type ?
Cordialement. -
Lire aussi l'excellentissime phrase concise de plop quelques posts plus hauts:Ouaip, l'espérance c'est (à une petite identification près) la projection orthogonale dans $L^2(\Omega)$ sur la droite des v.a. constantes
qui résume presque tout.Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi -
Désolé, Christophe,
mais ça ne résume pas la réponse au questionnement de Blanc, et ça ne résume l'intérêt (relatif) de la variance qu'à ceux qui connaissent cette présentation (Gauss aurait été surpris par ce type de réponse !).
Pour la partie des statisticiens théoriciens qui ne jurent que par la loi Normale, l'usage de la variance est impératif, et permet de faire de beaux modèles. Leur efficacité relative (voir Fukushima, par exemple) ne les arrête pas, car la beauté des modèles est le but visé. Pour les ingénieurs, ou les scientifiques des sciences de l'ingénieur, la contrainte de réussite concrète change le point de vue (par exemple, en fiabilité, la loi Normale n'est plus du tout centrale), et la médiane redevient une mesure utile (c'est la demi-vie !). Par contre, les mesures de dispersion posent un vrai problème.
Cordialement. -
Bonjour,
Quand il s'agit de comparer deux nombres, ou deux séries, ou quoi que ce soit d'autre, cette comparaison doit s'effectuer obligatoirement en fixant un critère a priori. Ici, les deux séries ne se comparent pas de la même manière en changeant de critère. Ma question est : et alors ?
Un exemple simple pour illustrer ce fait. Prenons trois points dans le plan A $(0,0)$, B $(0,1)$ et C $(\sqrt{2}/2,\sqrt{2}/2)$ et l'on cherche à savoir quel point entre B et C est le plus proche de A. Si l'on utilise la norme 2, B et C sont à la même distance de A. Si l'on utilise la norme 1, B est plus proche de A que ne l'est C. Si on utilise la norme infinie, C est plus proche de A que ne l'est B. Quelle est la conclusion ? Tout dépend de ce que l'on prend comme définition de "proche" !
De mon point de vue, c'est la même chose ici. Si le critère de "dispersion" (au sens général) est construit à partir de la norme 2 (la variance), le résultat n'est pas le même que s'il est construit avec la norme 1 (les écarts-absolus). Il suffit juste de se définir le critère de comparaison initialement.
Amicalement, -
Ah d'accord!
C'est étonnant mais surement intéressant que finalement le produit scalaire ne soit pas "préférable" à tout le reste.Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi -
bonjour Kuja
J'ai pu me rendre compte en allant consulter des réponses sur le même sujet que ma question n'appelle pas une réponse qui va de soi.
Alors si l'on doit définir avant tout calcul le concept de dispersion , j’aimerais que l'on me dise comment on définit la dispersion d'une série avant même d'utiliser l'écart type car en fin de compte c'est cette notion de dispersion que je trouve floue et qui me met mal à l'aise.
J'ai utilisé le mot régularité car c'est celui utilisé par les manuels pour demander de comparer deux séries de même moyenne.
Enfin je suis incapable de d’interpréter un écart type .Quelle différence entre un écart type de 6 ou de 12 ?
Je lis dans un manuel :
Propriété : plus l'écart type est grand ,plus la série est dispersée.
C'est curieux car la notion de dispersion n'a pas été définie et fait l'objet d'une propriété !
Merci de bien vouloir reprendre la discussion.
Blanc -
Bonjour,
A ma connaissance, il n'y a pas de définition formelle de ce qu'est une mesure de dispersion (contrairement à une distance). Il y a quand même un certain nombre de propriétés qu'une telle mesure doit avoir. Dans le désordre, elle est positive, elle vaut 0 si toutes les données sur laquelle on la calcule sont égales, et elle soit augmenter quand les données sont de plus en plus "différentes" les unes des autres. Mais je n'ai jamais vu une définition théorique (cela existe peut-être et je prends toute référence !).
Ce qui est sûr en revanche, c'est qu'il existe plusieurs mesures de dispersion statistique, dont certaines ont été mentionnées ici : variance (et écart-type), déviation absolue, distance interquartile, range, etc. -
Blanc,
je vois tes questionnements, mais ils n'ont pas de réponse :Enfin je suis incapable de d’interpréter un écart type .Quelle différence entre un écart type de 6 ou de 12 ?
Tu vois que tu poses soit une fausse question (6 quoi et 12 quoi ?) ou une question dont tu connais la réponse (6 m est inférieur à 12 m), qui cache probablement une bonne question : "Quelle est la signification concrète de l'écart type ?". Question dont la réponse est "Il n'y en a pas". L'écart type et la variance ne sont pas des notions concrètes, mais des notions abstraites auxquelles on s'habitue (comme "fonction affine", "cosinus d'un angle" et même "angle", simple en début de collège, de plus en plus abstrait au fur et à mesure qu'on essaie vraiment de le définir). Par contre, ce sont des notions très utiles, d'où l'intérêt de s'y habituer tôt.
Maintenant, si tu as deux séries de 50 notes sur 20, dont l'une a pour écart type 6 et l'autre 12, tu sais dans le premier cas qu'elles sont assez étalées autour de la moyenne, dans le deuxième qu'une grosse partie des notes est très loin de la moyenne, et qu'on a noté sur plus de 20, ou avec des notes négatives. Si tu as deux équipes de basketteurs de même taille moyenne et d'écarts types 6 cm et 12 cm, tu sais que la deuxième équipe a des joueurs de plus petites tailles que la plupart de ceux de la première, mais aussi des joueurs de plus grandes tailles que la plupart de ceux de la première.
L'écart type analyse bien la dispersion, mais de façon indirecte. Surtout quand on compare des écarts types très différents pour une même mesure (il n'est pas question de comparer un écart de taille avec un écart de salaire). Mais son intérêt est ailleurs : Dans la modélisation probabiliste.
Je suis aussi très surpris de l'usage du mot "régularité" qui a un sens différent de "dispersion". D'autant que la "dispersion d'échantillonnage" est un thème majeur des statistiques de seconde.
Comme Kuja, je ne crois pas à une définition formelle de "dispersion", mieux, je n'en veux pas. Ce qui est défini formellement n'est plus la notion intuitive utile, mais un objet mathématique précis qui risque de cacher la réalité.
Cordialement.
NB : Voir aussi les inégalités comme celle de Bienaymé Tchebychev. -
bonjour Gérard
Merci d'avoir répondu à ma question.
J'ai voulu me rendre compte de ce que représente l’écart type avec une simulation Excel.
J'ai donc simulé 9 classes de 30 élèves ayant chacune une moyenne de 12 avec des écarts type respectivement de :
2 2,3 2,5 3,1 3,4 4 4,9 6,1 et 7 et j'ai regardé les histogrammes correspondants.
Voici alors mes remarques :
1) Il n'est pas utile de passer par l'écart type pour voir sur les histogrammes le caractère flagrant de la dispersion et donc j'ai envie de penser contrairement à ce que j'ai lu que la notion de dispersion est intrinsèque à la série et n'est pas liée à un outil mathématique .
2) Si je devais formaliser cette dispersion pourquoi devrais-je choisir d'en étudier la dispersion avec l'écart type plutôt qu'avec la moyenne des écarts à la moyenne ?
3) Je n'ai pas fait le calcul de la moyenne des écarts mais il aurait pu se faire que la moyenne des écarts aille en décroissant et dans ce cas devrais-je dire:
Si l'on utilise l’écart type, les séries sont de plus en plus dispersées et si l'on utilise la moyenne de écarts à la moyenne les séries sont de moins en moins dispersées car comme je l'ai indiqué dans mon message initial variance et moyenne des écarts à la moyenne ne marchent pas toujours dans le même sens.
Merci de bien vouloir me répondre sur ces 3 points.
David
[Corrigé selon ton indication. AD] -
Ok.
mais tu dis "J'ai simulé". Avec quel outil ? Car la manière de simuler change beaucoup la façon de voir le résultat.
"Je n'ai pas fait le calcul de la moyenne des écarts" Pourquoi ? C'était pourtant à la base de ta question !
"il aurait pu se faire que ..." : Avec des si ... et de plus, ça ne change rien à tout ce qu'on a dit auparavant.
Plus sur le fond :
"j'ai envie de penser contrairement à ce que j'ai lu que la notion de dispersion est intrinsèque à la série" : Ne te prive pas, tous les statisticiens seront d'accord.
"et n'est pas liée à un outil mathématique . " : Non, bien sûr. C'est la mesure de la dispersion qui est faite par un outil mathématique, et les statisticien en ont utilisé de nombreux (je ne sais pas d'ailleurs pourquoi tu tiens tant à ne parler que de deux d'entre eux : la variance et l'écart absolu moyen.
Enfin ta conclusion : "Si l'on utilise l’écart type, les séries sont de plus en plus dispersées et si l'on utilise la moyenne de écarts à la moyenne les séries sont de moins en moins dispersées car comme je l'ai indiqué dans mon message initial variance et écart type ne marchent pas toujours dans le mémé sens. " est de la haute fantaisie. Tu fais une hypothèse fausse (si l'écart absolu moyen augmente suffisamment, la variance augmente aussi, même si on peut trouver des cas limites où de petites variations de la variance et de l'écart absolu moyen ne sont pas dans le même sens.
D'ailleurs sois logique : Si l'écart absolu moyen diminuait quand la dispersion augmente (avec la variance, comme tu l'as noté), c'est un très mauvais outil de mesure de la dispersion. A trop vouloir prouver, tu joue contre ton camp !
Cordialement. -
Merci Gerard pour cette réponse qui commence à m'éclairer:
En somme et si je t'ai bien compris , il faut considérer que sauf exceptions la moyenne des écarts à la moyenne et la variance marchent dans le même sens
En fait ce qui m'a troublé depuis le début est que j'avais trouvé des contre exemples et que de ce fait je ne savais pas quel crédit accorder à deux indicateurs de la dispersion susceptibles de donner deux résultats qui se contredisent. (voir le contre exemple du message initial).
Alors d'un point de vue pédagogique et puisqu'il semble à mes yeux plus naturel de faire la moyenne des écarts à la moyenne , ne faut-il pas commencer par exposer cette notion , puis celle de variance et insister sur le fait que en général pour deux séries de même moyenne ,variance et moyenne des écarts à la moyenne marchent dans le même sens et qu'il vaut mieux travailler sur la variance du fait qu'elle se prête mieux aux développements théoriques .
Merci pour ta patience ! -
"D'un point de vue pédagogique" on fait ce qu'on peut. Si tu enseignes les statistiques en collège lycée, l'écart moyen absolu n'étant pas dans le programme, tu n'auras pas le temps. Si tu enseignes en école d'ingénieurs, tu peux en parler rapidement, mais le besoin de voir les outils efficaces (modélisation, échantillonnage, tests) fait que tu renonceras vite à perdre du temps avec ça.
Le vrai problème est que ce n'est pas très utilisé par les statisticiens. C'est facile à présenter à petit niveau (il y a juste à expliquer la nécessité de la valeur absolue), mais il y a peu de propriétés utiles. Et comme de toutes façons, il faudra bien passer à la variance (et ses propriétés calculatoires), parler de l'écart absolu moyen ne fait que brouiller la compréhension.
Cordialement. -
Bonjour,
Cela n'aménera pas vraiment d'eau au moulin mais pour mesurer une dispersion je préfère la déviation absolue de la médiane (à condition qu'il n'y ait pas ensuite à faire de calculs avec cet indicateur pour plusieurs variables aléatoires):
http://en.wikipedia.org/wiki/Median_absolute_deviation
D'après l'article il est plus robuste que la variance et la moyenne de l'écart absolu à la moyenne.
Déjà mentionné ici:
http://www.les-mathematiques.net/phorum/read.php?13,451478,451527 -
Merci d'avoir pris le temps de me répondre.
Cordialement
David -
porquoi prefere t'on l'ecart type à l'ecart moyer ?
-
Peux-tu définir ce que tu appelles "l'ecart moyer" ?
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.1K Toutes les catégories
- 59 Collège/Lycée
- 22.1K Algèbre
- 37.5K Analyse
- 6.3K Arithmétique
- 58 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 20 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.7K Géométrie
- 83 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 337 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 801 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres