Variance de moyenne empirique
Réponses
-
ben si tu pars de $m$ valeurs connues, c'est pas très compliqué lOl...ensuite, si tu veux te renseigner sur les processus ponctuels qui te permettront a priori de modéliser ce choix aléatoire de points dans $\R$, va dans le forum de probas et pose la question...en essayant d'être plus clair quand même
j'en connais un ou deux (au moins) qui se feront un plaisir de te répondre...
-
Salut à tous les deux,
Eh ben quelle abondance de messages... vous êtes de sacrés bavards. FlawlessBoy je pense que tu vas un peu loin en évoquant les processus ponctuels, je pense que les v.a. de Missmister prennent des valeurs $x_i$ arbitraires mais pas aléatoires, ce sont tout simplement des v.a. discrètes comme pour les probas de terminale. Donc les valeurs possibles sont $x_1,...,x_m$ et la proba d'atteindre chacune d'elles est $p_j=1/m$ puisqu'on suppose la loi uniforme.
Avant de passer à la moyenne empirique de $n$ v.a. on pourrait commencer par regarder la somme de deux v.a. $S=X_1+X_2$ ou les $X_i$ sont indépendantes et uniformément distribuées sur $\{x_1,...,x_m\}$. D'après Missmister on a dans ce cas $\mathbb{E}(S)=\frac{x_1+x_1}{n}+\frac{x_1+x_2}{m}+\cdots+\frac{x_1+x_m}{m} +\frac{x_2+x_1}{m}+\cdots+\frac{x_m+x_m}{m}$ donc toutes les sommes possibles de deux termes parmi $\{x_1,...,x_m\}$. Pourquoi cette formule est-elle fausse du premier coup d'oeil ? Parce que le total des probabilités qui apparaissent dans la somme est beaucoup plus grand que 1 ! En effet on a $m$ choix pour le premier terme, $m$ pour le second donc $m^2$ sommes $x_i+x_j$ et pour chacune on associe la probabilité $1/m$, donc au total $m^2 \times (1/m)=m>1$ est trop grand !
Pourtant c'était une bonne idée de considérer toutes les valeurs possibles pour $X_1$ et $X_2$, ça revient à une utilisation (inconsciente sans doute) de la formule des probabilités totales avec les évènements $A_{i,j}=\{X_1=x_i,X_2=x_j\}$. Chacun de ces évènements est de probabilité $(1/m) \times (1/m)=1/m^2$ puisque $A_{i,j}=\{X_1=x_i\} \cap \{X_2=x_j\}$ et puisque $X_1$ et $X_2$ sont indépendantes, la probabilité de l'intersection est le produit des probabilités. Conclusion la formule devient vraie si on met un carré aux $m$ du dénominateur. On peut rendre la formule plus claire en mettant $1/m^2$ en facteur : $\mathbb{E}(S)=\frac{1}{m^2}\sum_{i=1}^m \sum_{j=1}^m x_i+x_j$ et là on peut travailler sérieusement sur les sommes : puisque $x_i$ ne dépend pas de $j$ il sort de la somme sur $j$, affublé d'un coefficient $m$ puisque la somme comporte $m$ termes : $\sum_{i=1}^n \sum_{j=1}^n x_i+x_j=\sum_{i=1}^n mx_i+\sum_{j=1}^m x_j$. En appelant $s$ la somme de toutes les valeurs possibles pour $X_1$ et $X_2$ on obtient $\sum_{i=1}^n \sum_{j=1}^n x_i+x_j=\sum_{i=1}^m mx_i+s$ et là encore $s$ ne dépend pas de $i$, il sort donc de la somme en $ms$, et il reste $ms+\sum_{i=1}^m mx_i=ms+ms=2ms$ donc $\mathbb{E}(S)=\frac{2ms}{m^2}=2\frac{s}{m}$. Mais $\frac{s}{m}=\frac{1}{m}\sum_{k=1}^m x_k$ n'est autre que l'espérance commune à $X_1$ et $X_2$, et on a juste redémontré que $\mathbb{E}(S)=\mathbb{E}(X_1)+\mathbb{E}(X_2)$.
Pour la suite j'ai un peu la flemme de refaire tous ces calculs, mais si ça t'amuse tu peux le faire, ça sera chiant et long et sûrement ça ne t'apportera pas grand-chose à part de la dextérité avec les sommes. C'est vraiment dommage de ne pas vouloir comprendre les formules sur l'espérance et la variance, parce que ce sont elles qui contiennent toute la substance probabiliste, pas les grosses sommes dans tous les sens. Et notamment le fait un peu magique que la moyenne empirique ait une variance très petite, qui traduit des compensations entre les écarts à la moyenne de chaque échantillon, ne s'appréhende pas bien avec des calculs de sommes (à mon avis) mais se voit très bien sur le calcul de la variance. Et pour finir c'est très curieux de ne pas vouloir utiliser des théorèmes démontrés, qui économisent des pages de calculs... -
Merci .
Mais depuis le debut je n'arrete pas de défendre le fait que c'etait m² et c'est pour cela que je mets des 5^n un peu partout et c'etait en effet cela dont je voulais etre sur pour continuer sur la démonstration de la variance.
Sur la moyenne ca va encore mais c'est vrai que sur la variance c'est quand meme plus complexe.
Ca doit surement se simplifier pour arriver au resultat que l'on connait.
je vais quand meme essayer sur feuille de la faire avec la variance et trouver le resultat c'est quand meme un bon moyenne de voir la logique je pense.Je pense que ca montrera aussi pourquoi somme des variances donne variance des sommes avec les convariances qui s'annulent ( ca devrait donner un truk avec une double somme de covariance des Xi Xj)
Je suis d'accord pour le fait de voir que la variance des moyennes empiriques est décroissante en fonction de n ( on donne moi d'importance aux valeurs extremes) mais il est dur je pense de voir pourquoi on a pile poil 1/n, c'est seulement que je veux voir aussi. -
OK. Alors un truc qui pourrait quand même te simplifier la vie pour les calculs de variance est de considérer les $Y_i=X_i-\mathbb{E}(X_i)$, elles ont l'avantage d'avoir une moyenne nulle et la même variance que les $X_i$, et elles sont encore indépendantes, et la moyenne empirique $\overline{Y}=\overline{X}-\mathbb{E}(X_1)$ a la même variance que $\overline{X}$ aussi (parce que $V(Z+c)=V(Z)$).
Cela dit ces calculs tu dois quand même les avoir dans ton cours non ? Parce qu'en fait là ce que tu fais c'est redémontrer les formules générales que tu ne vaus pas utiliser. -
Non je les ai pas dans le cours et c'est pourquoi je les démontre car je n'aime pas utiliser des formules sans voir d'où elle viennent.
Merci beaucoup pour les conseils ca va m'aider beaucoup.
Si tu connais un cours qui traine sur le net ou un livre et où il y a ce genre de démonstration bien explicite j'hésite pas.
-
Hello tout le monde,
Si Missmister veut une formule générale en revenant à la base et les définitions, c'est tout a son honneur de vouloir comprendre à fond et nous devrions le/la faire plaisir... :-)
Je ne considère aucune loi de distribution a priori. Les variables aléatoires sont juste iid.
J'appelle $\overrightarrow{X}=(X_1, X_2, \ldots, X_n)^{T}$ le vecteur aléatoire discret qui peut prendre les valeurs $(x_{1}^{i}, x_{2}^{i}, \ldots, x_{n}^{i})^{T}$ avec la probabilité $\mathbb{P} (X_1=x_{1}^{i},X_2=x_{2}^{i},\ldots, X_n=x_{n}^{i})$.
L'indice $i$ correspondra donc à l'indexation sur l'ensemble des réalisations possibles, le support (dénombrable puisque variable aléatoire discrète) de la variable aléatoire vectorielle $\overrightarrow{X}$ seras donc appelé $\Delta
=\left\{\overrightarrow{x^{i}} \right\}$.
Avec alors $\bar{X}_{n}=\dfrac{1}{n}\sum_{j=1}^{n}X_j$, $j$ est alors mon indexation sur l'ensemble des coordonnées de $\overrightarrow{X}$.
Dès lors, on applique tout bêtement la formule de l'espérance :
\begin{eqnarray}
\mathbb{E}[\bar{X}_{n}] & = & \dfrac{1}{n}\cdot\left(
\sum_{\overrightarrow{x^{i}} \in
\Delta}(x_{1}^{i}+x_{2}^{i}+...+x_{n}^{i})\cdot
\mathbb{P}(X_1=x_{1}^{i},X_2=x_{2}^{i},...,
X_n=x_{n}^{i}) \right) \\
& = & \dfrac{1}{n}\cdot\left( \sum_{\overrightarrow{x^{i}} \in
\Delta}(x_{1}^{i}+x_{2}^{i}+...+x_{n}^{i})\cdot
\prod_{j=1}^{n}\mathbb{P}(X_{j}=x_{j}^{i})
\right) \\
& = & \dfrac{1}{n}\cdot\left( \sum_{\overrightarrow{x^{i}} \in
\Delta}\sum_{j=1}^{n}\left[x_{1}^{i}\cdot
\prod_{j=1}^{n}\mathbb{P}(X_{j}=x_{j}^{i})
\right]\right) \\
& = & \dfrac{1}{n}\cdot\left(
\sum_{j=1}^{n}\sum_{\overrightarrow{x^{i}} \in \Delta}
\left[x_{1}^{i}\cdot\prod_{j=1}^{n}\mathbb{P}(X_{j}=x_{j}^{i})
\right]\right) \\
& = & \dfrac{1}{n}\cdot\left( \sum_{j=1}^{n}
\left[\sum_{\overrightarrow{X}_l = x_{l}^{i}\in \Delta, l \neq
j}\left( \sum_{X_{j}= x_{j}^{i}\in \Delta} x_{j}^{i}\cdot
\mathbb{P}(X_{j}=x_{j}^{i})\right)\prod_{l=1, l\neq
j}^{n}\mathbb{P}(X_{j}=x_{j}^{i}) \right]\right) \\
& = & \dfrac{1}{n}\cdot\left( \sum_{X_{j}= x_{j}^{i}\in \Delta}
x_{j}^{i}\cdot
\mathbb{P}(X_{j}=x_{j}^{i})\right) \\
& = & \dfrac{1}{n}\cdot \sum_{j=1}^{n} \mathbb{E}[X_j] \\
& = & \dfrac{1}{n}\times \left(n \times \mathbb{E}[X_1] \right) \\
& = & \mathbb{E}[X_1]
\end{eqnarray}
Je justifie brièvement les passages :
ligne 1 à ligne 2 : indépendance des v.a. car iid
ligne 2 à ligne 3 : rien, j'ai juste regroupé sous le terme de somme
ligne 3 à ligne 4 : les sommes sont interverties car on a convergence normale des séries (le support est dénombrable, pas fini, mais on est sauvé par le fait que que la série converge normalement)
ligne 4 à ligne 5 : j'ai séparé les termes de en paquets
ligne 5 à ligne 6 : on applique la formule de décomposition, qui est une variante de la formule des lois marginales :
$ \displaystyle \mathbb{P}(X_i = x_i)= \sum_{y_i} \mathbb{P}(X=x_i, Y=y_i)$.
ligne 7 à ligne 8 : les v.a. sont iid, donc ont même espérance, donc la même que la première.
Je ne fais pas le calcul pour la variance car c'est vraiment très moche et très calculatoire, mais je conseille à Missmister de le faire pour bien comprendre et aller au fond des choses. Et aussi pour la dégoûter définitivement et l'inciter à untiliser les propriétés de linéarité de l'espérance et de variations quadratiques pour la variance.
See ya'
vinh -
C'est très courageux Vinh
Sinon bien d'accord avec toi, il faut le faire une fois pour s'en dégoûter. Mais je pensais que Missmister avait la preuve dans le cas général dans son cours et qu'elle voulait le refaire dans le cas particulier où les v.a. sont iid. C'est vrai que c'est louable de sa part de vouloir comprendre d'où ça vient. -
WOAH ça c'est de la démonstration, je vais l'étudier en détail car je pense que pour réussir à faire la même avec la variance ça ne va pas être chose simple.
Merci encore une fois c'est exactement le genre de démonstration que je voulais pour bien cerner le sujet (malheureusement je ne crois pas que de tels genres de démo par exemple pour la variance existe vraiment, pourtant il faut dire que j'ai pas mal cherché). -
Pour la variance,
comme tu connais deja la valeur de $\mathbb{E}[\bar{X}_n]$ demontree plus haut, tu n'as plus qu'a faire la chose suivante : utiliser la formule simplifiee de la variance, a savoir $Var(\bar{X}_n) = \mathbb{E}[\bar{X}_{n}^{2}]-\left(\mathbb{E}\left[\bar{X}_n\right]\right)^2$ plutot que la definition originelle. C'est facile a demontrer (entraine-toi a le verifier) donc tu ne vas pas etre revulsee par cette simplification...
Ensuite, comme le deuxieme terme est connu, reste a regler le cas de $\mathbb{E}\left[\bar{X}_{n}^{2}\right]$.
Tu reprends la demonstration plus haut, mais cette fois, a la premiere ligne, la somme initiale des $(x_{j}^{i})$ est au carre, donc va falloir que tu developpes et tu vas avoir affaire a des doubles sommes (i different de j), bref un truc degueulasse, mais tu pourras etre fier(e) si tu arrives jusqu'au bout.
Cela te fera manier les sommes et c'est un bon exercice.
See ya'
vinh -
j'oubliais... la factorisation se fait par 1/n^2 et non plus par 1/n, mais je suis sur que tu l'aurais remarque...
-
Merci je vais le faire !!!
Juste une toute petite question j'ai pas compris le passage de la ligne 4 à 5 désolé. -
Ah oui aussi dans la ligne (1) le xi1+xi2+xi3+...+xin n'est pas sur n(*1/n) car c'est la moyenne d'une moyenne de ces nombres ?
-
ligne 1 : j'ai factorise par (1/n) au tout debut car on peut le sortir de la somme, donc oui, j'ai saute une etape, mais cela m'avait semble evident.
ligne 4 a 5 : il faut bien voir que tu fais une somme sur tous les $x_{j}^{i}$ (toutes les coordonnees $j$ et pour une coordonnee $j$ donnee, toutes les realisations $i$ possibles). Pour un $j$ donne, j'ai isole toutes les probas $p_{j}^{i}$ et j'ai laisse les autres coordonnees non egales a $j$ entre elles. En les regroupant successivement une a une a la suite, elles vont se cumuler et etre egales a 1 car tu sommeeras sur toutes les realisations possibles de l'espace (formules de decomposition).
Je te conseille de passer de la premiere ligne a la seconde en ecrivant explicitement les trois premiers termes (selon le numero de la realisation, pas la corrdonnee puisqu'elle est deja explicitee a la premiere ligne -je n'ai pas encore factorise sous une somme a la 1ere ligne-) pour comprendre comment ca fonctionne. Si tu n'es pas convaincue, regarde plus bas sur l'exemple simplificateur qui te donnera une idee sur le pourquoi du regroupement.
Pour les autres (dont ergoroff), je viens de me rendre compte d'une chose : les variables etant iid, on aurait pu aller beaucoup plus vite puisque pour tout $i$ (une realisation donnee), on a $x_{1}^{i}=x_{2}^{i}=...=x_{n}^{i}$ puisqu'elles ont meme support. Cela donc devient expeditif puisqu'alors, on a directement l'egalite suivante :
\begin{eqnarray*}
\mathbb{E}[\bar{X}_n] & = & \dfrac{1}{n}\sum_{x_{1}^{i}\in \Delta^{n}} n \cdot x_{1}^{i} \left(\mathbb{P}[X_1 = x_{1}^{i}]\right)^n \\
& = & \sum_{x_{1}^{i}\in \Delta^{n-1}} \left( \sum_{x_{1}^{i}\in \Delta}x_{1}^{i} \mathbb{P}(X_1 = x_{1}^{i}) \right) \cdot \left(\mathbb{P}[X_1 = x_{1}^{i}]\right)^{n-1}
\end{eqnarray*}
puis pareil, on recompose par la formule de decomposition... Me trompe-je ? -
Ah oui ok , 1ere ligne désolé cela doit être la fatigue en fait le terme que je te disais est modélisé par le P(X1=xi1,.....)
Et la ligne 5 je vois beaucoup mieux merci. -
Es-tu sure que tu vois beaucoup mieux ? Je te sens un peu hésitante,
alors comme je suis sympa aujourd'hui, je vais plus détailler et te
montrer sur un cas simple...
En réalité, à la ligne 5, le terme $\displaystyle \left(\sum_{X_{j}=
x_{j}^{i}\in \Delta} x_{j}^{i}\cdot \mathbb{P}(X_{j}=x_{j}^{i})
\right)$ peut se sortir de la grosse somme (qui est en fait une
succession de sommes comme tu as dû le comprendre) et on a alors que
$$
\mathbb{E}[\bar{X}_{n}] = \dfrac{1}{n}\cdot \left(\sum_{j=1}^{n} A
\left(\sum_{X_{j}= x_{j}^{i}\in \Delta} x_{j}^{i}\cdot
\mathbb{P}(X_{j}=x_{j}^{i}) \right) \right)
$$
ou
$$
A=\sum_{x_{1}^{i}\in \Delta} \left( \sum_{x_{2}^{i}\in \Delta}
\left( ... \sum_{x_{l}^{i}\in \Delta , l\neq j} \left( ...
\sum_{x_{n}^{i}\in \Delta} \mathbb{P}(X_n=x_{n}^{i}) ... \right)
\mathbb{P}(X_l=x_{l}^{i}) ... \right) \mathbb{P}(X_2=x_{2}^{i})
\right) \mathbb{P}(X_1=x_{1}^{i})
$$
Mais voilà, la dernière somme vaut 1 car tu sommes sur toutes les
probabilités de réalisations possibles (les évènements $\{X_n =
x_{n}^{i}\}$) de la variable aléatoire numéro $n$, donc la somme de
ces probas vaut 1. Mais comme cette proba vaut 1, la somme qui
contient cette proba se simplifie encore puisque tu sommes sur
toutes les réalisations possibles de la variable aléatoire $(n-1)$
et ainsi de suite... Donc le terme $A$ vaut rigoureusement 1.
Prends cet exemple simple : 2 variables aléatoires avec seulement 2
réalisations possibles.
Je note par exemple $x_{2}^{1}$ la réalisation (valeur possible)
numéro 1 de la variable aléatoire numero 2. Je note aussi
$p_{2}^{1}=\mathbb{P}(X_2=x_{2}^{1})$.
On a alors
\begin{eqnarray*}
\mathbb{E}[\bar{X}_{2}] & = & \sum_{(i,i)=[1;2]\times [1;2]} \left( \dfrac{(x_{1}^{i}+x_{2}^{i})}{2}\cdot p_{1}^{i} \cdot p_{2}^{i}\right) \\
& = & \dfrac{1}{2}\left[ \left(x_{1}^{1}+ x_{2}^{1}\right)\cdot
\cdot p_{1}^{1}\cdot p_{2}^{1} +\left(x_{1}^{1}+
x_{2}^{2}\right)\cdot p_{1}^{1}\cdot p_{2}^{2} +\left(x_{1}^{2}+
x_{2}^{2}\right)\cdot p_{1}^{2}\cdot p_{2}^{2} +\left(x_{1}^{2}+
x_{2}^{1}\right)\cdot p_{1}^{2}\cdot p_{2}^{1}
\right] \\
& = & \underbrace{\left(x_{1}^{1}\cdot p_{1}^{1}+ x_{1}^{2}\cdot
p_{1}^{2}\right)}_{\mathbb{E}[X_1]}\cdot\underbrace{\left(p_{2}^{1}+p_{2}^{2}
\right)}_{=1}
+ \underbrace{\left(x_{2}^{1}\cdot p_{2}^{1}+ x_{2}^{2}\cdot p_{2}^{2}\right)}_{\mathbb{E}[X_2]}\cdot\underbrace{\left(p_{1}^{1}+p_{1}^{2} \right)}_{=1} \\
& = & \dfrac{1}{2} \left( \mathbb{E}[X_1]+\mathbb{E}[X_2] \right) \\
& = & \mathbb{E}[X_1]
\end{eqnarray*}
La subtilité que tu n'as peut-être pas vue est que les sommes se
font sur toutes les combinaisons possibles pour les réalisations du
vecteur.
Bon courage
(c'est ma dernière contribution...)
vinh -
Ahhh oui je vois!! En fait c'etait l'étape cruciale quand même lol.
Merci d'avoir tant détaillé(dit donc tu maitrises bien le LateX en plus...)
Bonne soirée. -
Une question beaucoup moins centré sur le calcul mais sur la logique.
Est ce que quelqu'un sait pourquoi la compensation des variances des diferentes rélaisation de la moyenne empiriques est de sorte que cela nous donne exactement la variance de la population sur la taille d'échantillon.
Logiquement je vois que chaque valeur extreme à beaucoup moins de poid quand on calcule $(bar)X_n$ mais je ne vois pas pourquoi c'est pil poil le coeficient 1/n.
Peut on voir voir ce résultat sans démonstration analytique?
Merci encore.
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.5K Toutes les catégories
- 64 Collège/Lycée
- 22.2K Algèbre
- 37.6K Analyse
- 6.3K Arithmétique
- 61 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 26 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.8K Géométrie
- 85 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 29 Mathématiques et finance
- 343 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.4K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 804 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres