variance

shinitchi
Modifié (7 Sep) dans Statistiques
Bonjour à tous,

je me questionne sur l'origine de la formule de la variance. Je comprends bien l'idée de la coupler avec la moyenne pour avoir une idée de la dispersion des valeurs, mais pourquoi avoir pris :

$V=\dfrac{1}{n}\sum\limits_{i=1}^n (x_i-\overline{x})^2$

j'imagine (peut être à tort) que le carré force à sommer des valeurs positives pour éviter que les écarts à la moyenne ne se compensent. Cependant, si tel était le cas, pourquoi ne pas avoir pris la valeur absolue de ces écarts ?

$V=\dfrac{1}{n}\sum\limits_{i=1}^n |x_i-\overline{x}|$

Qu'apporte l'écart type de plus que la variance ?

Réponses

  • Bibix
    Modifié (7 Sep)
    Bonjour,
    Tu as des observations $(x_i)_{1 \leq i \leq n}$ dont tu peux déduire la moyenne si elles vivent dans un espace convexe qui est $\overline{x} = \frac{1}{n}\sum_{i = 1}^n x_i$. Tu peux remarquer que cette notion de moyenne est complètement arbitraire a priori car on aurait pu prendre par exemple $\sum_i \alpha_i x_{\sigma(i)}$ où $(x_{\sigma(i)})_i$ est une suite croissante formée des observations $x_i$ et $(\alpha_i)_i$ est décroissante qui donne une mesure tout à fait acceptable (bien que pessimiste).

    Un autre exemple plus important pour ta question : pourquoi choisir de prendre la moyenne plutôt que la médiane ?

    _ Si tu cherches le $c$ qui minimise $\frac{1}{n} \sum_{i = 1}^n (x_i-c)^2$, tu trouveras $c = \frac{1}{n} \sum_i x_i$.
    _ Si tu cherches le $c$ qui minimise $\frac{1}{n} \sum_{i = 1}^n |x_i-c|$, tu trouveras que $c$ est la médiane.

    Quel est le bon choix ? Ben ça dépend de ce que tu veux faire. Le couple médiane/différence absolue permet de moins prendre en compte les valeurs extrêmes. Le couple moyenne/variance est plus facile à manipuler pour beaucoup de monde.

    Du coup, pour en revenir à ta question, si tu prends $\frac{1}{n} \sum_i |x_i-\overline{x}|$ comme mesure de la dispersion des valeurs, ce n'est pas incohérent et c'est même utilisé dans certains cas (où on veut éliminer les valeurs extrêmes) mais c'est arbitraire.
  • Merci @Bibix pour ta réponse. Je n'avais pas en tête tes deux "tirets".

    Autre question, comment présenter la formule de la variance (ou l'écart type) à un élève de lycée sans pondre la formule (comment se construit-t-elle) ?
  • Bibix
    Modifié (7 Sep)
    Mathématiquement, c'est ce que tu décrivais. On cherche à quantifier l'écart moyen entre $\overline{x}$ (qui est le barycentre) et $(x_i)_i$. Du coup, on prend $\frac{1}{n} \sum_{i = 1}^n d(\overline{x}, x_i)^2$ qui est la moyenne des écarts dans l'espace métrique qui donne comme barycentre $\overline{x}$, i.e. l'espace euclidien. Cependant, un lycéen actuel ne voit ni la notion de barycentre (ce qui est dommage), ni la notion de distance (ce qui est normal). Donc tu peux éviter tout ça en disant que l'écart entre $\overline{x}$ et $x_i$, ben c'est $|x_i - \overline{x}|^2$ et on fait la moyenne de ça puis on prend la racine carrée pour que l'écart-type soit homogène. Pour justifier le carré, tu peux montrer avec les mains les deux tirets et dire que c'est adapté à la moyenne mais déjà là, ça devient compliqué pour un lycéen. De toute façon, rentrer dans ces détails au lycée est inutile vu que les lycéens n'ont pas les outils.
  • shinitchi
    Modifié (7 Sep)
    @Bibix merci encore pour ta réponse. Malheureusement, je ne comprends pas tout. Je ne doute pas de la clarté de tes explications mais j'ai oublié beaucoup de notions et d'automatismes (notamment sur les mesures de distance).

    Pour te montrer où j'en suis, dans ma tête (probablement très loin...) : 
    l'écart entre $\overline{x}$ et $x_i$, c'est $|x_i-\overline{x}|$ et non $|x_i-\overline{x}|^2$, c'est pourquoi pour quantifier la dispersion des valeurs autour de la moyenne, je me demandais pourquoi on n'avait pas choisi $V=\sum\limits_{i=1}^n |x_i-\overline{x}|$. Je m'imaginais dire, on regarde l'écart entre chaque valeur et la moyenne puis "on en fait une moyenne".

    Je comprends ce que tu dis pour l'écart-type et le fait d'homogénéiser. Finalement, mon problème reste sur les carrés qui apparaissent dans la variance.
  • L'utilisation des carrés permet d'obtenir une fonction lisse, c'est-à-dire dérivable partout. Cela facilite les problèmes en optimisation, notamment dans des domaines comme la statistique et la théorie des moindres carrés, où les dérivées jouent un rôle crucial. La valeur absolue, en revanche, complique la résolution de certains problèmes d'optimisation vu sa non dérivabilité partout 
    Lorsque notre cher Nico, le professeur, intervient dans une question d'analyse, c'est une véritable joie pour les lecteurs..


  • Rescassol
    Modifié (7 Sep)
    Bonjour,

    Pourquoi choisit on comme norme d'un vecteur $||\overrightarrow{u}||=\sqrt{x^2+y^2}$ plutôt que $|x|+|y|$ ?
    Les deux sont des normes, mais les espaces euclidiens ont des tas de propriétés intéressantes, produit scalaire etc...

    Cordialement,
    Rescassol

  • Bibix
    Modifié (7 Sep)
    @shinitchi Je ne connais pas la raison historique du choix d'utiliser l'écart-type et la moyenne au lieu de l'écart absolu et la médiane mais je connais un chercheur qui doit savoir. Par contre, je suis presque sûr que la raison fondamentale pour laquelle on utilise l'écart-type avec la moyenne arithmétique, c'est parce-que la moyenne arithmétique minimise l'écart-type entre elle et les observations (qui est donc une bonne estimation de la dispersion entre les valeurs). Et puis c'est aussi plus facile à manipuler pour la plupart des personnes qui utilisent les statistiques comme je l'ai mis dans mon premier message.

    Va parler de médiane à un médecin :).
  • @gebrane @Rescassol @Bibix
    merci beaucoup à tous les trois pour vos réponses. Tout de suite, je n'ai pas d'autres choix que de vous faire confiance sur le fait que ça simplifie bien des choses car il me manque des notions sur les utilisations de la variance même si les réponses de @Bibix vont dans ce sens.

    Encore merci.
  • Je me souviens d'une réunion avec un inspecteur général dans les années nonante.
    À la fin il nous avait donné une manière de présenter moyenne, écart-type et coefficient de corrélation linéaire pour les BTS.
    On a un vecteur d'observation $X=(x_1,\dots,x_n)$. La moyenne est la projection orthogonale M de ce vecteur sur la droite de vecteur directeur $(1,\dots,1)$ et l'écart-type est la distance $XM$ divisée par $\sqrt{n}$.
    Après on a facilement le fait que le coefficient de corrélation linéaire est un cosinus etc.
  • Les paramètres de la loi normale (qui est « naturelle ») sont la moyenne et l’écart-type. De plus, moyenne et écart-type sont en pratique plus faciles à calculer que médiane et écart-moyen.
Connectez-vous ou Inscrivez-vous pour répondre.