Notions & notations ambiguës en stats/probas

Bonjour
Je me remets aux stats & probas et il me semble voir beaucoup d'amalgames/confusions.
Les notations sont nombreuses et parfois interchangées (à tort ?).
L'utilisation du terme "variance" entre statistiques et probabilités me semble ambigu.


1) Espérance & Moyenne
Pour l'espérance en probabilités et la moyenne (arithmétique) en statistiques, je vois souvent l'amalgame mais si je ne me trompe pas :

Moyenne (angl = "average") : On a une population, ou un échantillon (angl = "sample"), qui peuvent très bien être le résultat d'un certain nombre de réalisations/tirages d'une expérience aléatoire. La moyenne est la somme des valeurs relevées/mesurées pondérées par leurs effectifs divisé par le nombre total de valeurs. Pour une variable aléatoire $X$, sa moyenne est notée $\overline{X}$ ou $\mu_X$ ou $\mu$ (et en français on a même $m_X$ ou $m$ ou $moy(X)$).

Espérance (angl = "expected value", "mean") : On a une expérience aléatoire avec des issues plus ou moins probables. L'espérance est la somme des valeurs des issues pondérées par leurs probabilités. L'espérance peut être vue comme la moyenne qu'on peut espérer/attendre obtenir sur un "grand" nombre de réalisations. Plus précisément, la moyenne tend vers l'espérance quand le nombre de valeurs prises en compte tend vers l'infini. Pour une variable aléatoire $X$, son espérance est notée $E(X)$ (et en anglais aussi $mean(X)$).

J'ai vu des gens qui interchangent $E(X)$ et $\overline{X}$ mais pour moi c'est une double erreur car cela mélange deux théories qui bien que liées restent distinctes et de plus les valeurs sont a priori différentes.

2) Variance & ... variance ???
Là j'ai l'impression qu'il y a un problème (en français comme en anglais d'ailleurs). C'est le même mot qui est utilisé en probabilités et en statistiques, pourtant il me semble que ce n'est pas la même chose !

En statistiques : La variance est la moyenne des carrés des écarts des valeurs relevées/mesurées par rapport à la moyenne calculée à partir de ces mêmes valeurs.

En probabilités : La variance est la moyenne des carrés des écarts des valeurs des issues par rapport à l'espérance. Il me semble que la variance statistique devrait converger vers la variance probabiliste quand le nombre de valeurs prises en compte tend vers l'infini.

On rencontre les notations suivantes : $V(X)$, $var(X)$, $\sigma²(X)$, ${\sigma_X}^2$, ${\sigma}^2$, ${s_X}^2$.
Pour l'écart-type, on utilise souvent la variance (avec l'exposant en moins).

3) En statistiques inférentielles
Là on s'amuse, car en plus de ce qui précède, il faut encore savoir si ça concerne un échantillon ou la population !

Selon qu'on parle d'un échantillon ou de la population, certaines notations semblent préférées :
  • $\mu$ pour la population et $\overline{X}$ pour l'échantillon
  • ${\sigma}$ pour la population et ${s_X}$ pour l'échantillon
Mais il n'y a pas l'air d'avoir de règle absolue et ça dépend de qui écrit...

En français, on rajoute parfois un indice $e$ quand c'est pour l'échantillon (s'il n'y en a qu'un), ça fait donc $\mu_e$ ou $m_e$. En anglais, ils pourraient mettre un $s$ mais je n'ai pas l'impression que ça se fasse beaucoup.

Quand il s'agit d'une estimation (ponctuelle), certains mettent un chapeau (e.g. $\hat{\sigma}$) mais là encore ça dépend de l'auteur.

Exemple de "traduction" un peu laborieuse vu en statistiques inférentielles :
$E(\overline{X}) = \mu$

L'espérance de la moyenne arithmétique calculée sur l'échantillon est la moyenne arithmétique dans la population. Autrement dit si on prend un échantillon, qu'on calcule la moyenne dedans, et qu'on repète l'opération un "grand" nombre de fois, la moyenne des moyennes tend vers la moyenne de la population. C'est bien ça ?


CONCLUSION
Il y a matière à confusion. En réfléchissant, on peut déchiffrer mais si je devais donner des cours dans le supérieur, je ne suis pas sûr que je serais clair.
Pourriez-vous m'apporter des corrections et/ou des éclaircissements ?
Ou encore la référence d'un bon ouvrage/lexique ?


Merci de votre attention.

Réponses

  • Oui, c'est un "notational nightmare" comme dit David Williams...

    Les lettres grecques comme $\mu$ et $\sigma$ sont en général réservées pour la population. Je n'ai jamais vu ces lettres utilisées pour l'échantillon (on peut utiliser $\hat\mu$ et $\hat\sigma$ mais je préfère $\overline{x}$ et $sd(x)$).

    Pour l'échantillon on peut dire "moyenne empirique" et "variance empirique" pour distinguer de la moyenne et de la variance pour la population (qu'on peut aussi appeler "moyenne théorique" et "variance théorique").
  • Bonjour Lostdatum.

    Un des problèmes de vocabulaire vient de l'utilisation, en statistiques inférentielles (*), des notions déjà présentes en statistiques descriptives (analyse de données exhaustives, cad sur toute la population). Comme en plus, les probas se sont appuyées sur les stats et réciproquement; les mêmes noms servent à des notions proches, mais différentes, suivant les contextes.
    Mais tu ne peux pas interdire aux statisticiens, qui les utilisent depuis deux siècles de parler de variance et d'écart type pour une variable statistique. D'autant que ça va être pratique de passer de la statistique sur l'échantillon à l'estimateur sur la population.
    Dans l'exemple que tu donnes, il y a une traduction "théorie" : L'espérance de la variable aléatoire "moyenne des valeurs de l'échantillon" est $\mu$; et une traduction "mise en pratique" : En moyenne la moyenne des valeurs de l'échantillon obtenu vaut $\mu$. Tu remarqueras que dans le premier cas, tu as fait une moyenne de variables aléatoires (**) qui n'est pas une espérance.

    Une mauvaise habitude française est de vouloir 1 seul mot pour chaque notion et une seule notion pour chaque mot. D'où une inflation de vocabulaire ! Ce n'est pas possible, la langue évolue, même les langues scientifiques, et la polysémie peut être très utile : Voir la domination de l'anglais scientifique, pourtant bien moins précis.
    Une autre est de rester dans la théorie, alors que ces notions ont des utilisations concrètes très fréquentes : Normes, contrôle de qualité, fiabilité, prévisions économiques ou commerciales, épidémiologie, etc.

    Cordialement.

    (*) celles dont tu parles, puisque tu te réduis à des échantillons
    (**) Les valeurs théoriques du tirage d'un échantillon sont des variables aléatoires. Lors du tirage d'un échantillon réel, on obtient leurs réalisations, les valeurs de l'échantillon.
  • Saturne écrivait : http://www.les-mathematiques.net/phorum/read.php?13,2139956,2140028#msg-2140028
    [Inutile de recopier l'avant-dernier message. Un lien suffit. AD]

    OK donc il y a donc quand même une convention dominante, très bien. Et pour la variance la distinction "empirique" et "théorique" semble un bon compromis (même si les notations restent toujours problématiques à mon avis).
    Merci de ta réponse.
  • Bonjour gerard0,

    Je suis d'accord que les abus de notations ont parfois du bon, mais je trouve que ça reste dangereux, surtout quand il n'existe pas de notation ou, pire encore, d'appellation rigoureuse. C'est pour ça que j'espérais qu'il y ait une distinction claire entre la variance au sens statistique et celle au sens probabiliste.
    Au fond, je suis bien obligé d'admettre que tu as raison, la langue a une histoire et une évolution qui ne peuvent pas être complètement contrôlées, mais ça ne m'empêche pas de m'en offusquer par moments !

    En tous cas, merci de ta réponse.
  • Sans compter que la "variance" peut désigner selon les cas $\sum(x-\bar{x})^2 / n\ $ ou $\ \sum(x-\bar{x})^2 / (n-1)$, non ?
  • Oui, le contexte permet généralement de savoir si on parle de la variance de l'échantillon (avec n) ou de l'estimateur (/tion) de la variance de la population à partir de l'échantillonnage. Les bonnes rédactions de stats utilisent des notations claires.

    Cordialement.
  • lostdatum a écrit:
    une distinction claire entre la variance au sens statistique et celle au sens probabiliste
    Note que la variance empirique (variance au sens statistique comme tu dis), est aussi une variance au sens probabiliste comme tu dis : c'est la variance de la loi discrète $\frac{1}{n}\sum_{i=1}^n \delta_{x_i}$ (la loi empirique de l'échantillon $(x_i)$).
Connectez-vous ou Inscrivez-vous pour répondre.