Intervalle de confiance - plusieurs v.a.

Bonjour,

Je reviens sur le forum après un long moment,
car j'ai un petit problème issu de l'informatique auquel une réponse serait la bienvenue.

On se donne plusieurs variables aléatoires réelles $X_{i,j}$ avec $i \in [\![ 1, ..., n ]\!] $ et $j \in [\![ 1, ..., m ]\!] $.
Etant donné p réalisations de chacun des $X_{i,j}$ notées $x_{i,j}^{(1)}, ..., x_{i,j}^{(p)}$, peut-on formuler des hypothèses raisonnables (par exemple "les $X_{i,j}$ suivent chacune une loi Gaussienne") avec lesquelles on pourrait formuler un intervalle de confiance pour la variable aléatoire $\bar{X} = \frac{1}{m n p} \sum_{k=1}^p \sum_{i,j} X_{i,j}^{(k)}$?
Les $X_{i,j}^{(k)}$ suivent la même distribution pour $i,j$ fixés (et leur réalisation est notée $x_{i,j}^{(k)}$).

Dans le cas $n=1$ et $m=1$, si les $X^{(k)}$ suivent une distribution normale on sait que l'intervalle de confiance pour $\bar{X}$ au niveau $\alpha$ est de la forme:
$C(X) = \left[ \bar{x} - \frac{\sigma Z_{\alpha}}{\sqrt{p}}, \bar{x} + \frac{\sigma Z_{\alpha}}{\sqrt{p}} \right]$.

Pour information, dans mon cas concret,
$i$ représente l'indice d'un certain paramètre
$j$ représente l'indice d'un certain ensemble de données de test
et $X_{i,j}$ représente la précision/performance d'un réseau de neurones (ANN) amené à faire une certaine tâche (et évalué sur les données indexées par j).
Comme les réseaux neuronaux sont des algorithmes aléatoires, je calcule $p$ réalisations pour chaque ensemble.
Je peux donc calculer la précision moyenne de mon ANN mais je ne sais pas exactement quelle est la meilleure façon de quantifier l'incertitude de cette précision.

Merci d'avance,
Michel

Réponses

  • Bonjour.

    Si tes va suivent la même loi ("suivent la même distribution "), de façon indépendante, l'ensemble de leurs valeurs est un échantillon à partir duquel on pourra choisir une loi adaptée. La difficulté ne s'est pas accrue du fait qu'il y a plusieurs variables. Et s'il n'y a pas indépendance, on peut essayer de faire le même travail avec l'une d'entre elles.
    Pour la moyenne, le fait qu'il y ait 2 indices ne change rien à la question.

    Mais très souvent, plutôt que de "fitter" les données, rechercher directement dans la théorie quelle loi pourraient suivre les variables aléatoires, donc utiliser des réflexions non statistiques est plus efficace.

    Une dernière chose : Attention à l'aspect trompeur d'une moyenne. Si on mesure une longueur de vraie valeur 1m et qu'on trouve 50 cm, 80 cm, 1,5m, 1,2 m, la moyenne est bonne mais toutes les mesures sont très fausses.

    Cordialement.
  • Merci beaucoup pour les éclairages et réflexions.
    Je reformule donc le problème dans les deux cas suivant :


    1) Estimation d'un intervalle de confiance pour la moyenne statistique d'une moyenne de v.a.r.

    On se donne plusieurs variables aléatoires réelles $X_i^{(k)}$ avec $i \in [\![ 1, ..., n ]\!] $ et $k \in [\![ 1, ..., p ]\!] $.
    On suppose que les $X_i^{(k)}$ sont indépendantes pour tous $i,k$.
    On suppose que pour $i$ fixé, les $X_i^{(k)}$ suivent la même loi Gaussienne de moyenne $\mu_i$ et déviation standard $\sigma_i$.

    Peut-on formuler un intervalle de confiance pour la variable aléatoire
    $\bar{X} = \frac{1}{n p} \sum_{k=1}^p \sum_{i=1}^n X_i^{(k)}$?

    ("dans ce premier cas $k$ représente en fait concrètement l'indice de la réalisation d'une variable aléatoire $X_i$")



    2) Estimation d'un intervalle de confiance pour une moyenne de v.a.r.

    On se donne plusieurs variables aléatoires réelles $X_i$ avec $i \in [\![ 1, ..., n ]\!] $.
    On suppose que les $X_i$ sont indépendantes.
    On suppose que pour $i$ fixé, les $X_i$ suit un loi Gaussienne de moyenne $\mu_i$ et déviation standard $\sigma_i$.

    Peut-on formuler un intervalle de confiance pour la variable aléatoire
    $\tilde{X} = \frac{1}{n} \sum_{i=1}^n X_i$?
  • Bonjour.

    1) Avec les conditions sur les $X_i^{(k}$ (*), $\bar X$ suit une loi Normale dont moyenne et variance sont faciles à calculer. Le fait de rajouter à la fin "$k$ représente en fait concrètement l'indice de la réalisation d'une variable aléatoire $X_i$" fait que la somme que tu appelles $\bar X$ a des intervalles de confiance dispersion déterminés par sa loi (voir ci-dessus). Du style $[m-1,96\sigma,m+1,96\sigma]$ pour une confiance de 95%. C'est du cours élémentaire sur les variables gaussiennes. Des intervalles de confiance porteraient éventuellement sur une autre variable aléatoire, construite à partir des $X_i$, par exemple.

    2) C'est la même chose, $\tilde X$ suit la loi $\mathcal N(\frac{1}{n} \sum_{i=1}^n \mu_i, \frac{1}{n^2} \sum_{i=1}^n \sigma_i^2)$ (cours de probas - variables aléatoires gaussiennes). Pour un intervalle de confiance, il faudra faire des stats; pour l'instant, il n'y a ici que des probas.

    J'ai fortement l'impression que tu copies des morceaux de formules de probas qui servent à définir des intervalles de confiance, sans avoir fait le départage entre ce qui est la base probabiliste, et son application statistique. Ce qui est caractéristique c'est un intervalle de confiance (il y a des infinités d'intervalles, et même pour des intervalles centrés, il y en a autant que de valeurs possibles de la confiance) et le fait que tu écrives "un intervalle de confiance pour la variable aléatoire .." ce qui n'a pas de sens (un intervalle de confiance porte sur une valeur fixe, déterministe).

    Par exemple, pour estimer la moyenne $\mu$ d'un caractère dans une population, on va mesurer ce caractère.
    Partie probabiliste :
    Pour un échantillon aléatoire, on note $X_i$ les valeurs du caractère. En supposant que la distribution de ce caractère est gaussienne, d'écart type $\sigma$ connu, la variable $\bar X = \frac 1 n \sum_1^n X_i$ suit la loi $\mathcal N(\mu,\frac{\sigma^2}n)$, donc à 95% de probabilité $\mu-1,96 \frac{\sigma}{\sqrt n}<\bar X< \mu+1,96 \frac{\sigma}{\sqrt n}$.
    Partie statistique :
    On teste un échantillon de n individus. En supposant que les tests sont indépendants, la moyenne m dans l'échantillon est une réalisation de $\bar X$ et donc, avant le test, on avait 95% de chances d'obtenir $\mu-1,96 \frac{\sigma}{\sqrt n}<m< \mu+1,96 \frac{\sigma}{\sqrt n}$ (1). Mais m n'est pas une variable aléatoire, mais une valeur déterminée, et donc on dira qu'avec 95% de confiance, $m-1,96 \frac{\sigma}{\sqrt n}<\mu< m+1,96 \frac{\sigma}{\sqrt n}$, formule qu'on tire de (1) par des calculs de fin de collège. L'intervalle $[m-1,96 \frac{\sigma}{\sqrt n}, m+1,96 \frac{\sigma}{\sqrt n}]$ est un intervalle de confiance sur la valeur inconnue de $\mu$.

    Il faut noter que $\mu$ n'est pas une variable aléatoire. C'est une valeur inconnue, qui ne varie pas avec le choix de l'échantillon. La variable aléatoire est $\bar X$, la moyenne d'un échantillon pris au hasard. $m$ non plus n'est pas une variable aléatoire.

    Reprendre à fond, en comprenant bien, un cours sur l'estimation par intervalle de confiance serait une bonne idée.

    Cordialement.

    (*) quelle notation barbare !
  • Merci beaucoup pour les réponses!
    Tout est beaucoup plus clair maintenant!
    Je vais revoir mes cours de probabilités et de statistiques quand j'aurai un peu de temps...
    Cordialement,

    Michel
Connectez-vous ou Inscrivez-vous pour répondre.