Généralité interprétation échantillon stat

Désolé pour la syntaxe du titre, je suis limite en longueur.

Je ne fais pas de proba ou à peine et je me demandais en tant que néophyte comment s’interprète un « échantillon » en statistique.

Imaginons qu’on souhaite estimer la taille moyenne des gens en France. Pour moi ça revient à prendre l’application f qui aux français associe leur taille, et on souhaite estimer la taille moyenne des français donc l’espérance de cette application à partir d’un échantillon de n personnes. Sauf que pour moi un échantillon de n personnes c’est un n-uplet de fonctions mesurables de même loi que f et indépendantes, donc des applications qui en particulier vont de « l’ensemble des français » dans l’ensemble des tailles.

Or dans l’interprétation d’une de ces fonctions (élément du n-uplet donc) on assimile la fonction à « prendre la taille d’un Français au hasard », je ne vois pas en quoi cette interprétation colle avec le fait que c’est une application définie sur l’ensemble de tous les français. Pour moi un élément de mon échantillon est bien défini pour moi vous etc... c’est très clair pour la fonction du début qui à chaque français associe la taille, mais je ne vois pas pourquoi les éléments de l’échantillon qui sont censés être « la taille » d’un français au hasard, sont aussi des variables aléatoires définies sur tous les français.

Ce n’est pas une question de maths, juste une curiosité sur l’interprétation des variables aléatoires pour un néophyte des probas.

Réponses

  • Bonjour.

    "un n-uplet de fonctions mesurables de même loi que f et indépendantes" A priori, non, il n'y a aucune raison de penser qu'elles sont indépendantes. Sauf si on fait un tirage avec remise, ce qui n'est pas le cas en général.
    Pourquoi dis-tu "fonctions mesurables et pas "variables aléatoires" ? Le modèle du tirage d'un échantillon aléatoire de taille n est un n-uplet de variables aléatoires. Je te laisse démontrer qu'elles ont à priori chacune la même loi que la variable aléatoire tirage d'un français au hasard (*).

    Cordialement.


    (*) dans le même genre, sur une tombola de 100 billets il y a un gros lot. Quelle est la probabilité de gain de celui qui prend le premier billet ? Le deuxième ? Le dernier ?
  • Hello, tu prends le problème dans le mauvais sens

    "La fonction considérée" ici pour construire l'échantillon, même si on ne parle pas de fonction ici, n'est en rien une fonction qui à chaque français renvoie une taille.

    En fait (en supposant que toutes les tailles des individus sont indépendantes entre eux) à chaque individu $P_i$ est associée une variable aléatoire $X_i$ qui va d'un ensemble $\Omega_i$ abstrait dans $\R$.

    $\Omega_i$ ici représente l'ensemble de "tous les possibles" pour l'individu $i$ même si on s'en fiche complètement de la tête de cet ensemble, ça n'a aucune importance pour la modélisation. L'ensemble de tous les possibles n'est d'ailleurs pas forcément les tailles possibles pour l'individu, tu pourrais avoir dans cet univers quel jour de la semaine on est, quel site internet a visité pour la dernière fois l'individu. Bref, c'est tous les possibles au sens large

    Dans la vie réelle, tu pioches pour chaque $P_i$ un $\omega_i$ dans $\Omega_i$, tu ne sais pas quel $\omega_i$ tu as pioché parce que pour rappel $\Omega_i$ tu ne sais rien sur lui mais par contre tu observes la valeur $X_i(\omega_i)$ que l'on note tout simplement $X_i$ pour s'affranchir de l'univers de départ.

    Ce qui est important par contre, c'est de savoir la loi de $X_i$, c'est-à-dire de savoir pour tout "borélien" $B$ de $\R$ (par exemple pour tout intervalle $[a,b]$, la valeur de $P(X_i \in B)$

    La grande différence entre les probas et les stats c'est :
    En proba tu connais la loi de $X$ et tu cherches à prédire un phénomène.
    En stat tu observes un phénomène grâce aux valeurs de $X_1,\ldots,X_n$ qui suivent la même loi $(X)$ et tu cherches à estimer la loi de $X$ (moyenne, variance, quantiles, distribution etc.)
  • En statistique aussi, tu cherches à prédire un phénomène sachant la loi de X ou une hypothèse sur X. Et encore, c'est tellement réducteur pour les probabilités et les statistiques.

    Bonne soirée.
Connectez-vous ou Inscrivez-vous pour répondre.