Échantillon de taille, de moyenne et d'écart-type fixés

Alexique
Modifié (December 2022) dans Statistiques
Bonjour,
c'est sûrement très classique comme problème mais je sèche.
Je voudrais construire un échantillon de réels de taille $n$, de moyenne $\mu$ et d'écart-type $\sigma$ de façon exacte (donc pas de réalisations de simulations sur logiciel).
Dans le cas où $n$ est impair, je prends $(\mu-\sigma,\dots,\mu,\mu+\sigma,\dots)$ mais dans le cas où $n$ est pair, je bloque.
J'ai essayé de trouver $a$ et $b$ pour que $(0,\dots,0,a,b)$ convienne mais ça ne marche pas à tous les coups.
Je prends la variance corrigée en $1/(n-1)$ pour l'écart-type.
Merci.

Réponses

  • gerard0
    Modifié (December 2022)
    Bonjour.
    $\sigma(aX) = |a| \sigma(X)$
    Il te suffit donc de prendre un échantillon de moyenne 0, de calculer sa variance V, de multiplier chaque valeur par $\frac{\sigma}{\sqrt V}$, puis de rajouter $m$ à chaque valeur.
    Mais évidemment, ça donne des expressions compliquées si on veut un résultat exact. Pour des valeurs approchées même assez précises, ça marchera bien.
    Cordialement
  • Alexique
    Modifié (December 2022)
    Super ! Pourquoi dis-tu que c'est compliqué ?
    J'obtiens par exemple $(m-\sigma \sqrt{\frac{n-1}{n}},...,m+\sigma \sqrt{\frac{n-1}{n}})$ qui est bien de moyenne $m$ et d'écart type $\sigma$ dans le cas $n$ pair qui me manquait. En effet $(-1,..,1,..)$ est de moyenne $0$ et de variance corrigée $\frac{n}{n-1}$.
  • Ah, j'avais négligé le fait que tu ne parlais pas de statistiques sérieuses. Une variable statistique qui prend seulement deux valeurs, ça n'est pas très intéressant. J'avais zappé que c'était ton objectif.
    Effectivement, ça n'est pas difficile, tu peux même varier en prenant deux valeurs a et b, d'effectifs e et e' avec e+e' = n, ea+e'b=nm etc.
  • Le contexte : j'enseigne en licence éco-gestion 2ème année les tests statistiques. En général, l'énoncé donne la moyenne, l'écart-type, la taille de l'échantillon et demande de calculer la statistique de test, la région de rejet... Pour leur montrer en pratique comme cela se passe sur logiciel "dans la vraie vie", il me faut pouvoir générer un échantillon de taille, de moyenne et d'écart-type donnés. Prendre $n$ réalisations de loi normales $(\mu,\sigma)$ ne donne pas exactement $m$ de moyenne et $\sigma$ d'écart-type.

    Maintenant, on est d'accord que cet échantillon n'a aucune chance d'émaner d'une collecte de données dans la vraie vie. Ca permet de montrer l'utilisation du logiciel, les commandes... et de vérifier que les calculs fait à la main sont corrects (la statistique de test, la région de rejet, la p-valeur,...). 
  • J'ai aussi enseigné les stats à différents niveaux, il m'a toujours semblé qu'il fallait se rapprocher de la pratique, tout en simplifiant l'apprentissage. J'avais d'ailleurs plutôt pensé que tu voulais traiter une statistique connue, tout en imposant des valeurs à la moyenne d'un échantillon et à son écart type (à priori différents de ceux de la statistique).
    Quel est l'intérêt de prendre un échantillon aussi pauvre en lui imposant une moyenne et un écart type donné ?
  • Oui, je sais bien... Après, si tu as mieux...
    La commande de test de Student sur Rstudio nécessite un échantillon, je ne peux pas faire autrement. Sinon je créé ma propre fonction qui renvoie la valeur de la statistique, l'intervalle de confiance etc... mais quel intérêt là aussi ? En faisant ça, je code la fonction "t.test" déjà implémentée donc bof...

  • gerard0
    Modifié (December 2022)
    Je ne comprends toujours pas ... tu veux tester Rstudio ? Car pour tester les étudiants, n'importe quel échantillon te suffira, et tu calculeras (avec Rstudio ou autrement) les éléments statistiques qui t'intéressent.
    Sinon, il est toujours intéressant de générer un échantillon aléatoire d'une loi connue (Normale par exemple) et de regarder ses caractéristiques, voire de la représenter. L'image de la loi est souvent assez brouillée.
    Cordialement.
  • Non, je suis chargé de TD. J'ai des exos à corriger avec eux au tableau (pas d'ordi). Dans la vraie vie, un statisticien ne calcule jamais à la main la stat de test etc... C'est l'objet du TD qui leur fait découvrir ce que sont les tests d'hypothèse. Par contre, je peux moi leur montrer comment en pratique on procède.

    Exo 1 : Un fabricant annonce que la masse d'un composant de l'un de ses produits est de 75 mg. Les mesures pour le vérifier étant coûteuses, trois seulement sont réalisées, dont les résultats sont 70, 72 et 74. Peut-on au risque de 5% de se tromper dénoncer la publicité du fabricant ?

    Ici, test de student unilatéral à variance inconnue sur l'échantillon (70,72,74) au seuil de 5% donc faisable en R sans problème.

    Exo 2 : On utilise une nouvelle variété de pomme de terre dans un exploitation agricole. Le rendement de l'ancienne variété était de 41.5 tonnes/ha. La nouvelle est cultivée sur 100 ha avec un rendement de 45 t/ha et un écart-type de 11.25. Faut-il au risque de 5% de se tromper et au vu de ce rendement, favoriser la publicité du fabricant ?

    Ici, pas de données donc comment je fais ? Je peux corriger l'exo théorique (calculer la stat, la région de rejet...) mais sur le logiciel ? Si je génère un échantillon approximatif, on aura pas rigoureusement le même résultat. Du coup, grâce à notre discussion, je peux générer un échantillon de taille 100 de moyenne 45 et d'écart type 11.25. Je peux ensuite faire un test de student contre la moyenne 41.5 unilatéral au seuil de 5%.

    Qu'en penses-tu ? Est-ce que tu trouves ça ridicule pédagogiquement ? Certains poursuivent en master en économétrie ou en analyse de données donc ajouter un tout petit peu d'info de ma part, ce n'est pas compliqué, ils peuvent s'ils le souhaitent chez eux refaire la démarche en installant R etc...

  • gerard0
    Modifié (December 2022)
    Deux remarques :
    * ton exo 2  se fait très bien en prenant un test d'adéquation, voire en le construisant (*). Par contre, en générant un échantillon qui n'aura aucun lien avec l'étude qui a donné sauf la moyenne et l'écart type, tu triches, tout simplement.
    * c'est une bonne idée de former les étudiants aux logiciels statistiques. Mais attention, ça rajoute une difficulté supplémentaire pour les étudiants. Contrairement à ce que tu penses, c'est compliqué pour la plupart, même si c'est simple pour toi (**).
    Cordialement.
    (*) il y a par contre un gros problème de choix d'interprétation, vue la question floue qui est posée (question non statistique)
    (**) pionnier de l'utilisation pédagogique de l'informatique et des logiciels, j'ai toujours constaté qu'en dehors d'une véritable formation au logiciel, séparée des applications, l'informatique rajoutait toujours des complexités pour l'élève moyen des causes d'échec pour les plus faibles, et privilégiait les meilleurs (plus exactement, ceux qui comprennent vite).
Connectez-vous ou Inscrivez-vous pour répondre.