Leçon: Echantillonnage

Bonsoir, auriez vous une idée de plan pour la leçon d'oral du Capes "Echantillonnage"? merci

Réponses

  • C’est une leçon de probas-stats ou de théorie du signal ?
    Algebraic symbols are used when you do not know what you are talking about.
            -- Schnoebelen, Philippe
  • @nicolas.patrois : statistique/probas

    @l'auteur :
    Voir un livre de 2nde puis de 1ère (c'est au programme de ces deux niveaux) , peut être en terminale mais les livres viennent de sortir en spécimen et je ne les ai pas ramener du lycée (dans les 10kg cette année).

    j'envoie plus tard ce qui se fait en 2nde et 1èreS (ES ça doit être identique)
  • Tu dois pouvoir piocher des choses intéressantes également dans des bouquins de BTS
  • Ok merci beaucoup Jerom;



    @rémi: je préfère ne pas m'aventurer à parler de ce qui se passe en BTS d'autant plus que je ne pense pas que cela se fait en BTS, on y traite plutôt la leçon suivante" Estimation, ponctuelle ou par intervalle de confiance, d'un paramètre, tests d'hypothèse.
  • Re,
    en regardant les livres de la collection Hyperbole :

    * En 2nde:
    le programme dit : notion d'échantillon, intervalle de fluctuation d'une fréquence à 95 $\%$ et réalisation d'une simulation (dans les contenus)
    exploiter et faire une analyse critique d'un résultat d'échantillonnage, concevoir et exploiter une simulation avec un tableur ou une calculatrice (dans les capacités)
    dans le livre, pas de cours proprement dit sur ce chapitre, juste des activités d'approche.
    ce qu'il ressort en terme de connaissances :
    • un échantillon est un sous-ensemble d’une population obtenu par prélèvement aléatoire dans cette population
    • un échantillon de taille n est obtenu par une répétitions indépendantes d’une même expérience aléatoire à 2 issues (1 pour le succès, 0 pour l’échec) , c’est donc un modèle de Bernoulli.
    • les distributions de fréquences varient selon l’échantillon, cela s’appelle la fluctuation d’échantillonnage.
    • On établit (sans preuve) que pour environ 95$\%$ des échantillons de taille n relevant du modèle de Bernoulli de probabilité p, la fréquence f d’apparition du 1 (le succès) appartient à l’intervalle $[p-\frac{1}{\sqrt{n}} ; p+\frac{1}{\sqrt{n}}] $. Cet intervalle s’appelle l’intervalle de fluctuation au seuil de 95 $\%$.
    Pour cela, les conditions sont $n\ge25$ et $0,2\le p\le 0,8$

    En 1ère, on améliore en utilisant une loi binomiale :
    • L’intervalle de fluctuation à 95$\%$ de la fréquence qui correspond à la réalisation (sur un échantillon aléatoire de taille n) d’une variable aléatoire X qui suit une loi binomiale, est $[\frac{a}{n},\frac{b}{n}]$, où a est le plus petit entier tel que $P(x\le a)>0,025$et b le plus petit entier tel que $P(x\le b))\le 0,975$.
    Cette propriété est vraie pour toutes valeurs de n et de p (pas comme l’intervalle vu en seconde)
    • On utilise cet intervalle pour rejeter ou non une hypothèse à 95$\%$
    • On créé cet intervalle (et on l’utilise) pour un seuil quelconque demandé, au seuil de 99$\%$ par exemple.
    A ce niveau, on créé un tableau de la loi binomiale B(n,p) , où n est la taille de l’échantillon et p la proportion du caractère de la population, du type : $P(x\le k)$ pour k variant de 0 à n.
    on remarque 5$\%$ se partage en deux : les 2,5$\%$ des plus petites valeurs (qui correspond au taux de 0,025) et les 2,5$\%$ des plus grandes valeurs (qui correspond au taux de 0,975)


    On lit ensuite les valeurs a et b comme définies au-dessus.
    Cet intervalle de fluctuation est meilleur que celui vu en seconde

    CONCLUSION (en première lecture)
    Beaucoup de simulations (calculatrice ou Excel) que l’on va exploiter avec les intervalles définis en classe.
    La lecture de livres de BTS est sans doute une bonne idée.
    Je regarde pour un livre de terminale pour voir ce qu’il se passe. Je crois me rappeler qu’on utilise la loi normale comme approximation de la loi binomiale, mais pas vu comment utiliser pour l’échantillonnage

    Une autre référence : Contes et décomptes de la statistique de Claudine Robert chez Vuibert.
  • un peu long, peut être pas très parlant.
    tu dis ...
  • Voici comment je l'ai enseigné cette année en premiere :
    - partir de la loi binomiale pour des valeurs raisonnables de n pour introduire la représentation en batons et la fonction de répartition associée,
    - puis passer à de grandes valeurs de n pour arriver à la courbe en cloche (et faire faire le calcul de P(a < X < b) avec une table et avec la calculatrice
    - faire le lien avec l'intervalle de fluctuation à 95 % en 1/ sqrt(n) (et au niveau capes, je pense que c'est là qu'on peut introduire la loi normale via le TCL, mais au niveau premiere, on a juste constaté la proximité des intervalles de fluctuation numériquement)
    - ensuite travailler sur la notion d'intervalle de confiance pour l'estimation d'une proportion (différence avec l'intervalle de fluctuation), et de test d'hypothèse pour une proportion inconnue. On peut faire attention à présenter correctement le vocabulaire des tests à ce niveau et préciser les deux types d'erreur (au niveau seconde/première, on s'intéresse uniquement à l'erreur de première espèce).

    Pour ce qui est des exercices, ceux du document d'accompagnement des programmes peuvent etre une bonne inspiration, en particulier celui portant sur un arret historique de la cour suprème des USA où un accusé a été relaxé car son jury n'était pas représentatif de la composition ethnique de l'état dans lequel il vivait (repris dans différents bouquins de seconde/première). Les documents d'accompagnement des nouveaux programmes de TS présentent une preuve de l'approximation gaussienne de la binomiale avec des techniques élémentaires, ça peut etre aussi bon de l'avoir lu une fois. On peut aussi parler des sondages (c'est d'actualité !)
  • Bonjour à tous,

    Pour une démonstration, vous pouvez consulter mon article.

    Cordialement,

    Daniel Saada
  • Bonjour à tous, merci pour votre aide; je vous en reparle mais à première vue:

    merci Jerom et Ben, j'ai bien regardé ce qui se fait en 2de et 1ère, et compte évoquer, l'intervalle de confiance vu en 2de ainsi que l'intervalle de fluctuation et la prise de décision via la loi binômiale vu en 1ère, cela dit, j'ai deux soucis:

    *) il y a une leçon indépendante : Loi binomiale or je comptais faire des simulations dans celle ci aussi

    **) Je veux éviter de parler du TCL et la loi normale; vu qu'en 2de et 1ère, ce n'est pas mentionné, de plus, je place ma leçon au niveau 1ère donc ?

    Sachant qu'il y a une leçon "Loi Normale"(où j'ai prévu de parler de l'approximation de la loi binomiale par loi normale ou l'ineverse) et une leçon "Estimations, tests d'hypothèse" (que je ne ferais pas)

    Le défi ou La "principale" difficulté est de ne pas répéter la même chose dans les leçons loi binomiale et échantillonnage même si il ya des choses qu'on doit "répéter"

    merci
  • bonjour,
    *) en 1ère , on utilise clairement la loi binomiale pour construire l'intervalle de confiance.
    Ce n'est pas franchement une répétition, si tu place la notion de loi binomiale dans tes prérequis (ça existe tjrs dans les leçons, je pense)

    en Terminale (S du moins) on utilise le théorème de Moivre-Laplace pour une loi normale $\mathcal{N} (0;1)$

    ça semble mener à un autre intervalle de fluctuation puis en toute fin à un intervalle de confiance.
  • Vous prétendez qu'il existe une démonstration de l'approximation de la loi binomiale par la loi de Gauss au niveau de la terminale C.
    L'intégration au niveau de cette classe est limitée à des fonctions sur des intervalles BORNES.
    Un candidat au CAPES ne peut pas prétendre faire la démonstration de ce fait au niveau d'une terminale S à moins d'admettre des théorèmes
    largement hors-programme.
  • Bonsoir Ulca.

    "Vous prétendez qu'il existe une démonstration de l'approximation de la loi binomiale par la loi de Gauss au niveau de la terminale C. " ?? Qui prétend ?
    A noter : Il n'y a plus de terminale C.
    Et quel rapport avec le Capes ??

    Cordialement.
  • L'intervalle de confiance n'est pas au programme de seconde, et ce même si les livres, en général, le font.

    Il est au programme de 1ère S (et STI2D/STL) dans le cas de la loi binomiale, et en Terminale S (et STI2D/STL).

    D’ailleurs sur cet intervalle de confiances, les livres font souvent une démonstration de l'équivalence de la formule entre l'intervalle de fluctuation et l'intervalle de confiance basée sur : $p \in \big[f-\frac{1}{\sqrt{n}};f-1\frac{1}{\sqrt{n}}\big]$ équivaut à $f \in \big[p-\frac{1}{\sqrt{n}};p+1\frac{1}{\sqrt{n}}\big]$ donc $p$ a $95\%$ de chance d'être dans cet intervalle. Ce qui est, il me semble, complètement faux.
  • Effectivement, c'est faux.

    mais pas complétement.

    ": $ p \in \big[f-\frac{1}{\sqrt{n}};f-1\frac{1}{\sqrt{n}}\big]$ équivaut à $ f \in \big[p-\frac{1}{\sqrt{n}};p+1\frac{1}{\sqrt{n}}\big]$ donc $ p$ avait $ 95\%$ de chance d'être dans cet intervalle avant qu'on prenne cet échantillon.
    La propriété est une propriété de la variable aléatoire "proportion dans l'échantillon", pas de ses réalisations.

    Je suppose évidemment qu'on admet les approximations utiles.

    Cordialement.
  • Merci de ta réponse gerard0, mais je ne comprends pas tout.

    Dans le sens où dans les notation, il y a $p$, la proba d'apparition du caractère étudié qui est un entier fixé (compris entre 0 et 1), la fréquence $f$ d'un échantillon de taille $n$ et la fréquence observée $f^{obs}$ sur un échantillon de taille $n$. L'unique variable aléatoire dans l'histoire : c'est $f$.

    Au sujet des deux intervalles :
    En effet pour $P(f\in\big[p-\frac{1}{\sqrt{n}};p-\frac{1}{\sqrt{n}}\big])\geq 95\%$ c'est plutôt claire: on a 95\% de chance que la fréquence soit dans cet intervalle.

    Par contre comment expliquer par une phrase la seconde proba (celle de l'intervalle de confiance), qui porte sur $f$, ta phrase "$p$ avait 95\% ..." laisse entendre qu'elle porte sur $p$. Sans parler, comme tu le signales, de la confusion entre $f$ et $f^{obs}$.

    Il me semble délicat de faire ces deux notions d'intervalles de confiance/fluctuation en même temps, tout du moins si on ne veut pas qu'il y ait trop de confusion chez nos élèves. D'autant plus qu'ils vont s'en manger tous les ans, en première avec la loi binomiale (sous la forme: si $X$ suit une loi $B(n,p)$ alors on cherche le plus petit entier $a$ tel que $P(X\geq a)>2,5\%$ et le plus petit $b$ tel que $P(X\geq b)\geq 97,5\%$ (mes inégalités strictes/larges sont peut-être fausses), puis en Terminale avec un intervalle plus précis, et des la 1ère des validations d'hypothèses. Le tout étant sorti du chapeau (l'intervalle de seconde peut quand même se visualiser expérimentalement).

    [Avex LaTeX, il faut banaliser le \% (\verb=\%=) ;) AD]
  • Non,

    $f$ n'est pas la seule variable aléatoire. L'intervalle $ \big[f-\frac{1}{\sqrt{n}};f-1\frac{1}{\sqrt{n}}\big]$ est aussi aléatoire et c'est le sens de mon intervention. $p$ n'est pas aléatoire, mais $ p \in \big[f-\frac{1}{\sqrt{n}};f-1\frac{1}{\sqrt{n}}\big]$ est une condition probabilisable.

    A noter, je n'ai pas utilisé de $f_{obs}$ puisque ce n'est qu'une réalisation de $f$. Donc la probabilité portait bien sur l'intervalle aléatoire, pas sur l'intervalle observé qui n'est en rien aléatoire. $ p \in \big[f_{obs}-\frac{1}{\sqrt{n}};f_{obs}-1\frac{1}{\sqrt{n}}\big]$ est une propriété vraie ou fausse, mais pas probabiliste.

    Cordialement.
  • Bonjour,

    je suis intrigué par ce dernier échange, je comprends tout a fait le point de vue que $ p \in \big[f_{obs}-\frac{1}{\sqrt{n}};f_{obs}-1\frac{1}{\sqrt{n}}\big]$ est vrai ou faux puisque l'on veut savoir si un nombre fait partie ou non d'un intervalle.
    Cependant dans le cas où $p$ est inconnu, dans ma petite tête, en toute bonne foi, cela ne me choque pas de dire qu'il y a une probabilité d'au moins $95\%$ que $p$ soit dans cet intervalle.
    Imaginons l'interro de maths bizarroïde suivante:
    - Je tire en classe, avec remise, 50 boules dans une urne possédant $40\%$, moi seul le sait, de boules bleues. Je note le nombre de boules bleues obtenues, et je demande aux élèves d'écrire un intervalle d'amplitude $\frac{2}{\sqrt{50}}$ avec la précision suivante : "si la vraie proportion de boules bleu est dans l'intervalle donné alors vous aurez 20 sinon 0".
    Un élève qui écrit $\big[f_{obs}-\frac{1}{\sqrt{50}};f_{obs}-1\frac{1}{\sqrt{50}}\big]$ et à qui on demande si l'interro de maths s'est bien passée est en droit de dire "la probabilité que j'ai 20 est au moins de $95\%$" non ? et comme avoir 20 est équivalent à $ p \in \big[f_{obs}-\frac{1}{\sqrt{50}};f_{obs}-1\frac{1}{\sqrt{50}}\big]$, voilà pourquoi je suis intrigué.

    Merci pour les précisions que vous pourrez apporter,
  • Tu n'as pas tort, Samok,

    mais tu passes à côté de ce qui est la base des probabilités : les événements non aléatoires ne sont pas à considérer dans le calcul de probabilités (sauf cas limites tout ou rien).

    Donc quand tu dis "dans le cas où $ p$ est inconnu, dans ma petite tête, en toute bonne foi, cela ne me choque pas de dire qu'il y a une probabilité d'au moins $ 95\%$ que $ p$ soit dans cet intervalle." tu emploies le mot probabilité dans le sens du français courant qui confond probable et possible, estimation à priori et estimation à postériori. les statisticiens ont introduit la notion de "confiance" justement pour faire la différence entre travailler sur la variable aléatoire et utiliser une réalisation de cette variable, pour parler différemment de l'estimateur et de l'estimation. Et ils préfèrent dire : "$ p$ est dans cet intervalle avec un niveau de confiance d'au moins $ 95\%$." C'est exactement ce que tu penses, sans utiliser le mot "probabilité" dans un cas non aléatoire.
    En fait, ton élève qui dit "la probabilité que j'ai 20 est au moins de $ 95\%$" a raison, puisque l'épreuve probabiliste est encore en cours pour lui. Mais remarque qu'elle n'est plus en cours pour toi (puisque tu connais la valeur de $p$).

    Cordialement.

    [La case LaTeX. :) AD]
  • Merci beaucoup gerard0 pour tes précision.

    La question qui reste est qu'est-ce qui peut bien resté dans la tête des élèves a la fin de ce type de cours.


    En fait j'ai une dernière (ou pas) question, une des applications des intervalles de fluctuation est pour les testes, en particulier sur l'exercice qui se trouve page 35 du document accompagnant de proba en 1ere.

    Rapidement, un chef de gouvernement affirme qu'il a 52% d'opinion favorable, et il va faire un sondage pour rejeter ou pas son hypothèse, pour cela il calcul l'intervalle de fluctuation qui correspond à son hypothèse (par exemple en utilisant la loi binomiale B(100;0,52) s'il sonde 100 personnes), trouve comme intervalle [0,42;0,62].
    Comme dans le sondage il a 43%, son hypothèse n'est pas rejetée au seuil de 95%

    Ma question est sur la formulation de la dernière phrase, car elle ne dit pas du tout que son hypothèse est fiable a 95%. Pour faire sentir la chose on peut rajouter une question du style: un opposant affirme qu'il n'a que 38% d'opinion favorable, son hypothèse est-elle acceptable. Puis en calculant l'intervalle de fluctuation (via B(100;0,38)) on peut dire que le même sondage qu'avant ne rejète pas non plus l'hypothèse.

    Rq: les deux valeurs 0,38 et 0,43 sont (environ) les deux valeurs extrèmes qui ne sont pas rejetés par le sondage, est-ce que [0,38;0,43] est l'intervalle de confiance, si oui n'est-ce pas plus claire de le définire de cette manière?
  • Merci sieur Gerard0, c'est bien plus clair.

    en fait si l'élève adopte comme stratégie "je donne l'intervalle de confiance", on a bien un évènement aléatoire, être ou ne pas être dans l'intervalle selon l'échantillon tiré, et le $95\%$ n'a plus de sens une fois l'échantillon tiré, il indique qu'en moyenne la stratégie est gagnante dans (au moins) $95\%$ des cas.

    Enfin ce qui me chiffonnait, que pour moi j'ai une observation certaine et l'élève est encore dans l'incertitude. Mais ce n'est qu'une conséquence particulière du fait qu'il n'y a pas unicité d'une représentation probabiliste. L'élève et moi partageons le même espace probabilisable, mais pas la même loi de probabilité.

    (pourtant j'en ai fait des probas-stats dans une vie antérieure, mais il faut croire que je ne suis pas allé très loin dans l'approfondissement de ce genre de subtilités)

    S
  • Samok,

    je pense que plutôt, l'élève est dans une situation probabiliste liée à l'ignorance, toi pas (pour toi p n'est pas aléatoire).
    On peut effectivement avoir été formé en probabilités sans avoir vraiment réfléchi à ce qu'est l'aléatoire, ou, comme moi, s'être formé seul en ayant besoin de vraiment comprendre, faute d'argument d'autorité (celui du prof). De plus, j'ai rencontré quelques cas d'application indue des probabilités à des événements uniques (probabilité que M. Dupont soit l'assassin sachant que .. ou probabilité qu'il y ait la guerre nucléaire l'an prochain) qui donnent des résultats bizarres (probabilité supérieure à 1 dans le premier cas, probabilité toujours croissante dans le deuxième).

    Cordialement.
  • Je vous conseille le document de ressource pédagogique "probabilité" fait pour les classes de troisieme mais dont les

    annexes expliquent bien la différence entre intervalles de confiance et intervalles de fluctuations ...
  • La remarque de Gérard, me fait penser à un reportage au journal de 20h, il y a quelques semaines.
    Le journaliste disait que le fait de consommer tel aliment réduisait la probabilité de mourir. (Prouvé scientifiquement ! (td) )
    Tout le monde sait que la probabilité de mourir est de 1, que vous mangiez des légumes, ou du saucisson ! Il ne faut pas hésiter d'ailleurs à exploiter ces exemples avec ses élèves.
Connectez-vous ou Inscrivez-vous pour répondre.