Intervalle de fluctuation

J'ai essayé de comprendre le polycop de statistique de ma copine, et il me rend dingue. Comme n'importe quel cours de stat' que j'aipu lire ou auquel j'ai pu assister à la fac. J'ai horreur des stats, donc, au secours.

Si j'ai bien compris le poly, on parle d'une loi de Bernouilli de paramètre $p$ inconnu, représentant une expérience de type succès/échec, et le but est de trouver une bonne approximation de $p$.

Le cours définit l'intervalle de fluctuation (au seuil de $95\%$) par $I := \bigg[ p - \dfrac{1}{\sqrt{n}} ; p - \dfrac{1}{\sqrt{n}} \bigg]$. Pour moi, c'est complètement débile, il faudrait plutôt choisir un $p_0$ "à tester" et considérer l'intervalle $I(p_0) := \bigg[ p_0 - \dfrac{1}{\sqrt{n}} ; p_0 - \dfrac{1}{\sqrt{n}} \bigg]$

Et après, si j'ai bien suivi : on fait $n$ réalisations de notre expérience (donc on regarde une binomiale), on regarde la fréquence $f$ du succès, et si $f \in I$, alors à $95\%$ de chance, $p \in I(p_0)$. Ce qui voudrait dire qu'on a bien choisi $p_0$, donc que c'est une bonne approximation de $p$. L'intérêt étant qu'en augmentant le nombre $n$ de tests, on s'autorise à réduire la taille de l'intervalle et on aura une plus grande précision sur $p$, en gardant les $95\%$ de chance d'avoir effectivement une bonne approximation.

Est-ce que j'ai bien compris ça ou pas ? A aucun moment le cours ne précise qui est $p$, ce qu'on veut faire avec, il définit plein d'objets (intervalle de confiance, intervalle de fluctuation...) sans jamais préciser à quoi ils sont censés servir. Tout est une interprétation de ma part basée sur la (maigre) culture en statistique.

Merci.

Réponses

  • Bonjour.

    En général, les cours de stats vont un peu vite, et certains enseignants ne font pas assez la démarcation entre la partie modèle (probabilités) et la partie analyse (statistique). C'est ce qui se passe dans ton message, où tu voudrais faire une étude statistique, alors que la notion d'intervalle de fluctuation n'a rien de statistique : C'est de la pure et simple proba.
    Soit $X$ une variable aléatoire. Un intervalle de fluctuation à $t\%$ de $X$ est un intervalle $I$ tel que $P(X\in I)=t\%$. C'est tout (pas de $p_0$ à tester, $X$ est une bonne variable aléatoire).

    Avec ça, on peut définir, par un échantillonnage de valeurs de $X$, des propriétés de $X$. Cette partie-là s'appelle estimation. Elle relie la variable aléatoire (le vecteur aléatoire) $(X_1,X_2,\ldots,X_n)$ composée de $n$ réalisations indépendantes (ou parfois pas, mais ça devient alors compliqué) de $X$ aux propriétés de $X$. On fabrique une variable aléatoire appelée "estimateur", et la théorie probabiliste de l'estimation (généralement présentée en cours de statistiques) traite de propriétés utiles de ces estimateurs (sans biais, convergent, ...).

    Enfin une partie plus statistique est l'utilisation de ces outils pour réaliser des tests statistiques et interpréter leurs résultats. (*)
    Je ne connais pas le cours de ta copine, j'en ai vu des clairs, mais aussi des désastreux. J'ai même aidé une étudiante en pharmacie qui avait tiré d'un de ces cours infâmes des idées claires que j'ai pu confirmer.
    Cordialement.

    (*) Les statistiques ne se résument pas à ça, il y a toute la réflexion sur le recueil des données, leur présentation et représentation (statistiques descriptives), et aussi les outils adaptés à des recueils imparfaits (données censurées, par exemple).
  • Tu parles de choisir $p_0$.
    Il est hors de question de choisir $p_0$ ; tu fais $n$ tests, et $p_0$ est la fréquence constatée sur ces $n$ tests.

    La formule de l'intervalle de fluctuation se lit en fait dans les 2 sens.
    Notons $p_1$ la vraie fréquence (inconnue) , et $p_0$ la fréquence constatée sur les $n$ tests.

    $p_1$ a 95% de chances de se trouver dans l'intervalle $[p_0 - \frac{1}{\sqrt{n}}; p_0 + \frac{1}{\sqrt{n}} ].$
    Mais aussi :
    $p_0$ a 95% de chances de se trouver dans l'intervalle $[p_1 - \frac{1}{\sqrt{n}}; p_1 + \frac{1}{\sqrt{n}} ].$
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Le problème, c'est que le cours fait clairement une distinction entre le paramètre $p$ (qu'on cherche à estimer, justement), et les fréquences observées. Il écrit des choses comme $f \in \bigg[ p - \dfrac{1}{\sqrt{n}} ; p + \dfrac{1}{\sqrt{n}} \bigg]$ qui ne peuvent pas être cohérents puisqu'on ne connaît pas $p$. Le cours parle clairement de faire un pari sur la valeur de $p$ (ce que moi je notais $p_0$, contrairement au cours qui le note encore $p$) et de la "tester" après. Enfin bref. Moi, je trouve que ce cours est mauvais, ma copine n'est pas d'accord parce que je critique tout le temps les cours que je trouve mauvais (à savoir, la plupart de ceux qu'on a reçus).

    Effectivement, le truc de juste prendre la fréquence observée comme approximation de $p$, ça aurait été ma question suivante. Plus on fait de réalisations, plus la fréquence observée devrait s'approcher de $p$ (loi des grands nombres), pour autant que je sache.

    Après, son cours parle de probabilités de recouvrement, mais ne définit pas vraiment qu'est-ce qui est censé recouvrir quoi, ni ce que ces probabilités de recouvrement représentent.

    Donc une probabilité de recouvrement, dans le cadre des intervalles de confiance/fluctuation, c'est quoi ?
  • Sans contexte, difficile de savoir. Et on n'a pas le cours sous les yeux.

    Attention, que p soit connu ou inconnu, l'intervalle de fluctuation existe, mais dans le deuxième cas il est inconnu.
    Il écrit des choses comme $f \in \bigg[ p - \dfrac{1}{\sqrt{n}} ; p + \dfrac{1}{\sqrt{n}} \bigg]$ qui ne peuvent pas être cohérents puisqu'on ne connaît pas $p$.
    C'est toi, un matheux, qui écris qu'on ne peut pas noter des inconnues (ici un intervalle) ?

    Par définition de l'intervalle de fluctuation, si $p_0$ est la proportion observée (*), $P\left(p_0 \in \bigg[ p - \dfrac{1}{\sqrt{n}} ; p + \dfrac{1}{\sqrt{n}} \bigg]\right)$ dépasse 95%.

    Mon conseil : prends un vrai cours de probas stats, sérieux, de préférence un cours de niveau L3/M1, puis fais ta propre étude pour comprendre comment c'est (mal)présenté dans certains cours de non matheux.

    Tu verras que ce que tu dis à la fin n'est que la traduction en langage courant et approximatif (**) du fait que la moyenne de l'échantillon (***) est un estimateur sans biais et convergent de la vraie moyenne.

    Cordialement


    (*) je préfère la notation $p_0$ à $f$, qui note généralement la variable aléatoire "proportion observée". $p_0$ est une réalisation de $f$.
    (**) elle s'approche seulement "en moyenne"
    (***) la fréquence est une moyenne !
  • Evidemment qu'on peut donner des noms à des choses inconnues. Mais demander qu'un truc soit dans un intervalle quand on ne connait pas l'intervalle, ça ne mène à rien si on cherche à déterminer $p$.
  • Et pourtant,

    c'est en l'écrivant qu'on obtient l'intervalle de confiance !!

    $f \in [p-a,p+a] \Leftrightarrow p\in [f-a,f+a]$
  • Oui, mais je n'ai aucun problème avec l'intervalle de confiance (ni avec le fait de prendre la fréquence observée comme approximation du paramètre recherché). C'est l'intervalle de fluctuation que je trouve inutilisable puisqu'on ne sait pas qui c'est.

    Et ça ne m'explique pas les histoires de probabilités de recouvrement.
  • lourrran a écrit:
    http://www.les-mathematiques.net/phorum/read.php?13,2069538,2069650#msg-2069650
    Notons $p_1$ la vraie fréquence (inconnue) , et $p_0$ la fréquence constatée sur les $n$ tests.
    $p_1$ a 95% de chances de se trouver dans l'intervalle $[p_0 - \frac{1}{\sqrt{n}}; p_0 + \frac{1}{\sqrt{n}} ].$

    Non ! ;-)

    Une fois la fréquence $p_0$ constatée sur les "$n$ tests". La vraie fréquence $p_1$ soit elle est dans l'intervalle, soit elle n'y est pas. Elle n'a pas 95% de chance d'être dedans. Par contre si on prenait de manière exhaustive tous les échantillons possibles de taille $n$ et leur intervalle de de fluctuation associé dont on parle. 95 % des intervalles de ce type contiennent $p_1$. Ce n'est pour moi pas équivalent à ton affirmation Lourrran.
    Karl Tremblay 1976-2023, je t'appréciais tellement.
  • Pour mieux comprendre je donne un exemple, avec l'affirmation de Lourran.

    Je note $p_1$ la proportion inconnue en France de personnes qui aiment le chocolat.

    On demande à 10000 personnes ($n=10000$ ) si elles aiment le chocolats, 73% disent oui. $p_0=0.73$

    Je traduis l'affirmation ci-dessus dans le cadre de l'exemple qui donne

    $p_1$ a 95% de chance d'appartenir à $[0.72 ; 0.74]$.

    Je conteste fermement cette affirmation, mathématiquement fausse..
    Karl Tremblay 1976-2023, je t'appréciais tellement.
  • C'est comme ça que je comprends le cours, en tout cas ! Si c'est faux, j'aimerais comprendre pourquoi, parce que ça a l'air cohérent quand même : quand on prend un échantillon assez grand, la proportion observée est proche de la proportion réelle.
  • Pourquoi la phrase suivante est fausse ? $p_1$ a 95% de chance d'appartenir à [0.72;0.74]

    Tout simplement car la fréquence $p_1$ de français qui aiment le chocolat est certes inconnue, mais elle n'a pour autant strictement rien d'aléatoire, c'est un nombre réel "fixe", qui vaut peut être 0.69, peut-être 0.7238. Le fait que cette fréquence soit inconnue n'en fait pas un nombre qui "bouge". On ne lance pas un dé.

    Donc la probabilité que $p_1$ appartienne à [0.72;0.74] vaut soit 1 car ce $p_1$ vaut 0.7238 par exemple, soit elle vaut 0 car elle vaut 0.69 par exemple. On ne peut pas le savoir et on ne pourra jamais le savoir en effet mais il serait faux d'affirmer qu'elle a 95% de chance d'appartenir à l'intervalle. Ça n'a pas de sens.
    Karl Tremblay 1976-2023, je t'appréciais tellement.
  • Dernière tentative pour te convaincre Homo Topi.

    Si on interroge une personne au hasard quelle est la probabilité qu'elle ait ente 50 ans et 80 ans. Je, ne sais pas disons 23% ok ?

    Par contre qu'elle est la probabilité que Zeitnot ait entre 50 et 80 ans ? Et bien c'est 0 ou 1. Tu ne connais pas mon âge certes, ce n'est pas pour autant que c'est autre chose que 0 ou 1. (Moi je sais...). La phrase dont on parlait, c'est aussi faux que de dire il y a 23% chance pour que Zeitnot ait entre 50 et 80 ans. Mon âge est inconnu, mais il est fixe au moment où on parle, il n'a pas une probabilité différente de 0 ou 1 de se trouver entre 50 et 80 ans.
    Karl Tremblay 1976-2023, je t'appréciais tellement.
  • Effectivement, notre $p$ est inconnu, mais il est fixe. Donc oui, il est, ou il n'est pas dans l'intervalle donné.

    Mais.
    Imaginons cette situation.
    Un huissier a interviewé tous les français, tous, et il connait précisément la proportion d'amateurs de chocolat. Un autre huissier a interviewé 10000 personnes, et a trouvé 7300 amateurs de chocolat.
    Un ami me propose un pari. Il me donne 100€ si le vrai pourcentage est entre 72% et 74%, et je lui donne 1900€ si le vrai pourcentage n'est pas dans cet intervalle.

    Dois-je accepter ce pari ? Bof ... le pari est strictement équilibré.
    La formulation stricte n'est donc pas :
    $p$ a une probabilité de 95% d'être entre 0.72 et 0.74
    mais
    J'ai une probabilité de 95% de ne pas me tromper en affirmant que $p$ est entre 0.72 et 0.74.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • (tu) J'aime bien ton exemple.
    Karl Tremblay 1976-2023, je t'appréciais tellement.
  • Homo Topi a écrit:
    C'est l'intervalle de fluctuation que je trouve inutilisable puisqu'on ne sait pas qui c'est.
    Uniquement parce que tu te places dans une situation où p est inconnu. Il y a de nombreux cas où on connaît p (ou bien on a une valeur qu'on veut contrôler). Tous les exercices idiots sur la parité (dans les métiers, les élus, ..) sont basés sur un p connu de 50% exactement. Et les tests d'égalité d'une proportion à une valeur donnée n'utilisent que l'intervalle de fluctuation.

    Par contre, j'ai enseigné des stats à un niveau universitaire sans jamais utiliser les mots "intervalle de fluctuation"; j'ai découvert ça dans les programmes des collègues de lycée qui se demandaient d'où ça sortait !

    Cordialement.
  • D'accord, ce n'est pas comme ça que j'interprétais l'histoire des $95\%$.

    En attendant, les probabilités de recouvrement, personne n'en a parlé pour l'instant. Je n'y ai rien compris.

    EDIT : gerard0 effectivement c'est un cours sur les stats de lycée...
Connectez-vous ou Inscrivez-vous pour répondre.