5 ou 6 boules ?

Bonjour à tous .

Un problème de « probabilité » trouvé sur un autre site et qui m’interroge :

Une urne contient 5 ou 6 boules dont exactement trois sont noires . On effectue dans cette urne , en aveugle , 149 tirages d'une boule avec remise et on comptabilise en tout 82 boules noires .

Si on devait faire un pronostic : cette urne contiendrait-elle plutôt 5 ou 6 boules ?

Merci d'avance :-)

Domi

Réponses

  • Bonjour,

    Avec remise on a 3/5 noires. Donc pour 149 tirages on a en moyenne 149.3/5=90-3/5.
    Avec remise on a 3/6 noires. Donc pour 149 tirages on a en moyenne 149.3/6=75-1/2.

    82 est vers le milieu...

    On peut regarder les écart-types...

    On calcule $\sqrt{149.3/5.(1-3/5)}\sim 5,9$.

    On calcule $\sqrt{149.3/6.(1-3/6)}\sim 6,1$.

    La encore c’est très proche : pour 5 boules, on trouve un écart de $1,25$ écart-type. Pour 6 boules, de $1,23.$

    Comme le nombre de tirage est assez grand, on a envie de parier qu’on a 6 boules.

    Mais on peut aussi faire un calcul plus précis avec la distribution exacte. Je le conseille.
  • La formule de Bayes dit qu'il y a $50{,}00626\%$ de chances que l'urne contienne 6 boules.

    La courbe de la distribution postérieure en fonction du nombre de boules noires observé sur 149 tirages.

    J'ai marqué l'observation "82 noires sur 149".103258
  • Bonjour à tous les deux et aux autres .

    J'ai tout de suite pensé comme vous ( même si je n'ai pas vos connaissances en probabilités ) et puis on m'a fait douter : la fréquence d'apparition des boules noires dans l'expérience est plus proche de la configuration à 5 boules que dans celle à 6 .

    Domi
  • Bonjour Domi. [désolé pour cette confusion)

    "la fréquence d'apparition des boules noires dans l'expérience est plus proche de la configuration à 5 boules que dans celle à 6 ." Oui, et alors ?

    On est dans la situation connue par les statisticiens par l'expression : "manque de puissance du test". Quel que soit le pronostic, on a environ 50 chances sur 100 de se tromper, le renseignement "sur 149 tirages d'une boule avec remise on comptabilise en tout 82 boules noires" n'est quasiment pas informatif"

    Cordialement.
  • Domi , pas Dom ( que je salue au passage ) .

    En fait c'est exactement la question que je me posais , quand le test est "limite" , quel choix est le plus judicieux . il n'y a peut-être pas de réponse .

    Domi
  • La bonne réponse, c'est que le résultat observé de l'expérience ne nous a quasiment rien appris sur quelle urne a été piochée.

    Pour exagérer la situation, prenons deux urnes :

    $U_1$ avec 99 jetons "perdu" et un jeton numéroté 1
    $U_2$ avec 99 jetons "perdu" et un jeton numéroté 2

    Je pioche un jeton dans une des deux urnes sans savoir laquelle.
    Il y a de fortes chances que je tombe sur un jeton "perdu", et je n'aurai alors rien appris du tout.

    C'est encore pire si on enlève les jetons 1 et 2, et qu'on ne laisse que les "perdu".

    Il n'y a rien d'autre à dire...
  • Marsup , donc l'expérience n'apporte aucun indice dans un sens ou dans l'autre ?

    Domi
  • Quand je parlais de "manque de puissance du test", cela signifiait que cette situation peut arriver (*) avec aussi peu de tirage. Par contre, si on faisait 100 fois plus de tests, en faisant 14900 tirages, le nombre de noires ne pourrait plus être à mi-chemin entre les deux cas. Il serait soit de l'ordre de 8940, à deux ou trois centaines près, soit de l'ordre de 7450, à deux ou trois centaines près, en tout cas pas à 8200. Dans les deux cas, ce nombre de tirages est tellement peu probable qu'il faudrait penser à une erreur ou une tricherie.

    Cordialement.

    (*) c'est assez peu probable, mais la probabilité dans les deux cas d'avoir 82 noires est d'environ 3,08%, avec un léger plus pour le 6 boules; la règle du "maximum de vraisemblance" confirme le résultat de Marsup, mais la différence est tellement faible que ça en devient absurde !
  • Domi, tu es prêt à prendre un pari que tu as $50{,}00626\%$ de proba de gagner et $49{,}99374\%$ de proba de perdre ?

    Cordialement.
  • Le manque de puissance de test, c'est qu'il est assez probable de tomber sur une observation qui n'apportera pas d'information décisive, c'est ça ?

    Là, il y avait environ 3% de chances de tomber sur "82 sur 149", et en effet, avec davantage de tirages, les valeurs observées qui viennent avec quasi la même probabilité sous les deux hypothèses "cinq boules" et "six boules" deviennent moins probables.

    D'ailleurs, les 149 et le 82 donnent une probabilité a posteriori vraiment très proche de 50%, donc ça a dû être choisi très soigneusement. (par je ne sais pas qui !)

    Voici l'histogramme du mélange des deux distributions binomiales, qui en effet se recouvrent sensiblement.103270
  • Il est clair que le choix entre les deux réponses est vraiment ténu mais y a-t-il un argument autorisant à choisir 5 boules plutôt que 6 ?

    Domi
  • Pour un traitement automatique, oui. Et on t'a donné deux réponses concordantes probabilistes (Bayes et maximum de vraisemblance). Et tu as aussi une réponse arithmétique (plus proche de..) contraire. Dans un traitement automatique, on met en place une procédure et on s'y tient. Que ce soit utile ou pas. Qu'il y ait de bonnes raisons de faire autrement ou pas.

    Cordialement.
  • Ta réponse est un peu déstabilisante. On imagine bien que pour certains échantillons, il y a autant de chances d'avoir 5 ou 6 boules et que pour d'autres le choix est clairement tranché. L'existence d'une zone d'ombre dans laquelle la réponse dépend de l'indicateur choisi est un peu surprenante. Il est vrai que la question initiale n'est pas vraiment claire, c'est la raison pour laquelle j'ai mis des guillemets à "probabilité" mais on s'attend tout de même une réponse dans l'ensemble {5 boules, 6 boules, égalité de chances}.

    Cette zone d'ombre semble vraiment exister, comment la caractériser ?
    Ma question est certainement naïve (je ne connais absolument rien en statistiques).
    Domi
  • On a pourtant vraiment répondu à ta question initiale, en termes de probabilités, avec deux méthodes concordantes. Pour ce qui est de choisir, les mathématiques ne choisissent que sur des problèmes mathématiques ( et encore, pas toujours !), et le tirage de boules dans une urne est une situation concrète, pas mathématique.

    Problème analogue : J'ai trouvé qu'un nombre vaut approximativement 3,1416. Ce nombre est-il $\pi$ ? les mathématiques ne te donnent aucun moyen de répondre "oui" ou "non", alors que le problème est parfaitement posé.

    Pour en revenir aux problèmes de statistiques, les probas sont un piètre moyen de preuve. Je jette un dé 100 fois, j'ai obtenu 100 fois 6. Le dé est-il déséquilibré ? La réponse évidente est oui. La réponse mathématique est "on ne sait pas, ça peut arriver avec un dé équilibré".

    Cordialement.
  • D'accord Gérard . Imaginons que la boîte soit élaborée selon un processus précis que l'on ne connaît pas , on sait simplement qu'il y a exactement trois boules noires plus deux ou trois autres boules . Il est possible que le processus ne fournisse par exemple que des boîtes à cinq boules , on n'en sait rien mais il faut faire avec . Il faut pourtant prendre une décision : 5 ou 6 boules ? Est-ce simplement la méthode choisie qui va imposer la décision ou existe-t-il un moyen d'échapper au mieux à cette inconnue ?

    La zone d'ombre m'intéresse aussi .

    Cordialement

    Domi
  • On peut choisir intelligemment la méthode. Et tu as eu la réponse. Par contre, agir comme si on était sûr que les boites ont 6 boules ne serait pas intelligent.
    D'ailleurs, dans ce cas, il serait raisonnable de continuer à tester, ou mieux, de faire un tirage sans remise ... on verra vite combien il y a de boules ;-)

    Bien sûr, il y a des situations statistiques où on se retrouve dans un cas limite, faute de puissance du test ou d'information. Cela ne relève plus du statisticien de décider. Peut-être est-ce la vraie réponse à ta question bizarre "Est-ce simplement la méthode choisie qui va imposer la décision ou existe-t-il un moyen d'échapper au mieux à cette inconnue ? " (s'il y a un moyen, on en fait la méthode, donc de quoi veux-tu parler ?).

    Cordialement.
  • gerard0 on a un problème parfaitement académique avec une hypothèse $H_0$ 5 boules et $H_1$ 6 boules. Pourquoi toi, le meilleur statisticien du forum ne listes-tu pas les tests disponibles, avec les erreurs de première et seconde espèces, la puissance du test etc ? J'ai un peu oublié quels tests patentés sont appropriés.

    Bah en lisant mieux les messages, tu as fait le travail !
  • Vu les résultats que j'ai annoncé, les deux tests binomiaux des hypothèses "5 boules" et "6 boules" sont significatifs au seuil classique de 5% : Dans les deux cas, on rejette l'hypothèse. Et vu que le nombre de tirages suit par nature une loi binomiale, le test binomial est celui qui convient, d'évidence. Donc "c'est pas six, c'est pas cinq".

    On est dans une situation bien choisie pour que les moyens classiques des probas soient au bout de leurs possibilités sans que ça se voie trop (le classique "j'ai jeté 5 fois un dé j'ai eu 5 six, le dé est-il pipé ?" est trop facile !).

    Cordialement.
  • Bon, du coup, ce « problème » n’est pas pertinent, c’est ça la morale de l’histoire, non ?

    Ou bien est-ce volontaire de faire constater à celui qui cherche qu’il est vain de se prononcer ?
  • Je ne sais pas qui l'a posé, mais il met bien le doigt sur ce qui fait qu'une conclusion mathématique peut n'être d'aucune utilité. Et oblige à se poser sérieusement la question de ce qu'on fait en probas/stats.
    Mais la réalité récente a mis en évidence la même chose, avec les modèles épidémiologiques divers. Et à la fin, ce ne sont pas les scientifiques qui prennent les décisions, mais bien les politiques, puisqu'il s'agit de décisions politiques.

    Cordialement.
  • Désolé de revenir à la charge car tout le monde semble abonder dans le même sens , j'ai donc certainement raté quelque chose . Je vais reprendre autrement la question que je posais maladroitement à Gérard . Je rappelle qu'il s'agît de trouver le nombre de boules le plus probable même si le taux de réussite se situe à un minuscule epsilon de 50% .

    Il me semble que les méthodes proposées ( Bayes et vraisemblance maximale ) présupposent que la sixième boule est à priori sélectionnée ou refusée par un pile ou face . Les calculs montrent alors qu'avec six boules on a un résultat plus proche de l'expérience . Ces méthodes sont parfaitement naturelles et mes réflexes vont aussi dans ce sens .

    La troisième méthode que Gérard qualifie d’arithmétique ne présuppose rien sur la méthode utilisée pour sélectionner ou rejeter la dernière boule , elle se contente de comparer les fréquences en boules noires dans les urnes à cinq ou six boules et dans l'expérience .

    5 boules : fréquence : 0,6000,
    6 boules : fréquence : 0,5000,
    Expérience : fréquence : 0,5503 .

    Je ne dis pas que cette méthode est meilleure que les deux autres mais elle ne présuppose rien .

    Je sais que ce que l'on conçoit bien s'énonce clairement mais là j'ai un peu de mal à expliquer ce qui me titille . Dans la pratique on va bien sûr refuser cette expérimentation qui joue avec nos nerfs pour en faire une autre . En tant que mathématiciens , on est en droit de se poser la question .

    Cordialement

    Domi
  • Domi,

    tu es un peu gonflé de dire que dans nos façons de faire on a un présupposé et que dans la tienne, non. Où as-tu vu utilisée cette supposition ?
    Tu fais la même chose que moi, en remplaçant la probabilité que ça arrive par la fréquence correspondante. Donc tu fais les mêmes présupposés.

    "... mais là j'ai un peu de mal à expliquer ce qui me titille". Si tu savais le nombre de gens qui sont comme toi face aux techniques de probas. Les conclusions probabilistes sont souvent désagréables, elles "titillent".

    Alors à moi de te titiller : Qu'est-ce qui justifie le fait de choisir l'expérience qui donne la fréquence théorique la plus proche ? Si tu peux me donner une raison mathématique (autre que "c'est plus proche"), et mieux, une raison probabiliste, je concèderai qu'on peut faire ainsi.

    Cordialement.
  • Inutile de s'énerver , je ne fais que m'interroger et je ne vais certainement pas prendre les choses de haut :)

    La question que tu poses est aussi celle que je me pose , pourquoi la fréquence la plus proche fournirait-elle la meilleure solution ? Elle semble toutefois passer au dessus des considérations du choix de la dernière boule .

    On est à la frontière de questions théoriques certainement ( très/trop) complexes que n'ai pas l'ambition de résoudre . J'ai simplement un peu de mal à admettre que l'expérience ne dit rien dans un sens ou dans l'autre et qu'elle n'est même pas capable de dire que les chances sont égales pour l'une ou l'autre des deux possibilités . Il n'y a absolument rien d'agressif dans ce message mais une simple incompréhension .

    Cordialement

    Domi

    PS : je réagis souvent de façon épidermique , ce n'est pas de l'agressivité mais de la passion .
  • un peu de mal à admettre que l'expérience ne dit rien dans un sens ou dans l'autre

    Elle ne dit pas tout à fait rien, elle dit juste presque rien.
    et qu'elle n'est même pas capable de dire que les chances sont égales pour l'une ou l'autre des deux possibilités

    :-S Si ! C'est exactement ce que dit le résultat de l'expérience : que les chances sont quasi égales pour l'une et l'autre des deux possibilités.
  • Domi,

    je ne me suis pas énervé, j'ai dit ce que m'inspirait ton message (la paille dans l’œil du voisin).

    Et ce nouveau message m'inquiète encore plus : On t'a donné deux preuves concordantes probabilistes que 6 est très légèrement préférables à 5, que la préférence est extrêmement faible, et tu viens dire " ... que l'expérience ne dit rien dans un sens ou dans l'autre et qu'elle n'est même pas capable de dire que les chances sont égales pour l'une ou l'autre des deux possibilités". A croire que tu n'as pas lu nos messages.
    Et tu t'accroches à une simili-preuve, qui n'est que de la forme "un calcul me donne ceci, donc je choisis cela". Dont tu n'es pas capable de justifier qu'il s'applique ("pourquoi la fréquence la plus proche fournirait-elle la meilleure solution ?").
    En mathématicien, je choisis les deux preuves concordantes plutôt que tout autre "argument".

    Il reste bien évidemment le fait que le choix mathématique ne donne pas un argument probabiliste fort pour le suivre concrètement s'il y a un gros risque à perdre.

    Cordialement.
  • J'ai bien lu les messages et je ne cherche vraiment aucune paille chez le voisin , je reformule la question de façon moins polémique .

    On oublie un moment le problème initial , les urnes A et B contiennent un nombre quelconque de boules .

    On effectue en aveugle différents prélèvements dans une seule des urnes A ou B . On note a ,b et x la fréquence d'apparition des boules noires dans A , dans B et dans l'expérience X .

    Il faut retrouver à l'aide de ces trois valeurs a , b , x , l'urne la plus probable dans laquelle on a effectué le tirage . Ici on a un cas où a<x<(a+b)/2<b et pourtant B est le bon choix .

    1°) Existe-t-il des situations dans lesquelles les paramètres a , b et x ne permettent pas de conclure ( même paramètres mais réponses différentes ) ?

    2°) Peut-on caractériser ( à l'aide de a ,b et x ) , ces zones d'ombres pour lesquelles le choix de l'urne ne suit pas la fréquence ?

    J'ai d'autres questions qui dépendront des réponses , je répète ces questions sont naïves , et peut-être sans intérêt , inutile de me sermonner :-)

    Cordialement

    Domi
  • ne permettent pas de conclure
    Ça dépend ce qu'on appelle "permettre de conclure".
    Généralement, on ne pourra jamais être sûr.

    Dans le programme de ma classe d'ECE2, il est écrit la chose suivante :
    S’il existe des critères pour juger des qualités d’un estimateur ponctuel $T_n$ de $g(\theta)$ (biais, risque,
    convergence)
    , aucune certitude ne peut jamais être apportée quant au fait que l’estimation donne la
    vraie valeur à estimer
    .
    Il y a toujours une part d'arbitraire dans le niveau de "preuve" que l'on souhaite accepter.
    On note $a ,b$ et $x$ la fréquence d'apparition des boules noires dans A , dans B et dans l'expérience X.
    Il faut retrouver à l'aide de ces trois valeurs $a , b , x$ , l'urne la plus probable dans laquelle on a effectué le tirage.
    Je ne suis pas sûr que ça ne dépende que des probas pour chaque urne $a,b$, et de la fréquence empirique $x$.
    c'est certainement possible si, comme ici, on connaît $a,b$ ainsi que le nombre de tirages faits, et le nombre d'occurrence observées, parce qu'on peut modéliser par une loi binomiale, et conditionner par Bayes.

    À un moment donné, il faut arrêter de vouloir faire entrer des carrés dans des ronds...
  • A priori,

    en général, la fréquence est proche de la vraie valeur; Donc sauf dans des cas construits pour être "à la limite" entre les deux cas, les trois raisonnements coïncideront, sachant que deux sont solides, et le troisième (juger par la fréquence) n'est pas un raisonnement mathématique (en tout cas, je ne connais pas de preuve qu'il a une validité).
    Pour tes questions Domi :
    1) oui, tu en as un exemple dans ton premier message (encore une fois, la proximité de la fréquence ne prouve rien)
    2) Sans doute, mais quel intérêt, à part faire un exercice qui oblige celui qui veut le faire à apprendre les règles des probas et des stats ?

    C'est bizarre, d'habitude, sur le forum, tu appliques des règles mathématiques, et tu refuse les a-priori non démontré. Là, tu t'accroches à une idée incorrecte, et tu y reviens sans arrêt.

    Cordialement.
  • Merci pour ta réponse , Gérard

    Oui , je préfère largement des réponses démontrées à des affirmations balancées à la va vite . L'idée "incorrecte" que tu évoques n'est pas de moi mais elle m'interroge et j'aimerais un exemple "simple" pour la démolir .

    Cordialement

    Domi
  • Tu ne peux espérer un exemple pour la démolir, puisque celui que tu as amené ne t'a pas suffi : On ne peut pas démontrer que sa preuve est fausse à celui qui croit que c'est une preuve (voir la rubrique Shtam). Il n'y a qu'en essayant d'en faire une preuve, donc de trouver sa justification, de faire des maths, qu'on peut avancer vers un résultat. Mais comme je ne vois pas quoi faire, je reste sur ma position. A celui qui t'a apporté cette "raison" de faire des maths.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.