Inférence bayesienne

Bonjour,

Je suis en train de réfléchir sur une activité sur l'inférence bayésienne : ActiviteInferenceBayesienne
Je suis sur le doc 3 et je m'intérroge sur le calcul du pourcentage de patients réellement malades quand le test est positif.

J'ai bien compris le calcul des VP, VN, FP, FN à partir d'un tableau de contingences sur un échantillon de 1000 personnes.
Par contre, sur cet échantillon, la fréquence d'apparition de la maladie et de 993/1000 alors que dans l'énoncé on nous dit que sur le population générale elle est de 1 pour 10000. L'échantillon n'est pas du tout représentatif non ? Cela n'est-il pas un problème ?

Par ailleurs pour la case en haut à droite du diagramme on fait VP*f_m*N. Or f_m*N est le nombre de malades dans une population de N individus et VP est la proportion des vrais positifs dans un échantillon de 1000 individus. Pour avoir le nombres de malades, il faudrait multiplier VP par le nombre de personnes positives puisque VP est le quotient des positifs malades sur l'ensemble des positifs et pas sur l'ensemble des malades. Je ne sais pas si je suis claire.

Une question également totalement naïve mais quand on demande d'évaluer le pourcentage de patients réellement malades quand le test est positif, on pourrait se dire que ce pourcentage correspond à la fréquence des VP (nombres de personnes malades et positives divisé par nombre de personnes positives) si l'échantillon choisi est représentatif de la population. Mais pas du tout, puisque la fréquence des vrais positifs sur l'échantillon est de 990/992 et dans le texte il est dit que le pourcentage de patients réellement malades quand le test est positif est de 4,7%.

J'avoue être assez confuse sur cette activité. Si quelqu'un peut m'éclairer, je l'en remercie par avance.

Réponses

  • Bonjour.

    Ton lien renvoie à un manuel complet. Peux-tu mettre un lien efficace ?
    Pour l'instant, on ne sait pas de quoi tu parles.

    Cordialement.
  • J'ai fait une capture d'écran.117142
  • Je ne suis pas très fort en stats mais c'est vrai que

    ça ne fait pas très sérieux pour un "service d'études statistiques".

    Et puis, la phrase
    le pourcentage de patients réellement malades quand le test est positif n'est que de 4,7%

    fait un peu pitié, alors que le tableau affirme que sur les 992 personnes dont le résultat a été positif, 990 étaient vraiment malades.
  • OK !

    " L'échantillon n'est pas du tout représentatif non ?"
    Effectivement, les résultats donnés correspondent probablement à une population de personnes suspectées d'avoir la maladie. Et comme le diagnostic était assez fiable, la proportion de ceux qui n'ont pas la maladie dans l'échantillon était faible.
    "Cela n'est-il pas un problème ?" Oui, j'ai l'impression que la suite de ton bouquin utilise les résultats de cet échantillon biaisé pour traiter le cas général. En fait, il est difficile de tester suffisamment de gens pour avoir à la fois un nombre suffisant de malades, et une représentativité : Pour avoir 50 malades, il faudrait tester un demi million de personnes.

    J'ai bien peur que les auteurs se soient plantés : On ne teste pas toute une population pour un cas sur 10000.

    Cordialement.
  • Ah oui, tiens, comment on fait, alors ?
  • Mais pas du tout, puisque la fréquence des vrais positifs sur l'échantillon est de 990/992 et dans le texte il est dit que le pourcentage de patients réellement malades quand le test est positif est de 4,7%.
    Ils veulent dire que "dans la nature", le taux parmi tous les positifs de vrais positifs est très faible.

    Sur 10000 personnes qui passent le test en population générale, il y a environ 1 vrai malade, mais, parmi les 9999 restants, le test va produire des faux positifs comme un fou (estimé à 2/7 d'après le labo) donc pas loin de 3000 faux positifs.

    Donc on se retrouve avec un vrai positif pour 3000 faux, ce qui donne de l'ordre de 0.35 % (encore pire que d'après l'énoncé)
    Bref, oui, l'énoncé est assez confus.
  • Georges,

    le service statistique ne parle pas de l'échantillon. Mais lui aussi semble penser que le test va être appliqué à tout le monde. Il dit que si on fait passer le test à 1 million de personnes prises au hasard, les 100 malades (environ; pas tous détectés) ne représenteront que 4,7% des gens dont le test est positif. Mais je n'ai pas compris d'où ils sortent ça : Dans l'échantillon pour 7 non malades il y a 2 positifs, donc on s'attend à 2/7 de million de positifs, soit environ 285 700 positifs. 100 sur 285800, ça fait 0,035%.

    Travailler avec un échantillon biaisé, ça donne des résultats bizarres !

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.