Math et fiabilité de tests

Cirdec · April 2022

Bonjour,
voici un sujet de SVT-MATH pour le grand oral.
Pourriez-vous me dire si la partie MATH est cohérente ?
Merci beaucoup !

Un test positif peut-il être négatif ?
Bien sûr vous le savez les tests ne sont pas fiables à 100%. Néanmoins, un laboratoire spécialisé dans les tests ADN a annoncé que les tests génétiques de la maladie cœliaque qu’ils possèdent peuvent confirmer avec précision si vous avez une prédisposition génétique [à] cette maladie qui est une maladie chronique de l’intestin déclenchée par la consommation de gluten, un mélange de protéines contenues dans certaines céréales comme le blé, l’orge, le seigle. Chez les personnes atteintes de la maladie cœliaque, l’ingestion de gluten entraîne une réaction immunitaire anormale dans l’intestin grêle, qui crée une inflammation et endommage la paroi intestinale. Plus précisément, ce sont les villosités intestinales qui sont détruites. Ce sont de petites structures en forme de vague qui constituent les « replis » de l’intestin et qui permettent l’absorption de la majeure partie des nutriments, des vitamines et des minéraux (voir le schéma ci-dessus).

Si l’inflammation persiste, l’intestin abîmé devient incapable d’absorber certains nutriments, vitamines et minéraux. Il peut s'ensuivre une malnutrition malgré une alimentation normale. D’autres symptômes d’intensité variable peuvent se manifester, comme une fatigue, une dépression et des douleurs aux articulations. Avec le temps, des problèmes de santé plus graves peuvent apparaître. Les personnes atteintes peuvent toutefois retrouver la santé en éliminant le gluten de leur alimentation. Le HLA DQ2 et le DQ8 sont 2 gènes qui sont le plus souvent observés chez les personnes souffrant de la maladie cœliaque. Ces 2 gènes sont les plus communs même si ce ne sont pas les seuls gènes potentiels impliqués dans la maladie cœliaque. HLA signifie Human Leukocyte Antigen (antigène des leucocytes humains). Le HLA produit une protéine qui détient [détecte ?] tous les matériaux étrangers comme les petites particules étrangères, les virus ou les bactéries sur la surface de la cellule. Dans le cas des individus porteurs des gènes HLA défectueux, le corps n’est pas en mesure de bien distinguer le gluten du HLA, ce qui se traduit par une réaction auto-immune (inflammation et à une destruction de tissus). Le laboratoire dit bien que leur test génétique de la maladie cœliaque confirmera si vous êtes porteur du gène impliqué dans la maladie cœliaque et écartera la maladie avec une précision de 99%. Les données concernant la prévalence fluctuent beaucoup, car le diagnostic de la sensibilité au gluten n’est pas simple. Les experts et les associations de malades estiment que de nombreuses personnes en sont atteintes sans le savoir, et que la maladie est plus courante qu’on le croit. La fréquence de la maladie dépend des régions du globe et de l’origine ethnique. Les populations caucasiennes (Europe, Blancs d’Amérique du Nord, Australie) sont les plus touchées, la prévalence oscillant entre 1 personne sur 100 et 1 personne sur 300 environ. La maladie semble plus rare chez les personnes d’origine asiatique ou africaine. La présence est de 1% en France. Si je vous dis qu’il n’y a pas de grandes raison de s’inquiéter avec un test fiable à 99%. Vous allez me dire comment c’est possible ? Observons ces résultats d’un peu plus près.

Pour que ce soit plus concret, prenons par exemple le cas d’une petite ville V de 10000 habitants.
On note M l’évènement : « La personne est malade », et T l’évènement : « Le test est positif ». Le but est de calculer PT(M). Les données que nous avons en main sont P(M)= 0,01 (et donc P(¯M)=0,99), PM(T)=0,99 et P¯M(T)=0,01. La formule de Bayes donne :
PT(M)=PM(T)P(M)/PM(T)P(M)+P¯M(T)P(¯M)
=10−2×0,99/10−2×0,99+0,99×10−2
≃0,5.
C'est catastrophique ! Il n'y a que 50% de chances qu'une personne positive au test soit effectivement malade ! C'est tout le problème des tests de dépistage pour des maladies rares : ils doivent être excessivement performants, sous peine de donner beaucoup trop de "faux-positifs".
La formule de Bayes a longtemps été appelée formule de probabilité des causes. Elle permet en effet de remonter le temps, c'est-à-dire de calculer la probabilité d'une cause sachant celle de sa conséquence. Longtemps, elle a été regardée avec beaucoup de circonspection par les statisticiens de tous bords.
Si une personne sur 100 est atteinte de maladie cœliaque, cela signifie alors qu’on peut s’attendre à ce que 100 habitants soient malades et 9900 en bonne santé (en théorie bien entendu). Imaginons un instant que tous les habitants de V effectuent un test. Sur les 100 individus réellement malades, seulement 99 seront diagnostiqués positifs puisque le test n’est fiable qu’à 99%. Quant aux 9900 autres individues en bonne santé, ils seront tout de même 99 à être déclarés malades (9900*1/100=99) soit 1% de 9900 alors qu’ils sont en parfaite santé. Récapitulons, 99 personnes réellement malades sont déclarées malades. Ça c’est bien, mais 99 personnes non malades seront quand même déclarées positives. La conclusion est limpide, parmi tous les198 déclarés malades, seulement 99 le sont réellement alors que le taux de fiabilité du test est plutôt élevé… Si je suis diagnostiqué positif, j’ai seulement 50% de chance, enfin plutôt de malchance d’être réellement malade !

gerard0 · April 2022

Bonjour.

Un gros problème : Tu mélanges fiabilité et spécificité du test. Dire que le test est fiable à 99% signifie que sur 100 malades, 99 seront dépistés et 1 ne sera pas dépisté (faux négatif). Mais ça ne dit rien sur la spécificité du test, sur le pourcentage de faux positifs, de non malades déclarés positifs à tort.

Si la spécificité est 90%, un non malade sur 10 est déclaré positif, et sur les 9900 non malades, ce sont 990 qui seront positifs.

Tous tes calculs utilisent le fait que la spécificité est aussi 99%. Pas de problème, mais tu ne peux pas te contenter de sauter cet aspect.

Cordialement.

Vassillia · April 2022

Bonjour,

D'accord avec toi sur le problème de vocabulaire mais pour moi :

- une sensibilité $P_M(T)=0,99$ signifie que sur 100 malades, 99 seront déclarés positifs donc dépistés

- une spécificité $P_{\overline{M}}(\overline{T})=0,99$ signifie que sur 100 non malades, 99 seront déclarés sains ce qui permet effectivement de calculer par complémentarité le pourcentage de non malades déclarés positifs à tort.

La fiabilité (au sens statistique pour un test diagnostic), c'est plutôt une mesure de la capacité du test diagnostic à redonner le même résultat $T$ ou $\overline{T}$ si on recommence le test sur le même patient (on distingue d'ailleurs la fiabilité inter-examinateur et intra-examinateur).

D'ailleurs tant que j'y suis la probabilité calculée ici $P_T(M)$ s'appelle la valeur prédictive positive et dépend comme on peut le voir de $P(M)$ la probabilité d'être malade à priori pour le patient c'est-à-dire la prévalence de la population source à laquelle il est supposé appartenir.

gerard0 · April 2022

Tu as raison, Vassilia, j'ai repris un peu vite le terme fiabilité, dans la signification que lui donnait Cirdec.

Cordialement.

lourrran · April 2022

Il y a un exercice qu'il faut absolument avoir fait auparavant si on présente ce sujet au grand-Oral.

Pour un test $X$, la sensibilité est $s_1$ (exemple, $s_1= 0.99$), la spécificité est $s_2$ (exemple $s_2=0.99$), on a testé $10000$ personnes et on a trouvé $500$ personnes 'positives'. À combien peut-on estimer le nombre de malades en tout, et parmi ces $500$ personnes.
Ici, sur cet exemple, je donne la réponse, on peut estimer le nombre total de personnes malades à $408$, dont $404$ ont été signalées comme positives par le test.
La réponse peut paraître surprenante, et ce serait dommage de découvrir ce '''paradoxe''' le jour du grand-Oral.

Cirdec · April 2022

Bonjour,
merci pour toutes ces précisions de vocabulaire !
Je n'arrive pas à comprendre l'exemple de Lourran.

En connaissant la proba de T sachant M qui vaut 0,99 (la sensibilité) et la proba de l'événement contraire de T sachant l'événement contraire de M qui vaut 0,99 (la spécificité) ainsi que la proba de T qui vaut 0,05 (j'ai fait 500/10 000), j'ai essayé de faire un schéma en arbre mais je n'arrive pas à trouver la proba de M car il y a deux inconnues sur les branches secondaires : la proba de M sachant T et la proba de M sachant l'événement contraire de T.

Comment puis-je faire ?
Merci !

Vassillia · April 2022

Tu as 3 valeurs numériques, comment faire un arbre où tu pourras placer au moins 2 valeurs numériques parmi les 3 directement dans l'arbre ? Cela réglerait ton problème surtout si la formule des probabilités totales te permet d'écrire une équation utilisant la valeur numérique restante.

Le seul choix que tu peux faire, c'est quels évènements tu mets sur les branches principales et quels évènements tu mets sur les branches secondaires.

lourrran · April 2022

Je pense que plutôt qu'un arbre, c'est plus facile de faire un tableau :
- 2 lignes : malade / NonMalade plus une ligne total
- 2 colonnes : positif / Négatif plus une colonne total
Et tu remplis le tableau.

Cirdec · April 2022

Bonsoir,

ah ça y est j'ai trouvé grâce à votre aide (MERCI !) une probabilité de 0,04082 environ pour qu'une personne soit malade d'où 408 personnes parmi 10 000.

On pourrait s'attendre à beaucoup plus de personnes malades.

Je ne comprends pas d'où vient ce paradoxe.

Est-ce lié au fait qu'on confonde la proba de T sachant M et celle de M sachant T ??

Merci de m'éclairer à ce sujet !

gerard0 · April 2022

Ce n'est absolument pas un paradoxe, c'est la réalité des tests : Lorsque la prévalence est faible, un test doit avoir une très forte spécificité, il doit ne faire que très rarement des faux positifs. Ce n'est surprenant que pour ceux qui n'ont jamais réfléchi à la question.

Cordialement.

lourrran · April 2022

Mon exemple est atypique.
Dans cet exemple, on teste 10000 personnes prises au hasard dans la population, et on a ces résultats/ce paradoxe.
Dans la vraie vie, on ne teste pas $N$ personnes prises au hasard, on teste des personnes qui présentent des symptômes, ou au moins qui ont de bonnes raisons d'être testées... Si une personne a des symptômes et est testée positive, on peut conclure qu'elle est malade.

On peut aussi faire passer un second test à toutes les personnes qui ont eu un premier test positif. Et là, pour les personnes qui ont été testées 2 fois 'positives', on a la quasi-certitude qu'elles sont réellement malades.

Ou bien, on a des tests mieux calibrés. Si on ne sait pas faire des tests qui ont une sensibilité de 0.998 et une spécificité de 0.998, on sait peut-être faire des tests ( 0.998, 0.98), ou l'inverse, (0.98, 0.998)
Selon les objectifs, et selon ce que les labo savent faire, on calibre les tests différemment.

Vassillia · April 2022

Exactement sauf que tes valeurs numériques sont très très optimistes lourrran par rapport à la réalité, j'ai cherché rapidement les valeurs pour les tests sérologiques concernant la maladie cœliaque et il n'y aura pas d'exception https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4721855/table/t1-0620e11/

Ce dont parle CIRDEC c'est de la présence des gènes HLA DQ2 et DQ8 supposés accroitre le risque de développer la maladie, il n'y a pas vraiment de calibrage à faire pas plus que de preuve de maladie d'ailleurs même si les gènes sont présents. C'est un facteur de risque, rien de plus, rien de moins, même si le risque relatif par rapport aux non porteurs de ces gènes est important.

Par contre pour les tests sérologiques, tu as raison, on étudie la courbe ROC qui permet effectivement de choisir le seuil en fonction duquel le patient est déclaré positif ou négatif. Tout dépend si on veut un test de dépistage (où on ne veut surtout pas laisser passer un malade sans le détecter) ou un test de confirmation (où on ne veut surtout pas donner un traitement lourd à un patient non malade). En fonction, on va privilégier la sensibilité ou la spécificité qui malheureusement évoluent systématiquement en sens inverse lorsqu'on modifie le seuil.

Bon je sors un peu du domaine mathématiques mais je me dis que cela peut peut-être servir pour la partie SVT du grand oral et j'ai essayé de rester sur des notions accessibles, promis j’arrête.

Cirdec · April 2022

Merci beaucoup pour vos compléments que je pense avoir compris sans pour autant les "maîtriser", étant nettement moins qualifié que vous !

Je vais m'en nourrir le mieux possible.

Merci pour le temps passé à me répondre et les exemples/illustrations/explications adaptées fournies !!!

Soc · June 2022

Le paradoxe vient du fait que l'esprit confond facilement P(+/M) (la probabilité d'être positif sachant que l'on est malade, qui est le nombre mis systématiquement en avant et donc auquel on s'attache, 99% ici) avec P(M/+) (la probabilité d'être malade sachant que le résultat est positif).

Ensuite on a du mal à évaluer intuitivement P(M/+) car le nombre de faux positifs est très dépendant de la proportion de malades (donc par exemple cela peut varier significativement au cours de l'épidémie). L'idée simple derrière est que plus il y a en proportion de personnes saines, plus il y aura de faux positifs et donc moins le test sera significatif, ce qui je pense est plus ou moins l'objet de ton autre fil.

Un autre biais est que généralement on ne se teste que si l'on a des symptômes. Les probabilités présentées ici ne tiennent pas compte de ce facteur. P(M/+) est donc de 0,5 mais P(M/+et symptômes) est sans doute beaucoup plus élevée, d'où notre incrédulité légitime.

Il est important de rappeler (même si cela a déjà été fait) que dans la pratique le taux de faux positifs et le taux de faux négatifs n'est pas le même et que donc la fiabilité (au sens commun, pas mathématique) ne peut pas vraiment se résumer en seul nombre.

Après c'est une bonne idée d'appliquer la proposition de Lourrran dans une feuille de calcul et de faire un tableau à double entrée puis de faire varier les 3 paramètres (taux de M, de M- et de S+) et observer ce qu'il advient de P(M/+) ou encore P(S/-).

Cirdec · June 2022

Merci beaucoup pour ces compléments !
C.

nicolas.patrois · November 2023

Une autre source sur ce sujet, à propos de détections de maladies comme le SIDA :
https://santepublique.med.univ-tours.fr/wp-content/uploads/2016/07/evaluation_meth_depistage.pdf

Vassillia · November 2023

Ah le fameux test ELISA qui détecte les anticorps (pas que pour le SIDA d'ailleurs).
Beaucoup de facs de France le presentent en première année de PASS ou LAS par contre svp, si vous vous servez de ce document, démontrez la formule donnant la VPP et la VPN en fonction de la prévalence, de la sensibilité et de la spécificité. Ce n'est pas méchant, c'est juste Bayes, ça m'énerve les facs où ça sort de nulle part et il faut l'apprendre par cœur

Math et fiabilité de tests

Réponses

Lettre d'information