Texte critiquant les maths d'un article covid
Bonjour,
je ne sais pas si quelqu'un en a déjà parlé sur le forum (Aléa a parlé d'un autre article, il y a pas longtemps, et disait que dans les auteurs, cette fois, il y avait des gens qui s'y connaissaient vraiment en maths et pas des charlots - je reformule - et donc je me dis qu'Aléa faisait peut-être référence à cette histoire-ci) mais voici un texte (cliquez) de Vincent Pavan, MCF en maths (par ailleurs mis à pied par son université pour avoir fait cours sans masque) où il critique vivement un article cosigné par 17 personnes venant d'instituts prestigieux (selon lui), dont l'Institut Pasteur.
Si vous avez envie d'en discuter, moi je veux bien !
Mes commentaires.
1) Je n'ai pas lu l'article incriminé, mais si Pavan ne le déforme pas, je suis maintenant convaincu que tout ce qu'il démontre, c'est le peu de rigueur mathématique de ses auteur(e)s.
2) Le texte a l'air d'avoir tourné dans des milieux qui me semblent un peu troubles, et dans des cercles de personnes pro-Raoult et qui contestent l'efficacité des masques ou du confinement. En tout cas, l'article incriminé semble prétendre mesurer l'efficacité du confinement (passage d'un $R_0$ de $3$ à $0,5$) et Pavan s'attache à démontrer que leur calcul ne se base sur pas grand chose de rigoureux, ce que je veux bien lui accorder. Par contre, Pavan fait un procès d'intention en affirmant que l'article n'est pas un article scientifique, mais un article politique ;
- je ne sais pas quelle audience l'article a eu ;
- il m'a plus l'air d'être un article où des gens font joujou avec les maths en se disant que si on fait des calculs compliqués, on va arriver à des résultats subtils ;
- ce n'est pas parce qu'un raisonnement démontrant que le confinement a été efficace est faux que le confinement est inefficace.
3) Question : tout ceci m'inquiète globalement sur la formation mathématique des scientifiques en général. Un(e) doctorant(e) dans une science naturelle m'a dit qu'au terme d'une collecte de données, les tests statistiques les plus basiques ne montraient pas de résultat significatif ; son(a) directeur(trice) de thèse lui a dit d'utiliser des techniques statistiques beaucoup plus sophistiquées et le résultat a été significatif ; ce(tte) doctorant(e) avait l'impression qu'il s'agissait donc d'utiliser le test statistique qui donnerait le résultat espéré et remettait en question l'éthique scientifique de son(a) directeur(trice). Il(elle) m'a également parlé d'analyses par composantes principales dans une situation où l'échantillon était plus petit que le nombre de dimensions (je ne suis pas très cultivé en statistiques, mais si j'ai bien compris, cette technique consiste à déterminer dans quelle direction un nuage de point est le plus allongé, et que tout cela a d'autant moins de sens que la dimension de l'espace est grande et que le nuage est petit). Bref, ma question : à votre avis, dans la communauté scientifiques, est-ce que de telles pratiques sont généralement encouragées ? Y a-t-il assez de personnes compétentes pour les repérer ?
je ne sais pas si quelqu'un en a déjà parlé sur le forum (Aléa a parlé d'un autre article, il y a pas longtemps, et disait que dans les auteurs, cette fois, il y avait des gens qui s'y connaissaient vraiment en maths et pas des charlots - je reformule - et donc je me dis qu'Aléa faisait peut-être référence à cette histoire-ci) mais voici un texte (cliquez) de Vincent Pavan, MCF en maths (par ailleurs mis à pied par son université pour avoir fait cours sans masque) où il critique vivement un article cosigné par 17 personnes venant d'instituts prestigieux (selon lui), dont l'Institut Pasteur.
Si vous avez envie d'en discuter, moi je veux bien !
Mes commentaires.
1) Je n'ai pas lu l'article incriminé, mais si Pavan ne le déforme pas, je suis maintenant convaincu que tout ce qu'il démontre, c'est le peu de rigueur mathématique de ses auteur(e)s.
2) Le texte a l'air d'avoir tourné dans des milieux qui me semblent un peu troubles, et dans des cercles de personnes pro-Raoult et qui contestent l'efficacité des masques ou du confinement. En tout cas, l'article incriminé semble prétendre mesurer l'efficacité du confinement (passage d'un $R_0$ de $3$ à $0,5$) et Pavan s'attache à démontrer que leur calcul ne se base sur pas grand chose de rigoureux, ce que je veux bien lui accorder. Par contre, Pavan fait un procès d'intention en affirmant que l'article n'est pas un article scientifique, mais un article politique ;
- je ne sais pas quelle audience l'article a eu ;
- il m'a plus l'air d'être un article où des gens font joujou avec les maths en se disant que si on fait des calculs compliqués, on va arriver à des résultats subtils ;
- ce n'est pas parce qu'un raisonnement démontrant que le confinement a été efficace est faux que le confinement est inefficace.
3) Question : tout ceci m'inquiète globalement sur la formation mathématique des scientifiques en général. Un(e) doctorant(e) dans une science naturelle m'a dit qu'au terme d'une collecte de données, les tests statistiques les plus basiques ne montraient pas de résultat significatif ; son(a) directeur(trice) de thèse lui a dit d'utiliser des techniques statistiques beaucoup plus sophistiquées et le résultat a été significatif ; ce(tte) doctorant(e) avait l'impression qu'il s'agissait donc d'utiliser le test statistique qui donnerait le résultat espéré et remettait en question l'éthique scientifique de son(a) directeur(trice). Il(elle) m'a également parlé d'analyses par composantes principales dans une situation où l'échantillon était plus petit que le nombre de dimensions (je ne suis pas très cultivé en statistiques, mais si j'ai bien compris, cette technique consiste à déterminer dans quelle direction un nuage de point est le plus allongé, et que tout cela a d'autant moins de sens que la dimension de l'espace est grande et que le nuage est petit). Bref, ma question : à votre avis, dans la communauté scientifiques, est-ce que de telles pratiques sont généralement encouragées ? Y a-t-il assez de personnes compétentes pour les repérer ?
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Il est vrai que certains (et pas seulement des scientifiques) utilisent les statistiques comme un automatisme : Le test est significatif, je conclus que H1 est vraie (ce n'est pas l'interprétation correcte), le test n'est pas significatif, je conclus que H0 est vraie (en général faux) ou, comme ton DT, je cherche un test qui rendra significatif.
Bien que cette dernière méthode ne soit pas fausse en soi : Si, avec un test de faible puissance, on a une p-value petite, mais pas en dessous du seuil qu'on s'est fixé, utiliser un test plus puissant est une bonne idée. C'est ce que font actuellement les testeurs de vaccins, la puissance du test augmentant avec le nombre de testés à l'aveugle et le temps passé. Donc pour ta thésarde, il faudrait avoir plus d'éléments.
Car ce qui compte, ce n'est pas le test (pourtant très souvent impérativement demandé), mais tout ce qu'il y a autour : Le questionnement scientifique, la qualité de l'échantillonnage, la signification scientifique de l'hypothèse testée, etc.
Dans le domaine des sciences humaines, des chercheurs ont pris à bras le corps cette question, et refait les expériences de psychologie ou sociologie publiées depuis 50 ans. Ils ont été très souvent incapables de reproduire les résultats; ils estiment que plus de 80% des résultats publiés seront dans ce cas, à cause de méthodes ad hoc, comme de ne publier que si le test est significatif, de rejeter les échantillons qui ne conviennent pas, de mettre de côté comme "valeurs aberrantes" les valeurs qui font échouer le test, etc.
C'est moins le cas en sciences dures, car refaire une expérience est souvent le premier pas dans une exploitation de ses conséquences. C'est ainsi que la découverte par un chercheur français des "rayons N" au début du vingtième siècle a été rejetée, personne ne les retrouvant. Plus récemment, la "mémoire de l'eau" ou la "fusion froide" ont été aussi rejetées par la communauté scientifique, car non reproductibles. Inversement, des études sur la transmission de pensée menées par la marine américaine, qui donnaient un résultat significatif, ont été arrêtées : A quoi sert un moyen de transmission qui donne, sur 4 possibilités, 28% de réussite au lieu des 25% au hasard ? Le taux d'erreur reste 72% !! Et ces expériences coûteuses n'ont pas été reprises (ou n'ont pas donné le même résultat).
La formation en statistiques est compliquée. Pour un matheux qui veut faire des statistiques mathématiques (donc une partie de la théorie de la mesure), ce n'est pas un problème. Mais pour un scientifique qui veut utiliser correctement les outils statistiques, s'il a une formation très matheuse, c'est difficile : Les résultats obtenus sont très dépendants de la façon de pratiquer, les réponses oui/non quasi inexistantes, les bonnes questions n'ont souvent pas d'outil pour les traiter, ... sans parler de l'aspect décevant des découvertes de corrélation ou de l'interprétation des tests (*).
Contrairement à ce que disait Claude Allègre, le fait d'avoir des machines ne diminue pas le besoin de formation en maths, il l'augmente pour pouvoir comprendre ce que dit la machine !
Cordialement.
(*) "p=0,12; au seuil de 5% le test n'est pas significatif. On n'a pas de bonne raison de rejeter l'hypothèse H0" - Et pourtant, on est loin d'une situation courante d'application de H0.
On nage dans l'euphémisme.
Une très belle histoire toutefois.
e.v.
Cordialement.
(*) tiens, on n'a pas retenu son nom. Pourtant, il a grandement contribué à la preuve !
tu as probablement raison, car l'article qui l'annonçait mettait de fortes réserves. Et tout le monde a été content de voir qu'il s'agissait d'un artéfact. Mais je n'étais plus dans le domaine de l'incompétence, seulement sur le thème de la vérification.
Cordialement.
(je connaissais cette histoire il y a eu une exposition à la BNF, il y a quelques temps, sur les origines du roman d'anticipation en France et la fausse découverte du rayon N y était mentionnée)
> (*) tiens, on n'a pas retenu son nom. Pourtant, il a grandement contribué à la preuve !
Gérard, c'est Richard Taylor qui a aidé Andrew Wiles, c'est connu.
Cordialement,
Rescassol
mais ce n'est pas le théorème de Fermat Wiles Taylor.
Cordialement.
c'est assez contradictoire.
C'est avec de plus grandes connaissances en maths que l'on arrive à montrer n'importe quoi, non?
C'est avec de plus grandes utilisations des maths que personne ne suit.
Aujourd'hui pour analyser une étude médicale c'est tellement une expertise en médecine et en stats que peu de gens savent décrypter l'ensemble.
Penser que c'est en augmentant les aptitudes en maths me semble à coté de la plaque des manipulations, lobbying qui s'exercent en science.
Comme si la science était cet objet pur et juste analysable, comme si c'était mathématiquement des choses vraies ou fausses comme les mathématiciens utilisent.
Pavan affirme que les auteurs de l'article médical font des bourdes de math d'un niveau élémentaire, je veux bien y croire mais je ne l'ai pas vérifié. Par contre il y a un truc avec lequel je ne suis pas d'accord dans ce qu'il dit. Il explique qu'on ne peut pas faire de probabilités sans utiliser le formalisme mathématique des probabilités (univers, tribu, proba). Les mathématiciens aimeraient bien croire que les autres scientifiques ont un besoin vital de leurs théorie et de la rigueur mathématique, mais dans la pratique ce n'est pas vraiment la cas. Et même quand les mathématiciens arrivent (parfois avec des siècles de retard) à proposer une théorie mathématique rigoureuse ce n'est pas pour autant qu'elle sera adoptée par les autres scientifiques. Il suffit de regarder les physiciens et leurs $\mathrm dx$. De la même façon pour les probabilités on n'a pas attendu Kolmogorov et son formalisme pour démontrer des théorèmes de probabilités ou utiliser les probabilités en science.
Je ne suis pas en train de dire que l'utilisation de ce formalisme n'est pas souhaitable ou que ce formalisme n'aiderait pas les auteurs de l'article médical à nettoyer leur raisonnement. Mais il est faux de croire qu'on ne peut pas faire sans.
Tout dépend de si l'on est malhonnête ou pas. En tout cas de meilleurs connaissances en math devraient permettre au (re)lecteurs de mieux voir si les auteurs de l'article racontent n'importe quoi ou non.
Suis-je le seul à être interloqué (pour ne pas dire plus) par la forme de ce texte ? Je ne juge pas quant au fond mathématique, mais les propos tenus sont quasiment orduriers vis à vis des scientifiques incriminés.
Chaque paragraphe comporte son passage EN MAJUSCULES ou en caractères gras, avec son lot d'anathèmes. La controverse est bien normale au sein de la communauté scientifique, mais la forme adoptée ici n'est pas acceptable. L'accusation de "Lyssenko en puissance" en fin du document est particulièrement grave. Le titre pompeux est aussi particulièrement fourni en vocabulaire inadapté : "suicide", "ne comprennent", "equation générale de la réalité", "maquiller piteusement" ...
L'auteur cherche visiblement à partager son émotion, son ressenti, qui sont peut être légitimes, mais qui viennent perturber et obscurcir la discussion scientifique.
Il est aussi très surprenant que l'auteur mentionne sur la première page qu'il est l'auteur d'un livre sur les algèbres intérieures. Qu'est-ce que cette information apporte quant au sujet de l'article ? On pourrait croire que l'auteur cherche à démontrer sa légitimité sur le sujet qu'il aborde en mentionnant des contributions à des domaines n'ayant aucun rapport, une sorte d'argument d'autorité. On a déjà observé cette attitude chez beaucoup de faux experts lors de cette crise, ce symptôme s'étant même manifesté chez un prix Nobel.
Aucun article scientifique à ma connaissance n'est présenté de cette manière.
Au vu du ton employé, il n'est absolument pas étonnant que ce papier ait eu un fort écho dans les milieux conspis et anti-masques. (Le Dr Fouché et le collectif Reinfo Covid ont d'ailleurs lancé un "appel à l'aide" pour soutenir M. Pavan suite à sa mise à pied)
C'est même très certainement l'objectif recherché, et M. Pavan a beau jeu de dénoncer un article politique chez ses contradicteurs, alors qu'il en fait de même.
Bref, je lirai en détails sans doute ce texte dans un futur plus ou moins proche, le sujet étant d'intérêt pour moi, mais la forme est particulièrement repoussante pour quelqu'un qui cherche sereinement à se forger une opinion ou à remettre en question celle qu'il a déjà.
Tout le monde fait ce qu'il croît être bon. Mais, comme aux échecs, une erreur n'est n'est une erreur que si l'adversaire vous enfonce. Dans l'idéal, il faudrait ne pas avoir peur de la controverse scientifique, pas avoir peur d'enfoncer et se faire enfoncer. Mais vient s'ajouter par dessus l'amour propre, l'égo, les dogmes, le fait que reconnaître ses erreurs n'apporte pas de points, la rivalité, la nécessité de manger, etc.
Le cœur de la preuve est suffisamment caché pour laisser aux propagandistes toute la place de prospérer.
@Corto : Pavan reproche aux auteurs d'avoir supposé qu'il existe une "vraie probabilité" de mourir/d'aller en soins intensifs après tant de jours à l'hôpital, et affirment implicitement que cette probabilité est solution d'un système d'équations linéaires dont les coefficients sont des données empiriques ; ensuite, ils cherchent à construire un modèle où cette loi discrète provient d'une loi continue ; enfin, ils trouvent (les paramètres) cette loi continue en utilisant un algorithme d'optimisation, au sens des moindres carrés (alors qu'il aurait suffi de résoudre le système linéaire pour trouver la loi discrète et ensuite faire d'autres choses pour trouver une loi continue). La loi continue obtenue, de par sa forme de siphon, ne peut pas coller aux données observées, et Pavan conclut en disant que pour arranger les choses, ils font une interpolation pour corriger leur modèle et remarque, narquois, que si c'était pour trouver un modèle qui colle aux données expérimentales, il aurait été plus simple de faire une interpolation tout de suite. Ensuite, il y a une histoire de $R_0$ mais j'ai décroché. En résumé, les accusations sont : les bêtises habituelles des gens qui parlent de probabilités sans formalisme clair, ne pas avoir vu que leur système était linéaire, avoir bourriné avec un algorithme d'optimisation, et ensuite de magouiller puisque leur modèle ne colle pas aux données (ce qu'ils auraient pu savoir dès le début puisqu'aucun choix de paramètres du modèle ne pouvait coller).
Le cadre des espaces munis de tribus est un peu étriqué certes (c'est un prétexte pour démontrer et exploiter des théorèmes d'analyse en fait: en toute généralité une probabilité est une fonction $f:A\to [0,1]$ telle que $A$ est une algèbre de Boole, $f(1)=1$ et $f(x\vee y)=f(x)+f(y)$ pour tous $x,y\in A$ tels que $x\wedge y = 0$: on peut vérifier que les probas à la Kolmogorov en sont un cas particulier).
Cordialement.
(*) Y en aurait-il un autre ?
ça alors, Monty Hall ne fait pas partie de la compréhension,
c'est du par cœur
Euh, et le reste de l'enseignement alors, c'est pareil?
en quoi ce qu'imaginent comprendre les gens dans le monthy hall
n'est pas une compréhension?
Pour la belle au bois dormant je ne me souviens plus.
Pour l'aiguille de Buffon est-ce que tu ne parlais pas plutôt du paradoxe de Bertrand ? L'aiguille de Buffon est justement un exemple de problème de probabilités résolu sans le formalisme de Kolmogorov.
Bon mais je précise tout de même avec tout ce que je raconte que je suis quand même pour l'utilisation du formalisme de Kolmogorov, dans les articles d'épidémiologie ou autre. Tu as tout à fait raison quand tu parles de confusion mentale.
G.A. : Oui j'ai quand même lu un peu les deux articles, ou plutôt survolé quelques parties. Comme toi je ne suis pas assez informé pour être capable de dire si ce que dénonce Pavan est véridique ou non.
L'enveloppe de Karine Pompon.
Heureux candidat vous etes admis a participer a notre jeu televise: Karine Pompon l'animatrice vous tend deux enveloppes contenant de l'argent: l'une contient une somme d'argent $a$ l'autre une somme d'argent $b$ avec $a<b$ sous forme d'un cheque afin de ne pas se laisser guider par l'epaisseur de l'enveloppe. Attention, vous ne connaissez si $a$ ni $b.$ Vous en choisissez une, vous regardez son contenu, appelons le $C$. Comme vous ne connaissez ni $a$ ni $b$ vous ne savez pas si $C=a$ ou si $C=b$. Maintenant, Karine Pompon vous offre
-ou bien de garder l'enveloppe que vous avez choisie et de rentrer chez vous avec la somme qu'elle contient;
-ou bien de prendre l'autre enveloppe et de partir avec.
J'ai ete interloque quand un collegue m'a demande ce que je ferais pour avoir de meilleures chances de partir avec la forte somme $b:$ il me paraissait evident que mes chances ne depasseraient jamais 50\% quoi que je fasse. Erreur, erreur. On peut faire beaucoup mieux si on dispose d'une simple table de nombres au hasard (c'est a dire d'un moyen de tirer au sort une variable aleatoire uniforme $U$ sur $(0,1)).$
Rappelons que si $0<u<1$ alors $\Pr(U<u)=u.$
Voici ce que je fais: je transforme d'abord ma variable aleatoire uniforme $U$ en une variable aleatoire exponentielle $X=-\log U.$ Je dis que $X$ est exponentielle pour la raison suivante si $x>0$ on a
\begin{eqnarray*}\Pr(X>x)&=&\Pr(-\log U>x)\\& =&\Pr (\log U<-x)\\&=&\Pr(U<e^{-x})=e^{-x}.\end{eqnarray*}
Avantage, la loi de $X$ est repartie sur toute la demi droite des nombres reels positifs.
Maintenant pendant que Miss Pompon me tarabuste en me demandant ce que je decide, je tire au sort $U$, j'en deduis $X.$ A ce point je regarde si $X$ est plus grand que $C$ ou non.
Ou bien $X>C$. Dans ce cas je parie que $C=a$ et je choisis donc l'autre enveloppe.
Ou bien $X\leq C.$ Dans ce cas je parie que $C=b$ et je garde la premiere enveloppe tiree.
Bah, c'est une procedure comme une autre, mais son succes n'est pas garanti. Certes, certes. Mais voulez vous savoir quelles sont mes chances de partir avec la grosse somme $b? $ Reponse bien au dessus de 50\% puisque c'est:
$$\frac{1}{2}+\frac{1}{2}\Pr(a<X\leq b)=\frac{1}{2}+\frac{1}{2}(e^{-a}-e^{-b}).$$
Le demontrer exige de comprendre ce qu'est l'independance et la disjonction d'evenements. La quantite d'argent $C$ dans l'enveloppe que j'ai tiree est une variable aleatoire dont voici la loi:
$$\Pr(C=a)=\frac{1}{2},\ \ \Pr(C=b)=\frac{1}{2}.$$ Comme je ne connais pas $a$ et $b$ je ne connais pas tres bien $C$ non plus, tant pis. Enfin j'introduis une troisieme variable aleatoire $V$ qui depend entierement de $X$ et de $C$ et definie ainsi
$$V=C \ \mathrm{si}\ X\leq C,\ V=a+b-C\ \mathrm{si}\ X>C.$$
D'apres la procedure decrite ci dessus, $V$ est bien la quantite d'argent que j'emporterai chez moi.
Oui, il y a parfois de mauvaises pratiques, mais c’est plus en bio, médecine, socio, psycho.
D’après ce que j’ai vu, les problèmes en général viennent de:
1) une totale absence du « sens » statistique. Un peu comme en physique trouver que le rayon de la terre est de 345 km.
2) méconnaissances des hypothèses du modèle et du fait que si elles ne sont pas vérifiées, alors il y a un souci.
3) ne connait pas les spécificités des logiciels. En sklearn (python) on aura toujours les résultats pour la régression linéaire, même si la matrice n’est pas inversible.
ils ne voient pas de malades ces gars là,
Leur métier de base c'est l'analyse des chiffres.
Donc si fautes en maths, euh c'est génant, non?
C'est bien ce que je demandais aux mathématiciens,
dans cette histoire de covid19 il ya beaucoup de manipulations de chiffres,
et c'est bien vous qui pouvez éclairer la population si les manipulations sont douteuses, suspectes, incompréhensibles etc...
Non?