Benford en pratique

Georges Abitbol
Modifié (February 2023) dans Statistiques
Bonjour,
je voudrais des pistes pour appliquer la loi de Benford à des données réelles (pour "décider" de si certaines données sont "normales" ou "anormales"). Je suis au courant qu'épistémologiquement, c'est une position un peu difficile à tenir, mais disons que je n'agis pas tout à fait sous ma propre volonté.
J'ai lu ici et ici qu'il ne faut pas appliquer la loi du $\chi^2$, et que le test de la distance euclidienne normalisée entre les vecteurs des fréquences et le vecteur des probabilités est meilleur. Sur les données que j'ai, il n'y en a qu'une petite minorité qui passe le test statistique "si $distance \leq 1.330$, conclure que ça suit la loi de Benford, et conclure que non sinon" ($1.330$ étant choisi pour que si les données suivent vraiment la loi de Benford, le test échoue avec probabilité inférieure à $0,05$).
Ensuite, je me suis demandé s'il était possible d'avoir une sorte de paradoxe de Benford-Simpson : est-ce que si un jeu de données $X$ passe le test, et un jeu de données $Y$ passe le test aussi, est-ce que le jeu de données concaténé $X \frown Y$ passe le test aussi ? Après une petite expérimentation, pour la loi de Benford sur le premier chiffre de l'écriture de décimale, pour des $X$ et $Y$ tirés justement selon la loi de Benford, indépendants, de longueur $100$, en répétant l'expérience $1000$ fois, j'obtiens une vingtaine de "paradoxes" (i.e. $X$ et $Y$ passent le test, tandis que $X\frown Y$ ne le passe pas). On pouvait aussi donner l'exemple trivial $X = [1,1]$ et $Y = [1,1]$. Dans ce cas, le score de $X$ (et de $Y$) vaut environ $1,061$ tandis que celui de $[1,1,1,1]$ vaut environ $1,501$.
Bref... Quand tout le monde crie que la loi de Benford est appliquée à la détection de fraudes, qu'est-ce que les gens font réellement ?

Réponses

  • gerard0
    Modifié (February 2023)
    Heu ... 20 cas sur 1000, pour un test au risque 5%, c'est plutôt faible, on s'attend en moyenne à 50.
    Cordialement.
  • Georges Abitbol
    Modifié (February 2023)
    Je me suis peut-être mal exprimé ! Je choisis $X_1,\,X_{100}$, $Y_1,\dots,Y_{100}$ indépendants identiquement distribués de loi de Benford. Je calcule $score(X)$, $score(Y)$ et $score(Z)$ par la formule $\sqrt{100\times \sum^9_{i=1} \left(\frac{\vert \{k \ \vert \ X_k = i \}\vert}{100} - Ben(i)\right)^2}$ (pour $X$, pareil pour $Y$, et pour $score(Z)$ c'est $\sqrt{200\times \sum^9_{i=1} \left(\frac{\vert \{k \ \vert \ X_k = i \}\vert + \vert \{k \ \vert \ Y_k = i \}\vert}{200} - Ben(i)\right)^2}$.
    J'ai compté le nombre de fois, sur $1000$ essais, où on avait $score(X),score(Y) \leq 1,330$ MAIS $score(Z) > 1,330$.
    Donc c'est normal qu'il y en ait un peu moins !
Connectez-vous ou Inscrivez-vous pour répondre.