Loi de Benford.

Bonjour à tous, je viens de découvrir l'existence de la loi de Benford et les bras m'en tombent! Et surtout je vois qu'il en existe des démonstrations... Etant allergique aux probabilités (heureusement pour moi j'ai passé mon Bac à une époque où il y avait beaucoup de géométrie et pas de probas...), je suis incapable de suivre ces démos, mais surtout je n'arrive pas à comprendre qu'il puisse en exister une: par exemple je relève des prix dans un supermarché et je remarque que ces prix commencent majoritairement par un et deux...Comment est-ce possible sans faire appel à des démonstrations probabilistes compliquées?
Merci pour vos commentaires bienveillants.
Jean-Louis.

Réponses

  • Soit $K$ le quotient du groupe $(\R_+^*,\times )$ par le sous groupe $\{10^n \mid n \in \Z\}$. Le groupe compact $(K,\times)$ est "l'ensemble des nombre réels positifs écrits sans virgule" en quelque sorte.
    Soit $ x \mapsto \overline x$ l'application quotient.
    Soit $x\in \R_+^*$ et $i \in \{1,...,n\}$; si $A$ est une partie de $K^n$ on pose $\tau_n(i,x,A):= \{(t_1,...,t_{i-1},xt_i,t_{i+1},...,t_n) \mid (t_1,...,t_n) \in A\}$ (translaté par rapport à la $i$-ième coordonnée).

    Alors il existe une unique mesure de probabilité $P_n$ sur la tribu borélienne de $K^n$ telle que pour tout $x\in \R_+^*$, tout $k \in \{1,...,n\}$ et toute partie mesurable $A$ de $K^n$, $P_n(A) = P\left ( \tau_n(i,x,A) \right )$ (hypothèse d'invariance par "changement d'unité").

    Cette mesure vérifie pour tout $B\subseteq [1,10[^n$ mesurable, l'égalité $$P_n(\overline B) = \int_{y \in [0,1[^n } \mathbf 1_A(10^{y_1},10^{y_2}, ...,10^{y_n})dy_1 dy_2 ...dy_n = \frac{1}{\log(10)^n} \int_{x\in [1,10[^n} \frac{\mathbf 1_A (x_1,...,x_n)}{x_1x_2...x_n} dx_1dx_2 ... dx_n$$.

    (En fait $t\mapsto 10^t$ est un isomorphisme de groupes topologiques entre $(\R,+)$ et $(\R_+^*,\times )$ qui envoie $\Z$ sur $\{10^n \mid n \in \Z\}$ et donc induit un isomorphisme entre $\R/\Z$ et $K$, par suite la mesure de Lebesgue s'envoie sur l'unique mesure de $K$ invariante par multiplication et c'est ce qu'on exploite ici.)
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • sans faire appel à des démonstrations probabilistes compliquées

    J'essaie de répondre à ça.

    L'idée de la loi de Benford, c'est simplement de penser que les prix dans ton supermarché peuvent être modélisés par une variable aléatoire $X > 0$.

    Le premier chiffre du prix ne dépend que du logarithme $\log(X)$ en base $10$ de $X$, et même de la partie fractionnaire $Y = \{\log(X)\}$.

    En effet, pour $X\in[1;2[$, le premier chiffre est $1$, le $\log(X)\in [0;\log(2)[$ et $Y\in [0;\log(2)[$, toujours en base 10.

    De même, pour $X\in[10;20[$, le premier chiffre est encore $1$, le $\log(X)\in [1;1+\log(2)[$ donc encore $Y\in [0;\log(2)[$.

    L'idée de la loi de Benford, c'est que cette variable $Y$ doit être uniforme entre $[0;1[$, parce que sa loi devrait être invariante par translation modulo 1.

    En effet, pensons au passage du Franc à l'Euro.
    Les prix ont tous été divisés par $6,55957$, donc le $\log(X)$ a baissé de de $\log(6,55957)$, mais il n'y a pas lieu de penser que (par exemple) il y ait eu sensiblement plus ou moins de prix qui commencent par 1 avant qu'après le passage à l'euro.

    C'est cette propriété d'invariance qui nous dit que $Y$ devrait être uniforme, et qu'en particulier,
    la proportion de 1 en première position devrait être $\log(2)$ (log en base 10),
    la proportion de 2 en première position devrait être $\log(3)-\log(2)$, etc.
  • Merci à tous deux. Je vais méditer celà...
    Jean-Louis.
  • Bonjour,

    On peut aussi considérer que cette invariance s'applique à toute équivalence monétaire entre devises. Et que la loi de Benford s'applique à des grandeurs physiques telles que superficie des pays, longueurs des fleuves, etc, et ce aussi bien en unités SI (le mètre) qu'en unités anglo-saxonnes.

    Bonne journée.
  • Et évidemment, la loi de Benford est un résultat asymptotique : une approximation qui marche bien pour les variables aléatoires qui ont une grande étendue.

    Par exemple, ça ne doit pas du tout s'appliquer à la taille en centimètre, ou au poids en kg de la population.

    Pour que ça commence à marcher, il faut faire le tour de quelques puissances de 10. (des prix $\le 1$ euro, des prix entre 1 et 10 euros, des prix $\ge 10$ euros, voire $\ge 100$...)
  • Oui. Ainsi taille ou poids des espèces animales fonctionnent bien mieux. De la puce à la baleine, le champ des ordres de grandeur est généreux.
  • Si on prend la suite 1 2 4 8 16 32 ... , et qu'on regarde les 1000 premiers nombres par exemple, on constate que les nombres qui commencent par 1 sont les plus nombreux, puis on a les nombres qui commencent par 2 etc etc.
    Et on aurait le même résultat avec toutes les suites $a^k$

    En particulier, dans la suite $2^k$ , on est certain qu'entre $10^i$ et $10^{i+1}$, on aura exactement 1 élément qui commence par le chiffre 1, alors qu'on n'a aucune certitude d'avoir un élément commençant par 2 ni par 3 ...
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • @lourrran: ça, c'est parce que la suite $k \in \N \mapsto k\frac{\log(2)}{\log (10)}$ est équirépartie modulo 1 $(\frac{\log(2)}{\log (10)}$ étant irrationnel).
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • lourrran écrivait:
    > Et on aurait le même résultat avec toutes les suites $a^k$

    Attention à $a=10^b$
  • @Foys : quelque soit la cause, c'est une autre illustration du phénomène : dans une série de nombres, on a majoritairement des nombres qui commencent par 1, puis par 2 ...
    Si cette suite est trop particulière, prenons la suite définie par $U_0=1$ et $U_{n+1}=2*U_n+1$ , ou plus généralement $U_{n+1}=a*U_n+b$, ou même la suite de Fibonacci.
    Toutes ces suites vérifient la loi de Benford
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Attention,

    la suite $u_n = 10^n-1$ comporte des nombres qui ne commencent jamais pas 1, et 100% des chiffres sont des 9.

    Cordialement.
  • @lourrran: les suites $x$ telles que $x_n \sim a^n$ quand $n\to +\infty$ avec $\frac{\log (a)}{\log (10)}$ irrationnel, sont toutes telles que $n \mapsto \frac{\log (x_n)}{\log (10)}$ est équirépartie modulo $1$ ce qui inclut tes suites récurrentes.
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • Désolé de mon aspect "terre à terre", mais j'avoue que j'ai beaucoup de mal avec l'acceptation de cette loi... Si je prends une liste d'articles dans un magasin, je comprends que le un et le deux en début des prix en euros seront majoritaires. Mais si maintenant j'exprime ces prix dans une devise dont la valeur est "un demi euro". Est-il possible que les un et deux soient encore majoritaires???Ca m'interpelle...
    J'ai l'impression de patauger dans la choucroute.
    Désolé pour le bas niveau du post.
    Cordialement.
    Jean-Louis.
  • Il y a plus de nombres qui commencent par 1 que de nombres qui commences par 4, 5 ou 6 ou 7 par exemple.
    Si on multiplie tous les nombres par 2 (parce que la nouvelle monnaie, c'est le demi-Euro), alors tous les prix qui commençaient par 5 6 7 8 ou 9 vont maintenant commencer par 1. On va regrouper les 5 groupes les plus petits, et ça va former le goupe n°1.

    Certes, c'étaient les plus petits groupes. Mais la réunion de ces 5 petits groupes, ça paraît normal que ça donne le groupe le plus gros.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • C'est surréaliste ce truc!!!
    Merci Lourran.
    Bonne journée.
    Jean-Louis.
  • C'est complètement lié aux logarithmes. Sur une échelle logarithmique, il y a autant d'espace entre 1.00 et 1.99999 qu'entre 2 et 3.99999 ou entre 4 et 7.99999.
    Et s'il y a autant d'espace entre ces différentes bornes, c'est normal qu'il y ait autant de données entre 1 et 1.99999 qu'entre 2 et 3.99999 ou entre 4 et 7.99999

    Les messages un peu 'scientifiques' qui ont répondu à ta question parlaient tous de logarithmes.

    Dans énormément de phénomènes, les échelles logarithmiques sont plus adaptées que les échelles classiques.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Une chose me semble certaine : cette loi n'a pas la notoriété qu'elle mérite !
  • Bonjour Jean-Louis.

    Lorsque le forum m'a fait découvrir l'existence de cette loi, il y a presque une quinzaine d'années, j'ai été extrêmement surpris. Mais après un temps de maturation, on la trouve parfaitement naturelle et on en vient presque à se dire qu'on aurait pu y penser soi-même. Pour ma part, et bien que ce ne soit pas une démonstration mathématique, je la relie à une idée de croissance, de progression géométrique. Les prix résultent de l'inflation. Longueur des fleuves, superficie des pays, d'un processus d'agglutination des ruisseaux et rivières, d'annexions au cours du temps. Benford, autant que je me souvienne, citait également la progression de la masse atomique des éléments chimiques. Ne couvrant guère que deux ordres de grandeur, le respect de la loi est assez approximatif, toutefois impressionnant. Tout cela ressort donc à cette idée de croissance. Rien d'étonnant à ce que les puissances de 2 la vérifient. Je me souviens avoir demandé à l'époque à mon patron ses documents financiers de l'exercice. Avec plusieurs centaines de données, je trouvais (Excel obtenait) un coefficient de corrélation entre répartitions empirique et théorique, si j'ai bonne mémoire, supérieur à 0,999 (en tout cas plus de 0,995).

    Amicalement.
  • @brian. Oui. Il s'est dit cependant qu'elle est appliquée dans l'informatique pour prévoir l'espace à réserver à la répartition des données numériques sur les disques durs. Et que les administrations fiscales américaine et européennes l'utilisent pour présélectionner les dossiers qui méritent approfondissement. [ajout : sur plusieurs centaines de milliers, ou millions, de dossiers, y compris en testant la répartition des chiffres suivants].
Connectez-vous ou Inscrivez-vous pour répondre.