Loi de Benford.
Bonjour à tous, je viens de découvrir l'existence de la loi de Benford et les bras m'en tombent! Et surtout je vois qu'il en existe des démonstrations... Etant allergique aux probabilités (heureusement pour moi j'ai passé mon Bac à une époque où il y avait beaucoup de géométrie et pas de probas...), je suis incapable de suivre ces démos, mais surtout je n'arrive pas à comprendre qu'il puisse en exister une: par exemple je relève des prix dans un supermarché et je remarque que ces prix commencent majoritairement par un et deux...Comment est-ce possible sans faire appel à des démonstrations probabilistes compliquées?
Merci pour vos commentaires bienveillants.
Jean-Louis.
Merci pour vos commentaires bienveillants.
Jean-Louis.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Soit $ x \mapsto \overline x$ l'application quotient.
Soit $x\in \R_+^*$ et $i \in \{1,...,n\}$; si $A$ est une partie de $K^n$ on pose $\tau_n(i,x,A):= \{(t_1,...,t_{i-1},xt_i,t_{i+1},...,t_n) \mid (t_1,...,t_n) \in A\}$ (translaté par rapport à la $i$-ième coordonnée).
Alors il existe une unique mesure de probabilité $P_n$ sur la tribu borélienne de $K^n$ telle que pour tout $x\in \R_+^*$, tout $k \in \{1,...,n\}$ et toute partie mesurable $A$ de $K^n$, $P_n(A) = P\left ( \tau_n(i,x,A) \right )$ (hypothèse d'invariance par "changement d'unité").
Cette mesure vérifie pour tout $B\subseteq [1,10[^n$ mesurable, l'égalité $$P_n(\overline = \int_{y \in [0,1[^n } \mathbf 1_A(10^{y_1},10^{y_2}, ...,10^{y_n})dy_1 dy_2 ...dy_n = \frac{1}{\log(10)^n} \int_{x\in [1,10[^n} \frac{\mathbf 1_A (x_1,...,x_n)}{x_1x_2...x_n} dx_1dx_2 ... dx_n$$.
(En fait $t\mapsto 10^t$ est un isomorphisme de groupes topologiques entre $(\R,+)$ et $(\R_+^*,\times )$ qui envoie $\Z$ sur $\{10^n \mid n \in \Z\}$ et donc induit un isomorphisme entre $\R/\Z$ et $K$, par suite la mesure de Lebesgue s'envoie sur l'unique mesure de $K$ invariante par multiplication et c'est ce qu'on exploite ici.)
J'essaie de répondre à ça.
L'idée de la loi de Benford, c'est simplement de penser que les prix dans ton supermarché peuvent être modélisés par une variable aléatoire $X > 0$.
Le premier chiffre du prix ne dépend que du logarithme $\log(X)$ en base $10$ de $X$, et même de la partie fractionnaire $Y = \{\log(X)\}$.
En effet, pour $X\in[1;2[$, le premier chiffre est $1$, le $\log(X)\in [0;\log(2)[$ et $Y\in [0;\log(2)[$, toujours en base 10.
De même, pour $X\in[10;20[$, le premier chiffre est encore $1$, le $\log(X)\in [1;1+\log(2)[$ donc encore $Y\in [0;\log(2)[$.
L'idée de la loi de Benford, c'est que cette variable $Y$ doit être uniforme entre $[0;1[$, parce que sa loi devrait être invariante par translation modulo 1.
En effet, pensons au passage du Franc à l'Euro.
Les prix ont tous été divisés par $6,55957$, donc le $\log(X)$ a baissé de de $\log(6,55957)$, mais il n'y a pas lieu de penser que (par exemple) il y ait eu sensiblement plus ou moins de prix qui commencent par 1 avant qu'après le passage à l'euro.
C'est cette propriété d'invariance qui nous dit que $Y$ devrait être uniforme, et qu'en particulier,
la proportion de 1 en première position devrait être $\log(2)$ (log en base 10),
la proportion de 2 en première position devrait être $\log(3)-\log(2)$, etc.
Jean-Louis.
On peut aussi considérer que cette invariance s'applique à toute équivalence monétaire entre devises. Et que la loi de Benford s'applique à des grandeurs physiques telles que superficie des pays, longueurs des fleuves, etc, et ce aussi bien en unités SI (le mètre) qu'en unités anglo-saxonnes.
Bonne journée.
Par exemple, ça ne doit pas du tout s'appliquer à la taille en centimètre, ou au poids en kg de la population.
Pour que ça commence à marcher, il faut faire le tour de quelques puissances de 10. (des prix $\le 1$ euro, des prix entre 1 et 10 euros, des prix $\ge 10$ euros, voire $\ge 100$...)
Et on aurait le même résultat avec toutes les suites $a^k$
En particulier, dans la suite $2^k$ , on est certain qu'entre $10^i$ et $10^{i+1}$, on aura exactement 1 élément qui commence par le chiffre 1, alors qu'on n'a aucune certitude d'avoir un élément commençant par 2 ni par 3 ...
> Et on aurait le même résultat avec toutes les suites $a^k$
Attention à $a=10^b$
Si cette suite est trop particulière, prenons la suite définie par $U_0=1$ et $U_{n+1}=2*U_n+1$ , ou plus généralement $U_{n+1}=a*U_n+b$, ou même la suite de Fibonacci.
Toutes ces suites vérifient la loi de Benford
la suite $u_n = 10^n-1$ comporte des nombres qui ne commencent jamais pas 1, et 100% des chiffres sont des 9.
Cordialement.
J'ai l'impression de patauger dans la choucroute.
Désolé pour le bas niveau du post.
Cordialement.
Jean-Louis.
Si on multiplie tous les nombres par 2 (parce que la nouvelle monnaie, c'est le demi-Euro), alors tous les prix qui commençaient par 5 6 7 8 ou 9 vont maintenant commencer par 1. On va regrouper les 5 groupes les plus petits, et ça va former le goupe n°1.
Certes, c'étaient les plus petits groupes. Mais la réunion de ces 5 petits groupes, ça paraît normal que ça donne le groupe le plus gros.
Merci Lourran.
Bonne journée.
Jean-Louis.
Et s'il y a autant d'espace entre ces différentes bornes, c'est normal qu'il y ait autant de données entre 1 et 1.99999 qu'entre 2 et 3.99999 ou entre 4 et 7.99999
Les messages un peu 'scientifiques' qui ont répondu à ta question parlaient tous de logarithmes.
Dans énormément de phénomènes, les échelles logarithmiques sont plus adaptées que les échelles classiques.
Lorsque le forum m'a fait découvrir l'existence de cette loi, il y a presque une quinzaine d'années, j'ai été extrêmement surpris. Mais après un temps de maturation, on la trouve parfaitement naturelle et on en vient presque à se dire qu'on aurait pu y penser soi-même. Pour ma part, et bien que ce ne soit pas une démonstration mathématique, je la relie à une idée de croissance, de progression géométrique. Les prix résultent de l'inflation. Longueur des fleuves, superficie des pays, d'un processus d'agglutination des ruisseaux et rivières, d'annexions au cours du temps. Benford, autant que je me souvienne, citait également la progression de la masse atomique des éléments chimiques. Ne couvrant guère que deux ordres de grandeur, le respect de la loi est assez approximatif, toutefois impressionnant. Tout cela ressort donc à cette idée de croissance. Rien d'étonnant à ce que les puissances de 2 la vérifient. Je me souviens avoir demandé à l'époque à mon patron ses documents financiers de l'exercice. Avec plusieurs centaines de données, je trouvais (Excel obtenait) un coefficient de corrélation entre répartitions empirique et théorique, si j'ai bonne mémoire, supérieur à 0,999 (en tout cas plus de 0,995).
Amicalement.