Paradoxe des anniversaires : cas non uniforme

Bonsoir à tous,

Vous connaissez sûrement le "paradoxe" des anniversaires, qui raconte que si on prend un groupe de 23 personnes ou plus, il y a plus d'une chance sur deux pour que deux personnes aient la même date d'anniversaire. Cela se base sur deux hypothèses d'importance différente : d'abord, on néglige les 29 février (je ne trouve pas ça très grave) ; ensuite, on suppose que la distribution des jours de naissance est uniforme. Cette dernière hypothèse est fausse bien que la distribution d'une société moderne en soit plus proche qu'il y a 100 ans, sûrement (mais historiquement, on constate des pics de natalité notamment en septembre, il me semble).

Je pense que la distribution équiprobable minimise la probabilité que deux personnes aient le même anniversaire (j'avoue honteusement n'avoir fait aucun test numérique, mais ça me semblerait "normal"). Est-ce que c'est évident ? Est-ce que c'est facile ?

Merci de vos lumières !

Réponses

  • Notons $(p_1,\dots,p_n)$ le vecteur des probabilités (avec $n=366$).
    Si on prend $U_1,\dots,U_N$ (avec $N=23$) des variables aléatoires indépendantes suivant la loi uniforme sur $[0,1]$,
    on peut noter $E_k$ l'entier $k$ tel que $s_{k-1}<E_k\le s_k$, avec $s_0=0$, $s_k=p_1+\dots+p_k$.
    De la sorte, il est assez facile de voir que la probabilité que les $E_k$ soient tous distincts est un polynôme en les $p_k$. En particulier c'est une fonction continue; notons la $f$.
    On peut ainsi faire vivre un couplage et montrer que $f((p_1+p_2)/2,(p_1+p_2)/2,p_3,\dots,p_n)\ge f(p_1,p_2,\dots,p_n)$.
    Je te laisse finir la preuve.
  • Au cas où le mot couplage intimide tenuki, on peut aussi voir qu'il s'agit de déterminer la distribution $\mu$ qui maximise
    $$
    p(\mu) = \sum_{(i_1, \dots, i_N) \in S_N} \mu(i_1)\dots\mu(i_N)
    $$
    où $S_N$ est l'ensemble des $N$-uplets de $\{1,\dots,n\}$ d'éléments deux à deux distincts. En isolant la contribution de deux jours $x$ et $y$ distincts, cette somme prend la forme
    $$
    p(\mu) = a\,( \mu(x) + \mu(y)) + b \,\mu(x)\mu(y) + c
    $$
    où les sommes $a,b,c$ ne font pas intervenir $\mu(x)$ et $\mu(y)$.
    S'il existe $\delta > 0$ tel que $\mu(x) \leq \frac 1 n - \delta$ et $\mu(y) \geq \frac 1 n + \delta$, alors en posant $\tilde\mu(x) = \mu(x) + \delta$, $\tilde\mu(y) = \mu(y) - \delta$ et $\tilde\mu(z) = \mu(z)$ pour $z \notin \{x,y\}$, on obtient une distribution $\tilde\mu$ qui vérifie
    $$
    p(\tilde\mu) - p(\mu) = b\delta(\mu(y)-\mu(x) - \delta) \geq b \delta^2 > 0.
    $$
    On en déduit que $p(\mu)$ est maximisé par la distribution uniforme.

    P.S. Pour un groupe de $N = 2$ personnes, la formule de König
    $$\sum_{i=1}^n \mu(i)^2 - \frac 1 n = \sum_{i=1}^n (\mu(i) - \frac 1 n)^2$$
    donne une preuve plus élégante. Se généralise-t-elle ?
  • Merci à vous deux pour vos lumières ! Ce n'est donc pas très difficile, mais pas totalement évident non plus. J'ai trouvé une autre preuve qui utilise l'inégalité de Jensen.
Connectez-vous ou Inscrivez-vous pour répondre.