image
Théorème des grandes déviations

Appendice 1: Grandes déviations

Le théorème des grandes déviations

Si \(X_1,\ldots,X_n\) sont des variables aléatoires indépendantes et de même loi, de moyenne \(m\) et telles qu’il existe \(\alpha>0\) avec \(\mathbb E(e^{\alpha|X_n|})<\infty,\) et si on note \(S_n=X_1+\cdots+X_n,\) le théorême suivant calcule pour \(a>m\) le nombre \(\lim_{n\rightarrow \infty}(\Pr(S_n\geq na))^{1/n}.\)
(Inégalité des grandes déviations).
Soit \(\mu\) une mesure positive sur \(\mathbb R\) non concentrée en un point et telle que l’intervalle des \(\theta\) réels satisfaisant \(L(\theta)=\int_{-\infty}^{\infty}e^{\theta x}\mu(dx)<\infty\) ait un intérieur \(\Theta\) non vide. On considère la fonction strictement convexe sur \(\Theta\) égale à \(k=\log L\) et l’intervalle ouvert \(M=k'(\Theta),\) et on note par \(\psi:M\rightarrow \Theta\) la fonction réciproque de \(k'.\)

Soit \(m=k'(\theta)\) fixé dans \(M\). Soient \(X_1,\ldots,X_n\) des variables aléatoires indépendantes et de même loi \(e^{\theta x-k(\theta)}\mu(dx).\) Soit enfin \(a\in M\) avec \(m<a\) et les nombres \[\begin{aligned} u_n&=&\Pr(\frac{1}{n}(X_1+\cdots+X_n)\geq a)\newline h(m,a)&=&-\int_m^a(a-x)\psi'(x)dx=a(\psi(m)-\psi(a))+k(\psi(a))-k(\psi(m)). \end{aligned}\] Dans ces conditions on a

  1. (Inégalité des grandes déviations) \(u_n^{1/n}\leq e^{h(m,a)}.\)

  2. (Théorème des grandes déviations) \(\lim_{n\infty}u_n^{1/n}= e^{h(m,a)}.\)

1) Une insupportable confusion règne dans la littérature d’enseignement concernant ce résultat, dû à Cramer (1938), principalement à cause de ses généralisations à des hypothèses plus faibles (et peu intéressantes) dans \(\mathbb R\) ainsi qu’à \(\mathbb R^d,\) où les résultats n’ont pas l’harmonie du résultat ci dessus.

2) Dans sa présentation, le théorème fait jouer un rôle symétrique à toute la famille de lois de probabilités \(e^{\theta x-k(\theta)}\mu(dx)\) quand \(\theta\) varie dans \(\Theta.\) Cette famille est appelée une famille exponentielle naturelle engendrée par \(\mu.\) Attention, \(\mu\) n’est pas unique: \(\mu'\) engendre la même famille exponentielle, c’est à dire le même ensemble de probabilités, indépendamment du paramétrage, si et seulement si il existe \(a\) et \(b\) réels tels que \(\mu'(dx)=e^{ax+b}\mu(dx)\). Il est clair que la loi d’une variable aléatoire réelle \(X\) telle qu’il existe \(\alpha>0\) avec \(\mathbb E(e^{\alpha|X|})<\infty\) appartient à une famille exponentielle naturelle: il suffit de prendre pour \(\mu\) la loi de \(X.\) Toutefois, pour la loi de \(X\) donnée, souvent avec un paramètre, il n’est pas toujours apparent de relier cette loi avec la famille exponentielle à laquelle elle appartient. Par exemple la loi de Bernoulli \((1-p)\delta_0+p\delta_1\) appartient à la famille exponentielle engendrée par \(\mu=\delta_0+\delta_1:\) prendre \(p=\frac{e^{\theta}}{1+e^{\theta}}.\)

3) Implicitement, l’énoncé utilise des résultats simples comme le fait que \(\Theta\) soit un intervalle et comme la convexité de \(k\), qui se démontrent comme le 1) et le 6) du théorème du cours de Deug. De plus, il est facile de voir que avec les notations du théorème, l’espérance des \(X_i\) est \(m=k'(\theta)\) et leur variance est \(k''(\theta)=1/\psi'(m).\)

4) La partie 2) du théorème est plus difficile. La partie 1) est comme on va le voir amusante et élémentaire. Elle fournit une démonstration de poche de la loi forte des grands nombres qui affirme que si \(X_1,\ldots,X_n,\ldots\) sont des variables aléatoires indépendantes et de même loi de moyenne \(m\), alors \(\Pr(\lim_{n\infty}S_n/n=m)=1.\) Si on fait l’hypothèse suplémentaire de l’existence de moments exponentiels, c’est à dire qu’il existe \(\alpha>0\) avec \(\mathbb E(e^{\alpha|X_n|})<\infty,\) alors l’inégalité des grandes déviations et le critère de Cauchy, du fait que \(h(m,a)<0\), entraine que la série \(\sum u_n\) converge, et on procède alors comme au Théorème du cours pour conclure avec le lemme de Borel.

5) Travaux pratiques: Voici quelques mesures \(\mu\) classiques, et les lois et les fonctions \(h(m,a)\) qui vont avec. \(\mu=\delta_0+\delta_1,\) \(L(\theta)=1+e^{\theta},\) \(\Theta=\mathbb R,\) \(k(\theta)=\log(1+e^{\theta}),\) \(k'(\theta)=\frac{e^{\theta}}{1+e^{\theta}},\) \(M=]0,1[,\) \(\psi(m)=\log\frac{m}{1-m},\) \(k(\psi(m))= -\log(1-m)\) et \[h(m,a)=a\log\frac{a}{m}+(1-a)\log\frac{1-a}{1-m}.\]

\(\mu=\sum_{n=0}^{\infty}\frac{1}{n!}\delta_n,\) \(L(\theta)=\exp e^{\theta},\) \(\Theta=\mathbb R,\) \(k(\theta)=e^{\theta},\) \(k'(\theta)=e^{\theta},\) \(M=]0,\infty[,\) \(\psi(m)=\log m,\) \(k(\psi(m))= m\) et \[h(m,a)=a\log\frac{m}{a}+a-m.\]

Soit \(\alpha>0\) fixé. \(\mu=\frac{1}{\Gamma(\alpha)}x^{\alpha-1}{\bf 1}_{]0,\infty[}(x)dx,\) \(L(\theta)=\frac{1}{(-\theta)^{\alpha}}\) si \(\theta\in\Theta=]-\infty ,0[,\) \(k(\theta)=\alpha\log(-\theta),\) \(k'(\theta)=\frac{\alpha}{-\theta},\) \(M=]0,\infty[,\) \(\psi(m)=\frac{\alpha}{-m},\) \(k(\psi(m))= \alpha\log\frac{m}{\alpha}\) et \[h(m,a)=\alpha-\alpha\frac{a}{m}+\alpha\log\frac{a}{m}.\]

Soit \(\sigma>0\) fixé. \(\mu=\frac{1}{\sigma\sqrt{2\pi}}\exp(-\frac{x^2}{2\sigma^2})dx,\) \(L(\theta)=\exp(\frac{\sigma^2\theta^2}{2}),\) \(\Theta=\mathbb R,\) \(k(\theta)=\frac{\sigma^2\theta^2}{2},\) \(k'(\theta)=\sigma^2\theta,\) \(M=\mathbb R,\) \(\psi(m)=\frac{m}{\sigma^2},\) \(k(\psi(m))= \frac{m^2}{2\sigma^2}\) et \[h(m,a)=-\frac{(a-m)^2}{2\sigma^2}.\]
de l’inégalité des grandes déviations : Notons \(S_n=X_1+\cdots+X_n.\) Pour tout \(t>0\) tel que \(\theta+t\in \Theta\) l’astuce est d’observer que les deux évènements \(\{S_n/n\geq a\}\) et \(\{e^{tS_n}\geq e^{nta}\}\) sont les mêmes (comme à la Prop. ). On écrit, à l’aide de l’inégalité de Markov (voir cours de Deug, Prop. ) appliquée à \(Y=e^{tS_n}\) et à \(y=e^{nta}\): \[u_n=\Pr(e^{tS_n}\geq e^{nta}) \leq e^{-nta}\mathbb E(e^{tS_n})=[e^{-ta}\mathbb E(e^{tX_1})]^n =[e^{-ta}\frac{L(\theta+t)}{L(\theta)}]^n.\] Donc \(u_n^{1/n}\leq e^{-ta+k(\theta+t)-k(\theta)}.\) Observons ensuite que \(t\mapsto -ta+k(\theta+t)-k(\theta)\) est convexe sur l’intervalle ouvert \((-\theta+\Theta)\cap]0,\infty[\) et que sa dérivée s’y annule au point \(t=\psi(a)-\psi(m),\) c’est à dire tel que \(k'(\theta+t)=a.\) La valeur de \(-ta+k(\theta+t)-k(\theta)\) en ce point est exactement \(h(m,a)\) et le résultat est montré.
du théorème des grandes déviations : On pose désormais \(\tau=\psi (a)> \theta.\) Avec cette notation, on remarque que \[h(m,a)=-a(\tau-\theta)+k(\tau)-k(\theta).\] L’astuce de Harald Cramer ici est d’introduire les variables aléatoires \(Y_1,\ldots,Y_n\) indépendantes et de même loi \(e^{\tau x-k(\tau)}\mu(dx)\) Si on a lu le commentaire 2, on remarque que cette loi appartient à la même famille exponentielle naturelle que la loi des \(X_i.\) L’espérance de \(Y_i\) est \(a=k'(\tau).\) On pose ensuite \(U_n=Y_1+\cdots+Y_n,\) \(V_n=U_n-na\) et \(v_n=\mathbb E[e^{-(\tau-\theta)V_n}{\bf 1}_{V_n\geq 0}].\) L’espérance de \(V_n\) est zéro. On montre alors l’identité remarquable \[u_n=e^{nh(m,a)}v_n.\] Pour le voir, on introduit la mesure positive \(\mu_n\) sur \(\mathbb R\) égale à la \(n\) ième puissance de convolution \(\mu^{*n},\) c’est à dire de transformée de Laplace \(L(\theta)^n.\) La loi de \(S_n\) est donc \(e^{\theta s-nk(\theta)}\mu_n(ds),\) comme on le vérifie en calculant la transformée de Laplace de cette loi et en voyant qu’elle est égale à celle de \(S_n,\) soit \[\mathbb E(e^{tS_n})=\left(\frac{L(\theta+t)}{L(\theta)}\right)^n= e^{nk(\theta+t)-nk(\theta)}\] pour tout \(t\in -\theta+\Theta.\) De même, la loi de \(U_n\) est \(e^{\tau u-nk(\tau)}\mu_n(du).\) Par conséquent \[\begin{aligned} {e^{nh(m,a)}\mathbb E[e^{-(\tau-\theta)V_n}{\bf 1}_{V_n\geq 0}]}\\ &=& e^{n[h(m,a)+(\tau-\theta)a]}\mathbb E[e^{-(\tau-\theta)U_n}{\bf 1}_{U_n\geq na}]\\ &=&e^{n[k(\tau)-k(\theta)]}\int_{na}^{\infty} e^{-(\tau-\theta)u}e^{\tau u-nk(\tau)}\mu_n(du)\newline &=&\int_{na}^{\infty}e^{\theta u-nk(\theta)}\mu_n(du)=\Pr(S_n\geq na)=u_n, \end{aligned}\]et l’identité annoncée \(u_n=e^{nh(m,a)}v_n\) est montrée. On peut remarquer qu’elle nous donne au passage une seconde démonstration, moins élémentaire, de la partie 1, puisque trivialement \(v_n<1.\) Cette partie algébrique étant faite, pour voir que la limite de \(u_n^{1/n}\) est \(e^{h(m,a)},\) il suffit de montrer que \(\lim_{n\rightarrow \infty} v_n^{1/n}=1.\) C’est la partie plus difficile. Commencons par un lemme classique:
Si \(f\) est une variable aléatoire positive alors l’ensemble des \(s\in \mathbb R\) tels que \(\mathbb E(f^s)<\infty\) est un intervalle \(I\) et \(s\mapsto [\mathbb E(f^s)]^{1/s}\) est croissante sur \(]0,\infty[\cap I.\)
du lemme: On pourrait utiliser une inégalité classique de Hölder. Utilisons plutôt ici l’outil familier de la convexité du logarithme de la transformée de Laplace. Soit \((1-p)\delta_0+p\nu(df)\) la loi de \(f\) avec \(\nu(df)\) probabilité sur \(]0,\infty[\) et \(0< p\leq 1\) (tout est trivial si \(p=0).\) Soit \(\mu(dx)\) l’image de \(\nu(df)\) par \(f\mapsto x=\log f.\) Soit \(T\) la transformée de Laplace de \(\mu\), soit \(I\) son domaine de finitude et soit \(t(s)=\log T(s).\) Sur \(I\) on a \(\mathbb E(f^s)=pe^{t(s)}.\) Enfin si \(0<s<s_1\) sont dans \(I,\) comme \(t\) est convexe on a \[t(s)=t(\frac{s}{s_1}s_1+(1-\frac{s}{s_1})0) \leq \frac{s}{s_1}t(s_1)+(1-\frac{s}{s_1})t(0).\] Comme \(t(0)=0\) (car \(\mu\) est une probabilité) on obtient que \(\frac{1}{s}t(s)\leq \frac{1}{s_1}t(s_1).\) Comme \[p^{\frac{1}{s}}= \exp (\frac{1}{s}\log p)\leq \exp (\frac{1}{s_1}\log p)=p^{\frac{1}{s_1}},\] le lemme est montré.
Achevons alors la démonstration du théorème. On pose

\[A_n=\{V_n\geq 0\},\ \ \ B_n=\{e^{-(\tau-\theta)V_n/n^{3/4}}\geq \frac{1}{2}\}.\] On a alors \[v_n^{n^{-3/4}}\ \stackrel{(1)}{\geq}\ \mathbb E[e^{-(\tau-\theta)V_n/n^{3/4}}{\bf 1}_{V_n\geq 0}] \ \stackrel{(2)}{\geq}\ \frac{1}{2}\Pr(A_n\cap B_n)\ \stackrel{(3)}{\geq}\ \frac{1}{2}(\Pr(A_n)-\Pr(B_n)).\] Dans cette chaîne d’inégalités, (1) vient du lemme appliqué à \(f=e^{-(\tau-\theta)V_n}{\bf 1}_{V_n\geq 0}\) et au couple \(s_1=1\) et \(s=1/n^{3/4}\), (2) est l’inégalité de Markov appliquée à \(Y=f^{n^{-3/4}}\) et \(y=1/2,\) et (3) vient du fait que si \(A\) et \(B\) sont deux évènements alors \(A\subset (A\cap B)\cup B\) et donc \(\Pr(A\cap B)\geq \Pr(A)-\Pr(B).\) Faisons alors tendre \(n\) vers l’infini. D’après le théorème central limite, la loi de \(V_n/\sqrt{n}\) tend vers une loi normale centrée. On en déduit que \(\Pr(A_n)\) tend vers \(1/2\) et, puisque \(B_n\) est aussi \(B_n=\{\frac{V_n}{\sqrt{n}}\geq \frac{\log 2}{(\tau-\theta)}n^{1/4}\},\) on en déduit que \(\Pr(B_n)\) tend vers \(0.\) Par conséquent, la limite inférieure de \(v_n^{n^{-3/4}}\) est \(\geq 1/4.\) Mais \(\liminf \frac{1}{n^{3/4}}\log v_n\geq -\log 4\) entraine naturellement que \(\liminf \frac{1}{n}\log v_n\geq 0.\) Comme \(\log v_n\leq 0\) la limite de \(\frac{1}{n}\log v_n\) est bien 0 et le théorème des grandes déviations est démontré.

Bibliographie


    Barre utilisateur

    [ID: 97] [Date de publication: 15 février 2022 21:57] [Catégorie(s): Le cours de probabilités ] [ Nombre commentaires: 0] [nombre d'éditeurs: 1 ] [Editeur(s): Emmanuel Vieillard-Baron ] [nombre d'auteurs: 1 ] [Auteur(s): Gérard Letac ]




    Commentaires sur le cours

    Documents à télécharger

    Appendice 1: Grandes déviations
    Télécharger Télécharger avec les commentaires

    L'article complet