Lecture zen
Nous décrivons dans ce chapitre quatre espaces de probabilité importants
Nous décrivons dans ce
chapitre quatre espaces de probabilité importants
Quatre espaces de probabilité importants
L’espace \(\Omega\) est fini ou dénombrable.
Dans ce cas on suppose
habituellement que la tribu des évènements \(\mathcal{A}\) est \(\mathcal{P}(\Omega)\), l’ensemble de toutes
les parties de \(\Omega.\) Par exemple,
si \(\Omega\) est formé de 2 éléments
notés \(a\) et \(b\), alors \(\mathcal{P}(\Omega)\) est constitué des 4
sous ensembles suivants: l’ensemble vide \(\emptyset,\) les deux singletons \(\{a\}\) et \(\{b\}\) et \(\Omega=\{a,b\}\) lui même. Plus
généralement, on a le fait suivant:
Si un ensemble \(\Omega\) a un nombre fini \(N\) d’éléments, alors l’ensemble des
parties de \(\Omega\): \(\mathcal{P}(\Omega)\) a \(2^N\) éléments.
On procède par récurrence sur
\(N\). C’est trivial pour \(N=1\) ou 0. Si c’est vrai pour \(N\), considérons \[\Omega=\{a_1,\ldots,a_N,a_{N+1}\}\ \ \
\mathrm{et}\ \ \
\Omega'=\{a_1,\ldots,a_N\}.\] Les parties de \(\Omega\) se partagent en deux
catégories:
Il est clair que la catégorie 1 est égale à \(\mathcal{P}(\Omega')\) et que la
catégorie 2 est en bijection avec \(\mathcal{P}(\Omega')\), la bijection
étant obtenue en ajoutant \(a_{N+1}\)
aux éléments de \(\mathcal{P}(\Omega').\) Comme d’après
l’hypothèse de récurrence \(\mathcal{P}(\Omega')\) a \(2^N\) éléments, on en conclut que \(\mathcal{P}(\Omega)\) a \(2^N+2^N=2^{N+1}\) éléments, et la
récurrence est étendue.
Catégorie 1: celles qui ne contiennent pas \(a_{N+1}\).
Catégorie 2: celles qui contiennent \(a_{N+1}\).
Si \(\Omega\) est infini dénombrable, alors
\(\mathcal{P}(\Omega)\) est infini non
dénombrable.
La démonstration est analogue à
la démonstration de Cantor. Sans perte de généralité on suppose \(\Omega\) égal à l’ensemble \({\bf N}\) des entiers positifs ou nuls. Si
\(X\subset {\bf N},\) on lui associe la
fonction indicatrice \({\bf 1}_X\)
définie sur \({\bf N}\) et à valeurs
\(0\) ou \(1\) par \({\bf
1}_X(k)=1\) si \(k\in X\) et
\({\bf 1}_X(k)=0\) si \(k\notin X.\) Remarquons aussi
qu’inversement, si une fonction \(f\)
définie sur \({\bf N}\) est à valeurs
\(0\) ou \(1\), alors c’est une indicatrice
d’ensemble, c’est-à-dire qu’il existe \(X\) tel que \(f={\bf 1}_X\): il s’agit de \(X= \{k\in{\bf N};f(k)=1\}.\)
Montrons alors la proposition par l’absurde en supposant que \(\mathcal{P}({\bf N})\) soit dénombrable,
c’est-à-dire qu’il existe une application bijective \(n\mapsto X_n\) de \({\bf N}\) sur \(\mathcal{P}({\bf N}).\) Alors la fonction
\(f\) définie sur \({\bf N}\) et à valeurs \(0\) ou \(1\) par \[f(k)=1-{\bf 1}_{X_k}(k)\] est l’indicateur
de quelque sous ensemble \(X_n\) de
\({\bf N}\) et donc pour tout \(k\) de \({\bf
N}\) on a \[{\bf 1}_{X_n}(k)=1-{\bf
1}_{X_k}(k),\] ce qui est une contradiction si \(k=n.\)
Les probabilités sont alors
décrites par le résultat suivant
Soit \(\Omega\) un ensemble fini ou dénombrable.
Soit \(x\mapsto p_x\) une application
de \(\Omega\) dans les réels \(\geq 0\) telle que \[\sum_{x \in \Omega} p_x=1.\] Pour tout
\(A\subset \Omega\), notons alors \[P(A)=\sum_{x \in A} p_x.\]
Alors \((\Omega,\mathcal{P}(\Omega),P)\) est un
espace de probabilité. Inversement, toute probabilité \(P\) sur \((\Omega,\mathcal{P}(\Omega))\) est du type
précédent, avec \(p_x=P(\{x\}).\)
(
). Remarque Si \(\Omega\) est fini, la proposition est
évidente. Si \(\Omega\) est
dénombrable, les sommes ci dessus quand \(A\) est dénombrable ont la signification
suivante: puisque \(A\) est
dénombrable, on peut numéroter ses éléments, c’est-à-dire qu’il existe
une application bijective \(n\mapsto
x_n\) de \({\bf N}\) sur \(A\). \(P(A)\) est alors défini rigoureusement
comme la somme de la série \(\sum_{n=0}^{\infty}p_{x_n}.\) Toutefois, ce
nombre ne dépend que de \(A\), et non
de la numérotation particulière de \(A\) choisie par \(n\mapsto x_n\), grâce au théorème suivant
sur les séries, que nous admettrons, ainsi que la proposition elle même:
Si la série \(\sum _{n=0}^{\infty}u_n\) est absolument
convergente de somme \(S\), et si \(n\mapsto \sigma(n)\) est une bijection de
\({\bf N}\) sur lui même, alors \(\sum _{n=0}^{\infty}u_{\sigma(n)}\) est
aussi absolument convergente et de somme \(S.\)
Exercices sur
.
Le cas équiprobable.
Considérons le cas particulier
de la Proposition où \(\Omega\) a un
nombre fini \(N=|\Omega|\) d’éléments
et où tous les \(p_x\) sont égaux (et
donc égaux à \(1/N.\)) Dans ce cas, si
\(A\subset \Omega\) on a
Pour exploiter cette égalité, il est nécessaire de posséder quelques
principes généraux de dénombrement d’ensembles et de fonctions contenus
dans les deux prochains théorèmes. Si \(E\) et \(F\) sont des ensembles, on note par \(E\times F\) leur produit cartésien ,
c’est-à-dire l’ensemble des couples \((x,y)\) tels que \(x\in E\) et \(y\in F.\) On note par \(F^E\) l’ensemble des fonctions \(f\) définies sur \(E\) et à valeurs dans \(F.\) Si \(E\) est fini et est de taille \(n=|E|\) et si \(k\) est un entier avec \(0\leq k\leq n\) on note par \(\mathcal{P}_k(E)\) l’ensemble des parties
de \(E\) de taille \(k.\)
\[P(A)\ =\frac{|A|}{|\Omega|}=\ \frac{\mathrm{nombre\ de \ cas\ favorables}}{\mathrm{nombre\ de\ cas\ possibles}}.\]
Si \(k\) est un entier avec \(1\leq k\leq n\) on a \[C^{k-1}_n+C^k_n=C^k_{n+1}.\]
\[C^{k-1}_n+C^k_n=
\frac{n!}{(k-1)!(n-k)!}\left[\frac{1}{n-k+1}+\frac{1}{k}\right]=
\frac{(n+1)!}{k)!(n+1-k)!}=C^k_{n+1}.\]
Pour prouver 2) on observe que
c’est trivial pour \(k=0\), puis on
fixe \(k>0\) et on montre 2) par
récurrence sur \(n.\) C’est trivial
pour \(n=k.\) Supposons enfin 2) vrai
pour \(n\) et supposons que \(E\) ait \(n+1\) éléments, qu’on prend égaux à \(1,2,\ldots,n+1\) sans perte de généralité.
Soit aussi \(E'\) l’ensemble des
\(n\) premiers entiers. On partage
alors les éléments de \(\mathcal{P}_k(E)\) en deux catégories:
La catégorie 1 est égale à \(\mathcal{P}_k(E')\) et a donc \(C^k_n\) éléments par l’hypothèse de
récurrence. La catégorie 2 est en bijection avec \(\mathcal{P}_{k-1}(E')\) ( enlever \(n+1\) à un membre de la catégorie 2 pour
avoir un élément de \(\mathcal{P}_{k-1}(E'))\) et donc par
l’hypothèse de récurrence a \(C^{k-1}_n\) éléments. La formule de Pascal
montre alors que \(\mathcal{P}_k(E)\) a
\(C^k_{n+1}\) éléments et la récurrence
est étendue.
Catégorie 1: ceux qui ne contiennent pas \(n+1.\)
Catégorie 2: ceux qui contiennent \(n+1.\)
Voici un exemple d’application du
théorème précédent.
( Anniversaires.).
Anniversaires. \(n\) personnes sont réunies. Quelle est la
probabilité que au moins deux d’entre elles aient le même
anniversaire?
On formalise le problème en le
simplifiant un peu: on ignore d’abord le problème du 29 février, et on
postule donc que l’espace des observables est \(\Omega=F^E\) où \(E\) est l’ensemble des personnes et où
\(F\) est l’ensemble des \(p=365\) jours de l’année: on observe donc
la fonction \(f\in\Omega\) qui à chaque
personne associe son anniversaire. On postule ensuite qu’on est dans le
cas équiprobable, ce qui n’est qu’une approximation: il y a plus
d’enfants conçus au printemps et en été qu’en novembre sous nos climats.
Finalement, il est plus facile de calculer la probabilité du
complémentaire \(A^c\) de l’évènement
\(A\) "deux personnes au moins ont le
même anniversaire", car c’est la probabilité que la fonction \(f\) soit injective. D’après le théorème 1),
c’est \[P(A^c)=\frac{1}{365^n}365(365-1)\cdots(365-n+1)=
\prod_{k=1}^{n-1}(1-\frac{k}{365})=\exp\sum_{k=1}^{n-1}\log(1-\frac{k}{365}).\]
Si \(n\) n’est pas grand, une
évaluation approximative de cette somme se fait en remplaçant \(\log(1-x)\) par \(-x\) et en utilisant la somme d’une
progression arithmétique étudiée en Terminale \[\sum_{k=1}^{n-1}k=\frac{1}{2}n(n-1)\sim
ný/2,\] qui conduit à l’approximation \(P(A^c)\sim \exp(-ný/730).\) Pour voir par
exemple pour quel \(n\) on a \(P(A^c)\sim 1/2\) on prend \(n\sim \sqrt{730\log 2}\sim 23.\) Pour un
calcul plus sérieux, on peut utiliser l’encadrement pour \(0<x<1:\) \[-x-\frac{xý}{2(1-x)}<\log(1-x)<-x-\frac{xý}{2};\]
La majoration de droite se déduit du développement en série entière,
celle de gauche se montre en étudiant la fonction \(x+\frac{xý}{2(1-x)}+\log(1-x).\) On a aussi
besoin de la somme des premiers carrés: \[\sum_{k=1}^{n-1}k^2=\frac{1}{6}n(2n-1)(n-1)\sim
n^3/3,\] qui s’établit par récurrence. Si \(x\leq (n-1)/365\), alors \(-1/(1-x)\geq-365/(365-n+1).\) D’où
l’encadrement : \[-\frac{n(n-1)}{2}\frac{1}{365}
-\frac{n(n-1)(2n+1)}{6}\frac{1}{2\times
365^2}\frac{365}{365-n+1}<\]\[\log
P(A^c)
<-\frac{n(n-1)}{2}\frac{1}{365}-\frac{n(n-1)(2n+1)}{6}\frac{1}{2\times
365^2}.\]
Le prochain théorème sert en particulier à résoudre le problème plus
difficile du calcul du nombre de fonctions
surjectives.
Par exemple, si \(n=35\) on trouve \(P(A^c)=0,186...\) Si 35 personnes sont réunies, la probabilité que deux d’entre elles au moins aient le même anniversaire est donc \(0,813...\)
(Principe d’inclusion-exclusion)
Soit \(E\) un ensemble fini et soit
\(f\) et \(g\) des fonctions réelles définies sur
\(\mathcal{P}(E)\) satisfaisant pour
tout \(A\subset E:\) \[f(A)=\sum_{B\subset A}g(B).\] Alors pour
tout \(A\subset E:\) \[g(A)=\sum_{B\subset A}(-1)^{|A\setminus
B|}f(B).\]
Si \(C\subset A \subset E\) notons \[F(A,C)=\sum_{C\subset B\subset
A}(-1)^{|A\setminus B|}.\] Si \(|A\setminus C|=n,\) puisque il y a \(C_n^k\) parties de \(A\setminus C\) de taille \(k\) on peut écrire \(F(A,C)=\sum_{k=0}^n(-1)^kC_n^k,\) qui est à
son tour \((1+(-1))^n\) à cause de la
formule du binôme de Pascal \((a+b)^n=\sum_{k=0}^na^{n-k}b^kC_n^k.\) Donc
si \(n>0\), c’est-à-dire si \(C\neq A,\) on a \(F(A,C)=0.\) Si \(n=0,\) c’est-à-dire si \(C=A\) on a \(F(A,C)=1.\) Calculons alors le second
membre de l’égalité à démontrer: \[\sum_{B\subset A}(-1)^{|A\setminus B|}f(B)=
\sum_{B\subset A}(-1)^{|A\setminus B|}\sum_{C\subset B}g(C)=\]
\[\sum_{C\subset B}g(C)\sum_{C\subset
B\subset A}(-1)^{|A\setminus B|}=
\sum_{C\subset B}g(C)F(A,C)=g(A).\] La première égalité exploite
le lien entre \(f\) et \(g,\) la seconde inverse les sommations par
rapport aux indices de sommation \(B\)
et \(C,\) la troisième résulte de la
définition de \(F(A,C),\) la quatrième
du calcul de \(F\) précédent et fournit
le résultat voulu.
Voici deux
applications.
( Nombre de fonctions surjectives.).
Nombre de fonctions surjectives. Si \(|E|=n\geq|F|=p\), quel est le nombre de
fonctions surjectives de \(E\) vers
\(F\)?
Pour répondre on applique le
théorème précédent aux fonctions \(f\)
et \(g\) définies sur \(\mathcal{P}(F)\) ainsi: si \(A\subset F\), \(f(A)=|A|^n\) est le nombre de fonctions de
\(E\) vers \(F\) dont l’image est contenue dans \(A\) (on pourrait donc dire tout aussi bien
les fonctions de \(E\) vers \(A\)); et \(g(A)\) est le nombre de fonctions de \(E\) vers \(F\) dont l’image est exactement égale à
\(A\) (on pourrait dire les fonctions
de \(E\) vers \(A\) qui sont surjectives). On veut donc
calculer \(g(F).\)
Les hypothèses du théorème sont remplies, on a bien en effet \(f(A)=\sum_{B\subset A}g(B).\) Par
conséquent \[g(F)=\sum_{B\subset
F}(-1)^{|F\setminus B|}|B|^n=
\sum_{k=0}^pC^k_p(-1)^{p-k}k^n.\]
( Problème des rencontres.).
Problème des rencontres. Si \(E\) a \(n\) éléments, combien y a-t-il de
permutations \(\sigma\) de \(E\) sans point fixe, c’est-à-dire telles
que pour tout \(j\in E\) on ait \(\sigma(j)\neq j?\).
On applique le théorème
précédent aux fonctions \(f\) et \(g\) définies sur \(\mathcal{P}(E)\) ainsi: si \(A\subset E\) , \(f(A)=|A|!\) est le nombre de permutations
de \(E\) telles que pour tout \(j\in A^c\) on ait \(\sigma(j)=j\), et \(g(A)\) est le nombre de permutations de
\(E\) telles que pour tout \(j\in A^c\) on ait \(\sigma(j)=j\) et pour tout \(j\in A\) on ait \(\sigma(j)\neq j.\) On veut donc calculer
\(g(E).\)
Si \(\Omega\) est l’ensemble des
permutations de \(E\) et si il est muni
de la probabilité équiprobable, la probabilité pour qu’une permutation
aléatoire soit sans point fixe est donc \[\sum_{k=0}^n(-1)^k\frac{1}{k!},\] soit
approximativement \(e^{-1}=0,367...\)
si \(n>6.\)
Les hypothèses du théorème sont remplies, on a bien en effet \(f(A)=\sum_{B\subset A}g(B).\) Par conséquent \[g(E)=\sum_{B\subset E}(-1)^{|F\setminus B|}|B|!=\] \[\sum_{k=0}^nC^k_n(-1)^{n-k}k!=\] \[n!\sum_{k=0}^n(-1)^{n-k}\frac{1}{(n-k)!} =\] \[n!\sum_{k=0}^n(-1)^k\frac{1}{k!}.\]
Exercices sur
.
premier dé et des points \(j\) du second est \(k".\) Calculer pour \(k=2,3,\ldots, 12\) le nombre \(P(A_k).\)
Le schéma Succès-Echec.
Le schéma
Succès-Echec fini. Si une expérience a deux issues,
arbitrairement notées succès \((S)\) et
échec \((E)\) et si on la répète \(n\) fois, ce qu’on observe est une suite de
longueur \(n\) de \(S\) et de \(E.\) Pour modéliser cela, on introduit
l’espace des observables \(\Omega=\{E,S\}^n\) formé des \(2^n\) suites \(\omega=(\omega_1,\ldots,\omega_n)\) où les
\(\omega_j\) sont égaux à \(E\) ou \(S\). On munit \(\Omega\) de la tribu \(\mathcal{P}(\Omega)\). Quant à la
probabilité, on se fixe un nombre \(p\)
tel que \(0<p<1\) qui est la
probabilité d’un succès si on n’effectue qu’une fois l’expérience.
Introduisons alors l’importante quantité \(X(w)\) définie ainsi: si \(\omega=(\omega_1,\ldots,\omega_n)\in
\Omega\) alors \(X(w)\) désigne
le nombre de succès que comprend la suite \(\omega.\) Par exemple, \(X(SSES)=3\), \(X(EEEE)=0.\) Pour \(\omega\in \Omega\) tel que \(X(\omega)=k\) on définit alors \(P(\{ \omega\})=p^k(1-p)^{n-k};\) Comme tout
évènement \(A\in \mathcal{P}(\Omega)\)
est réunion de singletons \(\{
\omega\}\) deux à deux disjoints, cela suffit à définir \(P(A)\) et donc la probablité \(P\) sur \((\Omega,\mathcal{P}(\Omega)).\)
Parmi ces évènements, les plus importants sont les \(\{X=k\}\) ( ceci est une sténographie que
nous utiliserons souvent pour écrire brièvement l’évènement \(\{\omega\in \Omega\ ;\ X(\omega)=k\}\)).
Voici leur probabilité:
Pour le schéma Succès Echec fini
associé à la probabilité \(p\) d’un
succès, si \(X\) est le nombre de
succès en \(n\) expériences, alors
\[P(X=k)=C_n^kp^k(1-p)^{n-k}.\]
Notons \(A=\{\omega\in \Omega\ ;\ X(\omega)=k\}\).
Définissons l’application de \(A\) dans
\(\mathcal{P}_k(\{1,2,\ldots,n\})\) par
\(\omega\mapsto \{j\ ;\ \omega_j=S\}.\)
Il est clair que c’est une bijection; donc d’après le Théorème b), \(|A|=C_n^k\). Enfin puisque tous les \(\{ \omega\}\) contenus dans \(A\) ont la même probabilité \(p^k(1-p)^{n-k}\) on obtient \[P(A)=\sum_{\omega\in A}P(\{ \omega\})=
|A|p^k(1-p)^{n-k}=C_n^kp^k(1-p)^{n-k}.\]
Le schéma
Succès-Echec infini. Il s’agit ensuite de modéliser le
cas où on veut effectuer un nombre arbitraire d’expériences: par exemple
on peut vouloir répéter les essais jusqu’à ce qu’apparaisse 4 succès
consécutifs. Une telle modélisation est impossible avec le schéma fini
ci dessus, et on prend alors pour espace \(\Omega\) des observables l’ensemble \(\{E,S\}^{{\bf N^*}}\) des suites infinies
de \(S\) et de \(E\), en notant par \({\bf N^*}\) l’ensemble des entiers \(>0.\) Il est clair que \(\Omega\) est en bijection avec les parties
de \({\bf N^*}\), et donc d’après la
proposition \(\Omega\) n’est pas
dénombrable. Cela cause une sérieuse difficulté en ce qui concerne la
construction de l’espace de probabilité correspondant. On construit la
tribu \(\mathcal{A}\) et la probabilité
\(P\) par un procédé d’approximation
que nous décrivons maintenant.
tribu suivante de parties de \(\Omega:\) \[\mathcal{A}_n=\{A\times \Omega''\ ;\ A\in
\mathcal{P}(\Omega')\} .\] Intuitivement, les évènements de
\(\mathcal{A}_n\) sont les évènements
ne dépendant que de ce qui s’est passé jusqu’à l’instant \(n.\) En particulier, nous avons \(\mathcal{A}_n\subset
\mathcal{A}_{n+1}.\)
tribu , car ce n’est pas fermé pour la réunion dénombrable.
Voici un contre exemple. Soit \(A_n\)
l’ensemble des suites \(\omega\)
infinies comprenant au moins un succès à l’instant \(n\) ou avant. Alors \(A_n\) est dans \(\mathcal{A}_n\) et donc dans \(\mathcal{A}'.\) Pourtant \(A=\cup_{n\geq 1} A_n\) n’est pas dans \(\mathcal{A}'.\) En effet \(A\) est l’ensemble des suites \(\omega\) infinies comprenant au moins un
succès. Mais il n’existe pourtant aucun \(n\) tel que \(A\in \mathcal{A}_n\), et donc \(A\notin \mathcal{A}'.\) Réaliser cette
chose subtile fait progresser dans la compréhension de la théorie. On
définit alors la tribu \(\mathcal{A}\)
sur \(\Omega\) comme la plus petite
tribu contenant \(\mathcal{A}'\).
Pour définir enfin la probabilité \(P\) sur \(\mathcal{A}\), on fait l’observation
essentielle suivante: on a non seulement \(\mathcal{A}_n\subset \mathcal{A}_{n+1},\)
mais de plus la restriction de \(P_{n+1}\) au sous ensemble \(\mathcal{A}_n\) de \(\mathcal{A}_{n+1},\) qui était le domaine
de définition de \(P_{n+1}\), coincide
avec \(P_n.\) Par conséquent, il existe
une fonction universelle \(P'\)
définie sur \(\mathcal{A}'\) telle
que pour tout \(A\in \mathcal{A}'\)
on ait \(P'(A)=P_n(A)\) pour tous
les \(n\) tels que \(A\in \mathcal{A}_n.\) A partir de ce point,
les choses cessent d’être élémentaires, et nous sommes obligés
d’admettre le théorème suivant, dont la démonstration est donnée en
troisième année d’université:
Fixons l’entier \(n\) et définissons \(\Omega'=\{E,S\}^{\{1,\ldots,n\}}\) et \(\Omega''=\{E,S\}^{\{n+1,n+2,\ldots\}}\), de sorte que \(\Omega=\Omega'\times\Omega''\), et définissons la
Si \(\omega'=(\omega_1,\dots,\omega_n)\in \Omega'\) comprend \(k\) succès, définissons la probabilité \(P_n(\{\omega'\}\times \Omega'')=p^k(1-p)^{n-k}.\) Cela permet donc de définir la probabilité \(P_n\) sur \(\mathcal{A}_n.\) L’espace de probabilité \((\Omega,\mathcal{A}_n, P_n)\) est presque identique à l’espace du schéma Succès Echec fini décrit ci dessus.
Maintenant, notons \[\mathcal{A}'=\cup_{n\geq 1}\mathcal{A}_n.\]
La famille \(\mathcal{A}'\) n’est pas une
0 Il existe une et une seule
probabilité \(P\) sur \(\mathcal{A}\) telle que pour tout \(A\in \mathcal{A}'\) on ait \(P(A)=P'(A).\)
On peut ainsi démontrer l’idée
intuitive qu’un évènement de probabilité strictement positive, même
petite, finit toujours par arriver. Plus précisément, si \(A\) est l’ensemble des \(\omega\in \Omega\) comprenant au moins un
succès, alors \(P(A)=1.\) En effet, si
\(B_n\) est l’ensemble des \(\omega\in \Omega\) comprenant au moins un
succès avant l’instant \(n\) ou à
l’instant \(n\), alors \(A=\cup_{n\geq 1}B_n\) et \(B_n\subset B_{n+1}.\) Par continuité
monotone (Th. , (2)) on a donc \(\lim
P(B_n)=P(A).\) Comme \(P(B^c)=(1-p)^n\) tend vers 0, on a le
résultat. Plus généralement on peut montrer que toute séquence \(a\) finie donnée à l’avance ( par exemple
SSEESSEESSEESSEE, ou le codage en binaire d’une fable de La Fontaine)
finira par arriver. Plus précisément:
1 Soit \(a=(a_1,\ldots,a_n)\in \{E,S\}^n\) une suite
fixée de longueur \(n\) de succès et
d’échecs, et soit \[A=\{\omega \in \Omega\ ;\
\mathrm{il\ existe}\ N\geq 0 \
\mathrm{avec}\ \omega_{N+1}=a_1,\ldots,\omega_{N+n}=a_n\}.\]
Alors \(P(A)=1.\)
Soit \(k\) le nombre de \(S\) dans la suite \(a\). Notons \[A_N=\{\omega \in \Omega\ ;\
\omega_{N+1}=a_1,\ldots,\omega_{N+n}=a_n\}.\] Alors \(P(A_N)=p^k(1-p)^{n-k}\) par définition de
\(P.\) Introduisons \(B_m=\cup_{j=0}^{m-1}A_{jn}\). Alors \(B_m\subset B_{m+1}\) et \[A=\cup_{N\geq 0}A_N\supset B=\cup_{m\geq
0}B_m.\] On a de plus \[P(B_m^c)=P(\cap_{j=0}^{m-1}A_{jn}^c)=(1-p^k(1-p)^{n-k})^m
\rightarrow_{m\rightarrow \infty} 0.\] Par continuité monotone ,
on a donc \(P(B^c)=0.\) D’où \(1=P(B)\leq P(A)=1.\)
Le cas où \(\Omega=\mathbb R.\)
Ce cas est naturellement le plus
important de tous. La tribu mise sur \(\mathbb
R\) est la tribu de Borel \(\mathcal{B}\) définie à la section 1 comme
la plus petite tribu contenant les intervalle s (ouverts, fermés, semi
ouverts, demi droites) Parmi ses éléments, les boréliens, les seuls
qu’on aura concrètement à manipuler sont les réunions d’intervalles.
Pour décrire les probabilités sur \((\mathbb R,\mathcal{B})\), introduisons une
définition importante:
(fonction de répartition). Soit \(F\) une fonction de \(\mathbb R\) dans \(\mathbb R.\) On dit que \(F\) est une fonction de
répartition si elle satisfait aux trois propriétés suivantes:
On a alors le théorème
fondamental suivant:
2 Soit \(P\) une probabilité sur \((\mathbb R,\mathcal{B})\). Soit \(F_P\) la fonction réelle définie par \[F_P(x)=P(]-\infty,x]).\] Alors \(F_P\) est une fonction de répartition .
Inversement, si \(F\) est une fonction
de répartition, alors il existe une et une seule probabilité sur \((\mathbb R,\mathcal{B})\) telle que \(F_P=F.\)
Si \(x<y\), alors \(A=]-\infty,x]\subset B=]-\infty,y],\) et
donc \(F_P(x)=P(A)\leq P(B)=F_P(y).\)
Ensuite, si \((x_n)\) tend vers \(-\infty\) en décroissant et si \(A_n=]-\infty,x_n],\) alors \(A_n\supset A_{n+1}\) et \(\cap_{n\geq 1}A_n=\emptyset;\) par
continuité monotone \(P(A_n)\) tend
vers \(0\). Donc \(\lim_{n\rightarrow \infty}F_P(x_n)=0\).
Comme ceci est vrai quelle que soit la suite \((x_n)\) tendant vers \(-\infty\) en décroissant, on en déduit
\(\lim_{x\rightarrow
-\infty}F_P(x)=0.\) De même, si \((y_n)\) tend vers \(\infty\) en croissant et si \(B_n=]-\infty,y_n],\) alors \(B_n\subset B_{n+1}\) et \(\cup_{n\geq 1}B_n=\mathbb R;\) par
continuité monotone \(P(B_n)\) tend
vers \(P(\mathbb R)=1\) et on a \(\lim_{y\rightarrow +\infty}F_P(y)=1.\)
Nous admettrons la réciproque, qui est la partie difficile.
Commentaires: Ce résultat est
assez rassurant: bien qu’on connaisse mal la tribu \(\mathcal{B}\), et donc les probabilités
définies dessus, il y a en fait bijection entre l’ensemble de toutes les
probabilités sur \(\mathbb R\) et
l’ensemble moins abstrait de toutes les fonctions de répartition. Mais
la démonstration complète est réservée à la 3 ème année.
La fonction de répartition permet de calculer les probabilités de
tous les intervalle s. Pour simplifier, adoptons la notation pour la
limite à gauche en \(x\) de la fonction
croissante \(F\): \[F(x-0)=\lim_{h\nearrow 0}F(x+h).\]
Soit \(F\) la fonction de répartition d’une
probabilité \(P\) sur \((\mathbb R,\mathcal{B})\). Alors
La première égalité s’obtient
en considérant \(A_n=]-\infty,x+h_n],\)
où \(h_n\) est \(<0\) et croît vers \(0.\) Alors \(A_n\subset A_{n+1}\) et \(\cup_{n\geq 1}A_n=]-\infty,x[.\) Par
convergence monotone l’égalité s’ensuit. Les deux suivantes s’obtiennent
par passage au complémentaire. La suivante découle de l’égalité \[]-\infty,b]=]-\infty,a]\cup]a,b],\] et du
fait que au second membre les deux ensembles sont disjoints. De même
\[]-\infty,b[=]-\infty,a[\cup[a,b[\]
fournit l’égalité suivante grâce à la première égalité de la liste.
Laissons les dernières en exercice.
Donnons maintenant des exemples
de fonctions de répartition
(Fonctions de répartition à densité.).
Fonctions de répartition à densité. Soit \(f\) une fonction positive définie sur \(\mathbb R\) qui ait des discontinuités au
plus en un nombre fini de points \(a_1<a_2<\cdots<a_N\) et qui soit
telle que les intégrales \(\int_{a_i}^{a_{i+1}}f(x)dx\) convergent et
satisfassent \[\sum_{i=0}^N\int_{a_i}^{a_{i+1}}f(x)dx=1,\]
avec la convention \(a_0=-\infty\) et
\(a_{N+1}=+\infty.\)
On définit alors la fonction \(F\)
par \(F(x)=\int_{-\infty}^xf(t)dt.\) Il
est clair que \(F\) est une fonction de
répartition. Ici, elle est de plus continue et, d’après le théorème
fondamental du calcul intégral, elle satisfait \(F'(x)=f(x)\) pour tout \(x\notin \{a_1,\ldots ,a_N\}\). La fonction
\(f\) s’appelle alors la
densité de la fonction de répartition \(F\).
Par exemple \(f_1(x)=\frac{1}{2}e^{-|x|}\), \(f_2(x)=\frac{1}{\pi}\frac{1}{1+xý},\) \(f_3(x)=0\) si \(x\leq 0\) et \(f_3(x)=\frac{1}{\sqrt {\pi x}}e^{-x}\) si
\(x>0\), qu’il est plus rapide de
définir par \[f_3(x)= \frac{1}{\sqrt {\pi
x}}e^{-x}{\bf 1}_{]0,\infty[}(x),\] où \({\bf 1}_E(x)=1\) si \(x\in E\) et \({\bf 1}_E(x)=0\) sinon: la fonction \({\bf 1}_E\) s’appellera désormais
l’indicateur de l’ensemble E. Dernier exemple:
\[f_4(x)={\bf 1}_{[0,1]}(x).\] Dans
ces exemples, \(N=0\) pour \(f_1\) et \(f_2\), \(N=1\) pour \(f_3\) et \(N=2\) pour \(f_4.\)
Il est important de ne pas
confondre les deux fonctions \(F\) et
\(f\). Pour les exemples ci dessus de
densités, les fonctions de répartition correspondantes seront
respectivement \[F_1(x)=\frac{1}{2}e^{x}\
\mathrm{pour}\ x\leq 0,
\ F_1(x)=1-\frac{1}{2}e^{-x},\] \[F_2(x)=\frac{1}{2}+\frac{1}{\pi}\arctan
x,\] \[F_4(x)=0\ \mathrm{pour}\ x\leq
0,\
F_4(x)=x \ \mathrm{pour}\ 0\leq x\leq 1,
\ F_4(x)=1\ \mathrm{pour}\ 1\leq x,\] (\(F_3(x)\) ne peut s’exprimer de façon
élémentaire).
(La probabilité \(\delta_a\) de Dirac.). La
probabilité \(\delta_a\) de Dirac.
Si \(a\) est un réel, il s’agit de la
probabilité sur \(\mathbb R\) définie
par \(\delta_a(A)=0\) si \(a\notin A,\) et \(\delta_a(A)=1\) si \(a\in A.\) Appliquant ceci à \(A=]-\infty,x]\), on obtient la fonction de
répartition \[F_{\delta_a}(x)=0\
\mathrm{pour}\ x<a,
\ F_{\delta_a}(x)=1\ \mathrm{pour}\ a\leq x.\]
Voici son graphe
Si \(a=0\), cette fonction s’appelle
l’échelon de Heaviside. Les travaux de 1894 de cet ingénieur électricien
sont à la source de la théorie moderne des distributions. Cette théorie
permet par exemple de donner un sens à la dérivation de la fonction ci
dessus: c’est la probabilité de Dirac \(\delta_a\) qui jouerait alors le rôle de la
dérivée.
(Probabilité discrète sur un nombre fini de
points.). Probabilité discrète sur un nombre fini de
points. Soit \(N\) un entier \(>0\), soit \(a_1<a_2<\cdots<a_N\) des réels et
soit \(p_1,\ldots,p_N\) des nombres
positifs tels que \(p_1+\cdots+p_N=1.\)
On considère la probabilité sur \(\mathbb
R\) définie par \[P=p_1\delta_{a_1}+\cdots+p_N\delta_{a_N}.\]
En d’autres termes, si \(A\) est un
borélien: \[P(A)=p_1\delta_{a_1}(A)+\cdots+p_N\delta_{a_N}(A)=\sum_{j;a_j\in
A}p_j.\] En particulier, si \(A=]-\infty,x]\), on obtient la fonction de
répartition \[F_P(x)=\sum_{j;a_j\leq
x}p_j,\] dont le graphe est celui d’une fonction en escalier
croissante, où le saut en \(a_j\) est
égal à \(p_j.\) Ce cas revient un peu
au cas où \(\Omega\) n’avait qu’un
nombre fini de points, puisqu’ici \(P\)
est concentrée sur \(\{a_1,\ldots
,a_N\}.\)
Si on remplace la suite finie
précédente par un ensemble dénombrable de \(\mathbb R\), l’extension est
facile.
(Probabilité discrète.).
Probabilité discrète. On s’intéresse à l’ensemble dénombrable
formé des points d’une suite \((a_n)\)
telle que \(a_1<a_2<\cdots<a_n<\cdots\) et
soit \(p_n\) des nombres positifs tels
que \(\sum_1^{\infty}p_n=1.\) On
formera la probabilité \(P\) définie
pour tout Borélien \(A\) par \[P(A)=\sum_1^{\infty}p_n\delta_{a_n}(A),\]
dont la fonction de répartition est en escalier croissante vec une
infinité de points de discontinuités.
(Type mixte.). Type mixte. On
rencontre un peu rarement des fonctions de répartition de la forme \(F=\lambda G+(1-\lambda)H\) où \(G\) est une fonction de répartition à
densité, comme vu à l’exemple 1, où \(H\) est une fonction de répartition d’une
probabilité discrète, comme vu aux exemples 2, 3 ou 4, et où \(0<\lambda<1.\) Si \(H\) a une discontinuité en \(a\) de saut \(p\), alors \(F\) a une discontinuité en \(a\) de saut \((1-\lambda)p.\)
Exercices sur
.
fonction de répartition de la densité suivante:fonction de répartition \(F(x)=0\) si \(x<0\) et \(F(x)=1-\frac{1}{2^{[x]+1}}\) si \(x\geq 0.\) Tracer le graphe de \(F\). Calculer les probabilités des évènements suivants:
Bibliographie
Barre utilisateur
[ID: 92] [Date de publication: 15 février 2022 08:33] [Catégorie(s): Le cours de probabilités ] [ Nombre commentaires: 0] [nombre d'éditeurs: 1 ] [Editeur(s): Emmanuel Vieillard-Baron ] [nombre d'auteurs: 1 ] [Auteur(s): Gérard Letac ]Commentaires sur le cours
Documents à télécharger
L'article complet