Conditionnement Gaussien

Bonjour,
Soit $(X(n))_{1 \leq n \leq d}$ un vecteur Gaussien de $\mathbb{R}^d$ et $A \in \mathscr{M}_{k,d}(\mathbb{R}), Y \in \mathbb{R}^k$.
Y a-t-il des formules générales permettant d'avoir accès à $ \quad \mathbb{E}(X \mid AX = Y)$ ??
Merci à vous !

Réponses

  • Calli
    Modifié (April 2022)
    Bonjour,
    Supposons que $X=(X(n))_n$ possède une densité $f$. En notant $C$ la matrice de covariance de $X$ et $m=\Bbb E[X]$, on a $$\forall x\in\Bbb R^d,\qquad f(x) = \frac1{(2\pi\lvert \det C\rvert)^{d/2}} \exp\left(-\frac12 (x-m)^\top C^{-1} (x-m)\right).$$ Soit $E$ l'espace affine $\{x\in \Bbb R^d \mid Ax=y\}$ (je préfère noter $Y$ en minuscule). On s'attend à ce que la loi de $X$ conditionnellement à $\{AX=y\}=\{X\in E\}$ soit gaussienne ; admettons que ce soit vrai. Alors $m_y :=\Bbb E[X\mid AX=y]$ coïncide avec le maximum de $f$ sur $E$.

    Pour trouver ce max, il faut optimiser $g:x\mapsto \frac12 (x-m)^\top C^{-1} (x-m)$ sous la contrainte affine $Ax=y$. Comme $g$ est strictement convexe, $m_y$ est l'unique élément de $E$ tel qu'il existe un multiplicateur de Lagrange $p\in\Bbb R^k$ vérifiant $$0=\nabla g(m_y)+A^\top p = C^{-1} (m_y-m)+A^\top p.$$ On a alors $CA^\top p=m-m_y$ donc $\fbox{$ACA^\top p =Am-y$}$. Ainsi, on peut trouver un $p$ convenable en résolvant ce système linéaire ($p$ n'est pas forcément unique) puis on calcule $m_y$ avec la relation $\fbox{$m_y = m-CA^\top p$}$.

    PS: J'ai tout expliqué à $Y$ fixé, mais en réalité c'est vrai (et ça n'a de sens) que pour presque tout $Y\in\mathrm{Im}(A)$.
  • Merci beaucoup !
  • Calli
    Modifié (April 2022)
    De rien.  :)

    On pourrait peut-être justifier le caractère gaussien de $X$ sachant $AX=y$ que j'ai admis en réexprimant $(x-m)^\top C^{-1}(x-m)$ lorsque $x\in E$ comme une forme quadratique sur $\Bbb R^{truc}\cong E$ par un changement de variable (avec au lieu de $C^{-1}$ une matrice symétrique positive de taille $truc$). Mais le calcul ne me saute pas aux yeux, et ç'a l'air un peu pénible à le chercher. (J'espère que c'est vrai quand même, car ne l'ayant pas prouvé, je ne peux pas être 100% sûr.)

    Dans le cas où $X$ ne possède pas de densité, je pense que la formule de $m_y$ est la même. On pourrait peut-être le montrer en prenant une suite de v.a. gaussiennes à densité qui convergent vers $X$ et en montrant que la formule passe à la limite, mais ç'a aussi l'air un peu chiant.
  • Calli
    Modifié (April 2022)
    Finalement, j'ai trouvé comment prouvé le truc que j'avais admis. Soient $q=\dim\mathrm{Ker}(A)$ et $B\in\mathscr{M}_{d,q}(\Bbb R)$ telle que $z\mapsto Bz$ est un isomorphisme de $\Bbb R^q$ vers $\mathrm{Ker}(A)$. Soit $x_0\in E$ quelconque. Alors $z\mapsto Bz+x_0$ est une paramétrisation affine de $E$ par $\Bbb R^q$.
    De plus, pour tout $z\in\Bbb R^q\setminus\{0\}, \; z^\top (B^\top C^{-1}B)z = (Bz)^\top C^{-1}(Bz)>0$ donc $B^\top C^{-1}B$ est symétrique définie positive, et en particulier inversible. Donc $\tilde C := (B^\top C^{-1}B)^{-1}$ est un candidat possible pour être une matrice de covariance.
    Ainsi, on a : $\forall z\in\Bbb R^q,$ $$\begin{eqnarray*} (Bz+x_0-m)^\top C^{-1} (Bz+x_0-m) &=& z^\top B^\top C^{-1}Bz +2(x_0-m)^\top C^{-1} Bz + \underbrace{(x_0-m)^\top C^{-1} (x_0-m)}_{\text{cste indép. de }z}\\  &=& z^\top \tilde C^{-1} z -2z_0^\top \tilde C^{-1} z + \mathrm{cste} \qquad \text{avec } z_0 := \tilde C B^\top C^{-1}(m-x_0)\in\Bbb R^k\\ &=& (z-z_0)^\top \tilde C^{-1}(z-z_0) + \mathrm{cste}\\ \end{eqnarray*}$$ Puis quand on prend l'exponentielle de $-\frac12$ fois ça, on obtient bien la densité d'une gaussienne (à la constante de normalisation près, mais c'est normal).
    Bref, ce que j'avais admis est vrai, et donc les formules que j'avais données pour $m_y$ sont confirmées.

    Edit : résolution d'un conflit de notation sur $m$.
  • Pomme de terre
    Modifié (April 2022)
    $\def\E{\operatorname E}$Notons $P$ la matrice de la projection orthogonale sur $\ker A$, puis $Q$ la matrice de projection $I - P$, et $B$ une matrice telle que $BA=Q$.
    Alors $X = PX + QX$ avec $PX$ et $QX$ des vecteurs gaussiens indépendants. En particulier $AX$ et $PX$ sont indépendants car $AX = AQX$, donc $\E(PX \mid AX) = \E(PX) = P \E(X).$ De plus $QX = BAX$, donc $\E(QX \mid AX) = BAX$.
    En notant $Y = AX$, on obtient finalement $\E(X \mid Y) = P \E(X) + BY.$
  • Bonjour @Pomme de terre. Il me semble que $PX$ et $QX$ ne sont pas forcément indépendants. Par exemple, si $d=2$, $U\sim\mathcal{N}(0,1)$, $X=U\cdot (1,1)$ (le support de $X$ est donc sur la diagonale principale) et $P,Q$ sont les projections sur les deux axes, alors $PX=QX=U$.
  • Oui tu as raison, c'est vrai pour $X \sim \mathcal N(m, I)$. Mais on peut toujours se ramener à ce cas, non ?
  • Calli
    Modifié (April 2022)
    On peut si $X$ possède une densité (i.e. si sa matrice de covariance $C$ est inversible). La formule pour de changement de la matrice de covariance par une transformation linéaire est $\Bbb V(MX)=M\Bbb V(X)M^\top$, donc dans notre cas $C^{-1/2}(X-m)C^{-1/2}$ suit $\mathcal{N}(0,I_d)$. Ensuite, on peut faire ce que tu as dit sur ce vecteur.

    Si $X$ ne possède pas de densité, il faudrait d'abord se restreindre à son support, qui est un sous-espace affine, égal à $m+\mathrm{Im}(C)$ (je crois), sur lequel il possède une densité. Je ne sais pas si ça permet d'avoir une formule utilisable dans ce cas.
  • Pomme de terre
    Modifié (April 2022)
    Tu me fais douter mais il me semble que le cas général revient à prendre $X = m + R Z$ où :
    • $m = \def\E{\operatorname E}\E(X)$,
    • $R \in \mathscr M_{d,r}(\R)$ de rang $r$ telle que $RR^\top$ est la matrice de covariance de $X$,
    • $Z \sim \mathcal N(0,I_r)$.
    Dans ce cas on devrait pouvoir reprendre ce que je disais avec $P$ le projecteur orthogonal sur $\ker AR$ et $Q$ celui sur $(\ker AR)^\top$, et $B$ une matrice telle que $RQ = BAR$. À vérifier toute fois, je suis un peu fatigué !
  • Calli
    Modifié (April 2022)
    Ah oui, d'accord. Bonne idée. J'avais interprété "se ramener à" de façon trop restreinte et n'avais pas pensé à écrire $X=m+RZ$.
    PS. Je n'ai pas vérifié les formules de ta dernière phrase (fatigué aussi :mrgreen:).
  • P.
    P.
    Modifié (April 2022)
    En général si $(X,Y)$ est gaussienne de matrice de covariance $\left[\begin{array}{cc}a&b^*\\b&c\end{array}\right]$ en supposant que $c^{-1}$ existe alors la loi conditionnelle de $X$ sachant $Y$ est gaussienne de covariance $a-b^*c^{-1}b$ et de moyenne $\mathbb{E}(X)+b^*c^{-1}(Y-\mathbb{E}(Y)).$ (Theoreme 2.17 dans Paul Toulouse, Thèmes de probabilités et statistique, Dunod 1999). Appliquons cela au cas $Y=AX$ et continuons comme Calli à appeler $C$ plutôt que $a$ la matrice de covariance de $X$ alors la matrice de covariance de $(X,AX)$ est
    $$\left[\begin{array}{cc}C&CA^*\\AC&ACA^*\end{array}\right]$$ et il faut supposer que $ACA^*$ est inversible pour une formule compacte. Sinon, il faut se restreindre au sous-espace sur lequel $ACA^*$ est non singulière, c'est plus compliqué.
Connectez-vous ou Inscrivez-vous pour répondre.