Opérateur proximal
Bonjour,
Soit $S \in \mathcal{S}_d(\mathbb{R})$ une matrice symétrique et soit $V \in \mathcal{M}_d(\mathbb{R})$ une matrice quelconque.
Je définis $\forall \Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$ (matrices symétriques définies positives)
$f(\Gamma) := \text{ tr } S\Gamma - \ln\det\Gamma + \frac1{2\lambda} \lvert \lvert \Gamma - V\rvert\rvert_2^2$
où $\lambda > 0$ est donné et la norme est celle de Frobenius (ie celle issue du produit scalaire canonique de $\mathbb{R}^{d^2}$).
Je cherche deux choses: 1) prouver que $f$ admet un unique minimum global sur $\mathcal{S}_d^{++}(\mathbb{R})$ et 2) trouver la matrice réalisant ce minimum.
Pour 1), établir la convexité de $f$ m'aiderait.
Puisque $\lvert \lvert \cdot \rvert\rvert_2$ est convexe (comme toute norme), $\lvert \lvert \cdot \rvert\rvert_2^2$ le reste et il suffit d'établir que $g: \Gamma \mapsto \text{ tr } S\Gamma - \ln\det\Gamma$ est convexe.
Pour cela, je cherche donc à prouver qu'étant donné $t \in [0, 1]$ et $\Gamma, \Sigma \in \mathcal{S}_d^{++}(\mathbb{R})$, l'on a $g(t \Gamma + (1 - t) \Sigma) \leq t g(\Gamma) + (1 - t) g(\Sigma)$ soit en enlevant la partie linéaire que $\ln\det(t\Gamma + (1 - t)\Sigma) \geq t \ln\det \Gamma + (1 - t)\ln\det\Sigma$ ou encore que $\det(t\Gamma + (1 - t)\Sigma) \geq (\det \Gamma)^t (\det \Sigma)^{1 - t}$.
J'arrive à prouver cette dernière inégalité lorsque $\Gamma$ et $\Sigma$ commutent car elles sont alors co-diagonalisables et l'inégalité à montrer devient $\displaystyle \prod_{i = 1}^d (t \gamma_i + (1 - t)\sigma_i) \geq \left(\prod_{i = 1}^d \gamma_i\right)^t \left(\prod_{i = 1}^d \sigma_i\right)^{1 - t}$
qui est un corollaire de l'inégalité réelle $\forall u, v$ positifs, $\forall p, q$ conjugués, $uv \leq \frac{u^p}p + \frac{v^q}q$.
Que faire maintenant lorsque $\Gamma$ et $\Sigma$ ne commutent pas?
Pour 2), je cherche les (ou plutôt "le" s'il y a effectivement unicité) points critiques de $f$.
Pour cela, je passe par la différentielle: celle de $\Gamma \mapsto \text{ tr } S \Gamma$ est elle-même puisque linéaire, celle de $\Gamma \mapsto \ln\det\Gamma$ est, en un point $\Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$, l'application $H \mapsto \text{ tr } \Gamma^{-1}H$ et, enfin, celle de $\Gamma \mapsto \lvert \lvert \Gamma - V\rvert\rvert_2^2$ est, toujours en $\Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$, l'application $H \mapsto 2\text{ tr } (\Gamma - V)^T H$.
Un point critique $\Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$ de $f$ vérifie donc $\forall H \in \mathcal{S}_d^{++}(\mathbb{R})$, $\text{ tr } SH - \text{ tr } \Gamma^{-1}H + \frac1\lambda \text{ tr } (\Gamma - V)^T H = 0$ et l'on a donc $S - \Gamma^{-1} + \frac1\lambda (\Gamma - V) = 0$ ($S$ et $\Gamma$ sont symétriques).
Comment aller plus loin à présent?
Soit $S \in \mathcal{S}_d(\mathbb{R})$ une matrice symétrique et soit $V \in \mathcal{M}_d(\mathbb{R})$ une matrice quelconque.
Je définis $\forall \Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$ (matrices symétriques définies positives)
$f(\Gamma) := \text{ tr } S\Gamma - \ln\det\Gamma + \frac1{2\lambda} \lvert \lvert \Gamma - V\rvert\rvert_2^2$
où $\lambda > 0$ est donné et la norme est celle de Frobenius (ie celle issue du produit scalaire canonique de $\mathbb{R}^{d^2}$).
Je cherche deux choses: 1) prouver que $f$ admet un unique minimum global sur $\mathcal{S}_d^{++}(\mathbb{R})$ et 2) trouver la matrice réalisant ce minimum.
Pour 1), établir la convexité de $f$ m'aiderait.
Puisque $\lvert \lvert \cdot \rvert\rvert_2$ est convexe (comme toute norme), $\lvert \lvert \cdot \rvert\rvert_2^2$ le reste et il suffit d'établir que $g: \Gamma \mapsto \text{ tr } S\Gamma - \ln\det\Gamma$ est convexe.
Pour cela, je cherche donc à prouver qu'étant donné $t \in [0, 1]$ et $\Gamma, \Sigma \in \mathcal{S}_d^{++}(\mathbb{R})$, l'on a $g(t \Gamma + (1 - t) \Sigma) \leq t g(\Gamma) + (1 - t) g(\Sigma)$ soit en enlevant la partie linéaire que $\ln\det(t\Gamma + (1 - t)\Sigma) \geq t \ln\det \Gamma + (1 - t)\ln\det\Sigma$ ou encore que $\det(t\Gamma + (1 - t)\Sigma) \geq (\det \Gamma)^t (\det \Sigma)^{1 - t}$.
J'arrive à prouver cette dernière inégalité lorsque $\Gamma$ et $\Sigma$ commutent car elles sont alors co-diagonalisables et l'inégalité à montrer devient $\displaystyle \prod_{i = 1}^d (t \gamma_i + (1 - t)\sigma_i) \geq \left(\prod_{i = 1}^d \gamma_i\right)^t \left(\prod_{i = 1}^d \sigma_i\right)^{1 - t}$
qui est un corollaire de l'inégalité réelle $\forall u, v$ positifs, $\forall p, q$ conjugués, $uv \leq \frac{u^p}p + \frac{v^q}q$.
Que faire maintenant lorsque $\Gamma$ et $\Sigma$ ne commutent pas?
Pour 2), je cherche les (ou plutôt "le" s'il y a effectivement unicité) points critiques de $f$.
Pour cela, je passe par la différentielle: celle de $\Gamma \mapsto \text{ tr } S \Gamma$ est elle-même puisque linéaire, celle de $\Gamma \mapsto \ln\det\Gamma$ est, en un point $\Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$, l'application $H \mapsto \text{ tr } \Gamma^{-1}H$ et, enfin, celle de $\Gamma \mapsto \lvert \lvert \Gamma - V\rvert\rvert_2^2$ est, toujours en $\Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$, l'application $H \mapsto 2\text{ tr } (\Gamma - V)^T H$.
Un point critique $\Gamma \in \mathcal{S}_d^{++}(\mathbb{R})$ de $f$ vérifie donc $\forall H \in \mathcal{S}_d^{++}(\mathbb{R})$, $\text{ tr } SH - \text{ tr } \Gamma^{-1}H + \frac1\lambda \text{ tr } (\Gamma - V)^T H = 0$ et l'on a donc $S - \Gamma^{-1} + \frac1\lambda (\Gamma - V) = 0$ ($S$ et $\Gamma$ sont symétriques).
Comment aller plus loin à présent?
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Après, avec l'existence et l'unicité du point critique, la convexité n'est peut-être pas nécessaire, il faut juste s'assurer que la fonction est propre, ce qui semble assez facile. Mais je pense qu'elle devrait effectivement être convexe.
Merci pour tes réponses.
Pour ta première réponse, tu dis cela car j'ai écrit $\forall H \in \mathcal{S}_d^{++}(\mathbb{R})$, $\text{ tr } SH - \text{ tr } \Gamma^{-1}H + \frac1\lambda \text{ tr } (\Gamma - V)^T H = 0$ au lieu de simplement $\forall H \in \mathcal{S}_d(\mathbb{R})$?
Pour ta seconde réponse, pourrais-tu détailler?
En prouvant que $f$ est convexe, je peux utiliser le théorème disant que si $h: A \rightarrow \mathbb{R}$ est convexe sur le convexe $A$ et que le point intérieur $a$ est un point critique de $h$ alors $a$ est un minimum global de $h$.
D'ailleurs, $g$ est effectivement convexe (donc $f$ aussi); une preuve d'un autre forum suggère de poser $\Lambda := \sqrt{\Sigma}^{-1} \Gamma \sqrt{\Sigma}^{-1}$ auquel cas l'inégalité à prouver $\ln\det(t\Gamma + (1 - t)\Sigma) \geq t \ln\det \Gamma + (1 - t)\ln\det\Sigma$ devient $\ln\det(tI_d + (1 - t)\Lambda) \geq (1 - t)\ln\det\Lambda$ qui est vraie valeur propre par valeur propre.
Pour la seconde, tu peux aussi montrer que $f$ tend vers l'infini à l'infini de ${\cal S }_d ^{++}$. En gros, si $\Gamma $ va vraiment à l'infini $\| \Gamma - V \| _2 ^2 $ domine les autres termes, et si tu tends vers le bord de ${\cal S }_d ^{++}$ en restant borné, tu dois faire tendre le déterminant vers $0$, et donc $f$ tend aussi vers $+ \infty $.
Ainsi, il y a bien un minimum pour $f$ et il doit \être atteint en un point critique. Comme il n'y en a qu'un, tu peux conclure.
Mais la convexité, si elle n'est pas trop dure à montrer, me semble encore préférable.
Je reviens vers toi car je n'ai pas compris ta remarque permettant de se ramener au cas $V$ symétrique: pourrais-tu détailler?
J'en ai besoin pour déduire de $\forall H \in \mathcal{S}_d(\mathbb{R})$, $\text{tr}\,\, \big(S - \Gamma^{-1} + \frac1\lambda (\Gamma - V)\big) H = 0$ que $S - \Gamma^{-1} + \frac1\lambda (\Gamma - V) = 0$, ce qui est immédiat lorsque $V$ est symétrique.
Par ailleurs, pour la bijectivité de $\Gamma \mapsto a\Gamma - \Gamma^{-1}$ de $\mathcal{S}_d^{++}(\mathbb{R})$ dans $\mathcal{S}_d(\mathbb{R})$, j'y arrive en montrant l'injectivité:
$g(\Gamma) = g(\Sigma)$ se réécrit $a\,Q\,\text{diag}(\lambda_1 \,-\, 1, \dots, \lambda_d \,- \,1)\,Q^{-1} = \text{diag}(\lambda_1^{-1} \,-\, 1, \dots, \lambda_d^{-1}\, - \,1)$ où les $\lambda_i$ sont les valeurs propres de $\Lambda := \sqrt{\Sigma}^{-1}\Gamma \sqrt{\Sigma}^{-1}$ ce qui donne $\Lambda = I_d$ puis $\Gamma = \Sigma$
puis la surjectivité: $S = P\,\text{diag}(s_1, \dots, s_d)\,P^{-1}$ a pour antécédent $\Gamma := P\,\text{diag}(\gamma_1, \dots, \gamma_d)\,P^{-1}$ où $\gamma_i := \frac12\left(\frac1a \delta_i + \sqrt{\frac1{a^2}\delta_i^2 + 4\frac1a }\right)$