Constante de normalisation

Bonjour, j'ai un problème avec l'exercice suivant, je dois faire une interprétation et montrer que :

si $C_n = \int_{T} \widehat{f_n(x)} dx\ $ avec $\ \widehat{f_n(x)}=\frac{1}{n} \sum_{i=1}^{n} K_{x,h} (X_i),$
alors $\ Var(C_n)=\int_{T} Var\big( \widehat{f_n(x)}\big) dx$. Les $X_i$ sont i.i.d avec $K_{x,h}$ un noyau associé et $h >0$.

Si on a indépendance des $K_{x,h} (X_i)$ en $x$ ce serait bon mais on n'a pas cette hypothèse.
Merci.
EDIT : le topic serait peut-être plus adapté au forum "probabilité"...

Réponses

  • Bonjour,

    Juste pour être sûr, est-ce que tu définis bien $K_{x,h}(X_{i})$ par $K \left( \frac{X_{i} - x}{h} \right)$? J'imagine que le $x$ est un réel fixé (et pas une variable aléatoire). Si c'est le cas, l'indépendance des $X_{i}$ implique l'indépendance des $K_{x,h}(X_{i})$.
    Cordialement,
  • Il faut intervertir intégrale sur $x \in T$ et variance. Pour cela, il me semble qu'il faut l'indépendance entre un $K_{x,h}(X_i)$ et un $K_{x',h}(X_i)$ à $i$ fixé pour $x,x' \in T$. Aucune raison que cela soit le cas, n'est-ce pas ?
  • Je ne vois pas ce que signifie l'indépendance entre $K_{x,h}(X_{i})$ et $K_{x',h}(X_{i})$ à $i$ fixé car la seule chose aléatoire là-dedans, c'est $X_{i}$, donc pour moi, il n'est pas possible que ces deux quantités soient indépendantes.

    Si j'essaie de dégrossir un peu les calculs, si on note $X$ une variable aléatoire de même loi que les $X_{i}$, on a
    $$
    \mathbb{E} (C_{n}) = \mathbb{E} \left( \int_{T} K_{x,h}(X) dx \right), \qquad

    \text{ et} \\

    C_{n}^{2} = \frac{1}{n^{2}} \sum_{i,j=1}^{n} \left( \int_{T} K_{x,h}(X_{i}) dx \right) \left( \int_{T} K_{x,h}(X_{j}) dx \right),

    $$ donc par indépendance entre $X_{i}$ et $X_{j}$, on en déduit
    $$
    \mathbb{E} (C_{n}^{2}) = \frac{1}{n} \mathbb{E} \left( \int_{T} K_{x,h}(X) dx \right)^{2} + \frac{n-1}{n} \left[ \mathbb{E} \left( \int_{T} K_{x,h}(X) dx \right) \right]^{2}.

    $$ On en déduit donc
    $$
    Var (C_{n}) = \frac{1}{n} \mathbb{E} \left( \int_{T} K_{x,h}(X) dx \right)^{2} - \frac{1}{n} \left[ \mathbb{E} \left( \int_{T} K_{x,h}(X) dx \right) \right]^{2}. \qquad \qquad (1)

    $$ D'un autre côté, on a
    $$
    \mathbb{E} (\hat{f}_{n} (x)) = \mathbb{E} \left( K_{x,h}(X) \right),
    \qquad \text{ et }\\

    \hat{f}_{n}(x)^{2} = \frac{1}{n^{2}} \sum_{i,j=1}^{n} K_{x,h}(X_{i}) K_{x,h}(X_{j}),

    $$ donc par indépendance entre $X_{i}$ et $X_{j}$, on en déduit
    $$
    \mathbb{E} (\hat{f}_{n}(x)^{2}) = \frac{1}{n} \mathbb{E} \left( K_{x,h}(X)^{2} \right) + \frac{n-1}{n} \left[ \mathbb{E} \left( K_{x,h}(X) \right) \right]^{2}.

    $$ On en déduit donc
    $$
    Var (\hat{f}_{n}(x)) = \frac{1}{n} \mathbb{E} \left( K_{x,h}(X)^{2} \right) - \frac{1}{n} \left[ \mathbb{E} \left( K_{x,h}(X) \right) \right]^{2}. \qquad \qquad (2)

    $$ Le problème revient donc à montrer que, en intégrant $(2)$ sur $T$, on obtient $(1)$. Cela ne me paraît pas évident du tout. Peut-être avec une hypothèse sur le noyau $K$ qui pourrait simplifier les choses ?
  • Bonsoir,

    l'examen ayant eu lieu aujourd'hui, je vous joins un énoncé complet.
    Réponse du prof : "trivial, par indépendance des $(\widehat{f_n(x)})_{x \in \mathbb{N}}$"... Pour moi, cette justification est correcte si $K_{x,h}(X)$ est indépendant de $K_{y,h}(X)$ avec $x\neq y$ réels comme je vous l'ai déjà dit...111404
  • Bonsoir
    Effectivement, en reprenant le calcul que j'avais fait dans mon message précédent, et en sommant sur $\mathbb{N}$, on obtient
    $$
    Var (C_{n}) = \frac{1}{n} \sum_{x,x' \in \mathbb{N}} \mathbb{E} \left( K_{x,h}(X) K_{x',h}(X) \right) - \frac{1}{n} \sum_{x,x' \in \mathbb{N}} \mathbb{E} \left( K_{x,h}(X) \right) \mathbb{E} \left( K_{x',h}(X) \right), \\

    \text{et}\qquad

    \sum_{x \in \mathbb{N}} Var(\hat{f}_{n}(x)) = \frac{1}{n} \sum_{x \in \mathbb{N}} \mathbb{E} \left( K_{x,h}(X)^{2} \right) - \frac{1}{n} \sum_{x \in \mathbb{N}} \mathbb{E} \left( K_{x,h}(X) \right)^{2}.

    $$ Ainsi, on a
    $$
    Var (C_{n}) = \sum_{x \in \mathbb{N}} Var(\hat{f}_{n}(x)) + \frac{1}{n} \sum_{x,x' \in \mathbb{N}, x \neq x'} \mathbb{E} \left( K_{x,h}(X) K_{x',h}(X) \right) - \frac{1}{n} \sum_{x,x' \in \mathbb{N}, x \neq x'} \mathbb{E} \left( K_{x,h}(X) \right) \mathbb{E} \left( K_{x',h}(X) \right),

    $$ donc une condition nécessaire pour que l'égalité de la question c soit vraie est bien $\mathbb{E} \left( K_{x,h}(X) K_{x',h}(X) \right) = \mathbb{E} \left( K_{x,h}(X) \right) \mathbb{E} \left( K_{x',h}(X) \right)$ pour $x \neq x'$, comme tu le dis. Et cela ne me paraît pas immédiat, mais je ne connais pas bien toutes les notions de cet exercice. En particulier, je ne sais pas ce qu'est un noyau discret (comme c'est indiqué dans l'énoncé), cela permet peut-être d'écrire les espérances précédentes de façon plus simple ?
  • Pas de définition particulière : on a en général $K_{x,h}(u)=\frac{1}{h}K\left(\frac{x-u}{h}\right)$ en univarié (discret comme continu), où K est un noyau classique (densité). Il permet d'écrire $\widehat{f_n}(x)=\frac{1}{n}\sum_{i=1}^n K_{x,h}(X_i)$.

    La réponse de mon prof est frustrante de simplicité. Certains ont mis ça dans leur copie en prenant leur rêve pour une réalité sans vraiment comprendre pourquoi ça marche et ils auront les points. Je ne vois pas pourquoi si $f$ et $g$ sont deux fonctions déterministes, et $X$ une variable aléatoire, alors $f(X)$ et $g(X)$ sont indépendantes parce que c'est bien de ça qu'il s'agit ($f=K_{x,h}$ et $g=K_{x',h}$).
  • Bonjour,
    Je pense qu'il faut que tu demandes une explication plus détaillée à ton prof en lui montrant précisément le point bloquant. Je ne vois pas de calcul simple permettant de montrer que $\mathbb{E} \left( K_{x,h}(X) K_{x',h}(X) \right) = \mathbb{E} \left( K_{x,h}(X) \right) \mathbb{E} \left( K_{x',h}(X) \right)$ pour $x \neq x'$, surtout en restant aussi général que tu le dis sur le noyau.
    Cordialement,
  • Ok, merci pour tout, je lui redemanderai à l'occasion, je le revois en novembre pour une autre matière ("statistiques bayésiennes")...
  • Bonjour,

    Il est marrant cet exercice. La clarté de la rédaction sera appréciée.

    D'abord, l’énoncé pourrait se fendre des quelques mots attendus pour dire que $\hat{f}_{\! n}$ est un estimateur de $f$, sinon $\text{Biais}[\hat{f}_{\! n}(x)]$ ne veut pas dire grand chose (je sais, je sais : la notation, le contexte...). Ensuite, je comprends "pas toujours", je comprends "jamais" ; mais "toujours pas" ça n'me dit rien...

    Enfin, la question qui te dérange. Il me semble aussi que $\text{Var}[C_n]=\frac{1}{n} \text{Var}_X \sum_x K(x,X)$ avec $X\sim f$, alors que l’énoncé se lit $\frac{1}{n} \sum_x \text{Var}_X\left[K(x,X)\right]$ (somme et variance interverties).

    C'est mal barré pour les raisons que vous dites. Peut-être peux-tu construire un contre-exemple ? Je ne connais pas les hypothèses précises sur le noyau. Mais par exemple, pour peu que $f$ soit concentrée "assez loin" de $0$, de sorte que $\sum_x K_h(x,X)=1$ p.s., on a $\text{Var}_X[\sum_x K_h(x,X)]=0\, \, < \sum_x \text{Var}_X[K_h(x,X)]$ (sauf cas dégénéré).
Connectez-vous ou Inscrivez-vous pour répondre.