Modèle bayséien

Bonjour,

Je vous joins une photo du livre que je lis aujourd'hui.

Alors ça fait pas mal de nouvelles notations, je cherche un exemple simple sans être trivial d'une telle situation. En particulier je pense que ça rendrait les choses plus simple pour moi si j'avais en tête un exemple de
$$
q(x_{i} \lvert \theta)
$$
et le petit $p$ aussi qui va bien dans le modèle s'il vous plaît, les autres déclinaisons de $p$ quelque chose sachant ou virgule quelque chose se déduisent finalement de ces deux quantités si j'ai bien compris.

Je vous remercie pour le coup de main.114322

Réponses

  • Hmm drôles de notations.

    Je ne comprends pas bien ton message. Ce truc est simplement la vraisemblance de $\theta$ lorsque que l'échantillon $(x_i)$ a été observé. C'est plus habituellement noté $L(\theta \mid \mathcal{D})$.
  • Effectivement, j'aurais dit:
    $$ \mathcal{l}(\theta|x_1,…,x_n )=\prod_1^n\mathcal{l}(\theta|x_i ) $$
    où $\mathcal{l}$ est la fonction de vraisemblance (likelihood) de l'échantillon $x_1, ..., x_n$
  • training samples : c'est de l'apprentissage automatique, ça...

    C'est le problème des bouquins de maths appli : souvent, il faut déjà connaître le sujet qu'ils expliquent avant, sinon, on ne lit qu'une succession de calculs.

    En fait,
    $p(\theta)$ désigne la loi d'une variable aléatoire $\Theta$, (sachant ce que l'on savait au début)
    $p(\theta|D)$ désigne sa loi conditionnielle sachant $D$, + (ce que l'on savait au début)
    $p(D|\theta)$ est l'espérance conditionnelle $E[1_D|\Theta]$
    $p(\theta,D)$ est le produit $p(D|\theta) \times p(\theta)$

    Je dis comme ça pour parler d'une façon bayésienne, sinon, les trucs de vraisemblance, c'est bien aussi.

    (En gros, les probas bayésiennes, c'est de rejeter la notion de "probabilité tout court", et de n'envisager que des probabilités conditionnelles)
  • Je cherche un exemple de modèle bayésien où les calculs sont faciles sans que le modèle soit trivial pour me faire une idée de la machinerie qu'on me présente.
  • Pour $\theta>0$ et $k=0,1,\ldots,$ prendre $\Pr(X=k)=e^{\theta}\theta^k/k!,\ p(\theta)=ae^{-a\theta}.$
  • Le truc qui me dérange dans leurs notations c'est que la mesure des paramètres est aussi une mesure des données alors que je me dis que ça pourrait être des objets de nature complétement différente. Typiquement les données c'est des vecteurs de $d$ dimensions et le paramètres c'est par exemple un réel strictement positif $ \sigma^{2}$ sur un ensemble de gaussiennes $d$ dimensionnelles centrées et de variance $ \sigma^{2} I_{d}$.
  • J'ai pensé à $q$ une densité d'une loi de [large]P[/large]oisson et $p$ la densité d'une loi exponentielle de paramètre $1$.
    Donc la loi à priori est
    $$
    p(\lambda)= \exp(-\lambda) 1_{\lambda >0}.

    $$ Puis
    $$
    p(D|\lambda) = \exp(-\lambda n) { \lambda^{\sum_{i=1}^{n} x_{i} } \over \prod_{i=1}^{n} x_{i} ! }.

    $$ La loi a posteriori est pour $\lambda >0$
    $$
    p(\lambda | D) = { p(D| \lambda) p(\lambda) \over p(D) } = { \exp(-\lambda) \over p(D) } \exp(-\lambda n) { \lambda^{\sum_{i=1}^{n} x_{i} } \over \prod_{i=1}^{n} x_{i} ! }.

    $$ Et du coup $p(D)$ ce serait quoi ?

    [Siméon Poisson (1781-1840) prend toujours une majuscule. AD]
  • Oui je vois $\quad
    p(D) = \int p(D, \lambda ) p(\lambda) .$
    La loi jointe
    $$
    p(D, \lambda ) = p(D | \lambda) p(\lambda) = \exp(-\lambda (n+1) ) { \lambda^{\sum_{i=1}^{n} x_{i} } \over \prod_{i=1}^{n} x_{i} ! }.

    $$ D'où
    $$
    p(D) = \int_{0}^{+\infty} p(D, \lambda ) p(\lambda) = \int_{0}^{+\infty} \exp(-\lambda (n+2) ) { \lambda^{\sum_{i=1}^{n} x_{i} } \over \prod_{i=1}^{n} x_{i} ! }.
    $$
  • Pour calculer $p(D)$ on doit pouvoir s'arranger en faisant apparaitre une loi gamma mais ce n'est pas le sujet.
  • A quoi ça sert de maximiser la loi à postériori en $\lambda$ ? ou $\theta$ selon la notation qu'on choisit.
  • Le mode de la loi a posteriori est un estimateur du paramètre. La moyenne en est un autre, ou encore la médiane.
Connectez-vous ou Inscrivez-vous pour répondre.