Probabilité d'appartenance à une classe étant donné le rapport de vraisemblance

green-sunset
Modifié (April 2023) dans Statistiques
Bonjour tout le monde
Pour mon travail (de data science), j'étudie le cas d'une classification binaire avec deux classes C1 et C2 et une seule "feature" x (variable aléatoire de dimension 1) à étudier. Je dispose de données (échantillons) x1, ..., xn et y1, ..., ym pour chaque classe et je modélise la distribution de chaque classe par une loi normale (pour cela je calcule la moyenne et la variance pour chaque classe). Cf l'image ci-jointe.
J'effectue une classification étant donné un nouvel exemple x en calculant le rapport de vraisemblance
 $ L(x) = \frac{N(x, \mu_1, \sigma_1)}{N(x, \mu_2, \sigma_2)}$ où $N(x, \mu, \sigma)$ est la densité de probabilité d'une loi normale de moyenne $\mu$ et d'écart-type $\sigma$ évaluée au point x, puis en vérifiant si $L(x) > 1$ ou non.
Ma question est la suivante : je suis capable d'effectuer une classification avec la méthode du rapport de vraisemblance, mais il y a-t-il un moyen de calculer/modéliser la probabilité $p(x \in  C_1 | L(x))$, ie. la probabilité que x soit dans la classe C1 étant donné le rapport de vraisemblance calculé précédemment ?
Je pense que mon vocabulaire est peut-être un peu flou et que j'ai peut-être oublié certaines notions de bases, mais je serais reconnaissant si quelqu'un a une idée ou peut m'aiguiller dans la bonne direction.
J'aurai peut-être quelques questions supplémentaires, mais pour le moment je suis plutôt intéressé par $p(x \in  C_1 | L(x))$.
Bonne journée !
Remarque concernant l'image en pièce jointe : pour le moment je sais que j'ai peu de données et étant donné le fait que les deux gaussiennes se chevauchent pas mal, je ne m'attends pas à un excellent modèle ou un bon score de classification. Cependant ma question principale ne porte pas sur la performance du classifieur mais plutôt sur l'aspect théorique de la classification avec le test du rapport de vraisemblance.

Réponses

  • Bibix
    Modifié (April 2023)
    $\mathbb{P}(L(x) \leqslant z \mid x \in C_1) = p_{1}(z)$ est facile à calculer avec la loi normale $\mathcal{N}(\mu_1, \sigma_1)$, et $\mathbb{P}(x \leqslant z) = p_1(z)p_1' + p_2(z) (1 - p_1')$ avec le préjugé $\mathbb{P}(x \in C_1) = p_1'$ et $p_2(z) = \mathbb{P}(L(x) \leqslant z \mid x \in C_2)$. On applique la formule de Bayes pour obtenir la probabilité $\mathbb{P}(x \in C_1 \mid L(x) \leqslant z)$. Le critère de classification qui en découle, c'est l'inférence bayésienne, mais comme ça demande d'évaluer un préjugé a priori (et d'autres trucs), définir un critère arbitraire n'est pas forcément moins performant.
Connectez-vous ou Inscrivez-vous pour répondre.