Probabilité d'appartenance à une classe étant donné le rapport de vraisemblance
Bonjour tout le monde
Pour mon travail (de data science), j'étudie le cas d'une classification binaire avec deux classes C1 et C2 et une seule "feature" x (variable aléatoire de dimension 1) à étudier. Je dispose de données (échantillons) x1, ..., xn et y1, ..., ym pour chaque classe et je modélise la distribution de chaque classe par une loi normale (pour cela je calcule la moyenne et la variance pour chaque classe). Cf l'image ci-jointe.
Pour mon travail (de data science), j'étudie le cas d'une classification binaire avec deux classes C1 et C2 et une seule "feature" x (variable aléatoire de dimension 1) à étudier. Je dispose de données (échantillons) x1, ..., xn et y1, ..., ym pour chaque classe et je modélise la distribution de chaque classe par une loi normale (pour cela je calcule la moyenne et la variance pour chaque classe). Cf l'image ci-jointe.
J'effectue une classification étant donné un nouvel exemple x en calculant le rapport de vraisemblance
$ L(x) = \frac{N(x, \mu_1, \sigma_1)}{N(x, \mu_2, \sigma_2)}$ où $N(x, \mu, \sigma)$ est la densité de probabilité d'une loi normale de moyenne $\mu$ et d'écart-type $\sigma$ évaluée au point x, puis en vérifiant si $L(x) > 1$ ou non.
Ma question est la suivante : je suis capable d'effectuer une classification avec la méthode du rapport de vraisemblance, mais il y a-t-il un moyen de calculer/modéliser la probabilité $p(x \in C_1 | L(x))$, ie. la probabilité que x soit dans la classe C1 étant donné le rapport de vraisemblance calculé précédemment ?
Je pense que mon vocabulaire est peut-être un peu flou et que j'ai peut-être oublié certaines notions de bases, mais je serais reconnaissant si quelqu'un a une idée ou peut m'aiguiller dans la bonne direction.
J'aurai peut-être quelques questions supplémentaires, mais pour le moment je suis plutôt intéressé par $p(x \in C_1 | L(x))$.
Je pense que mon vocabulaire est peut-être un peu flou et que j'ai peut-être oublié certaines notions de bases, mais je serais reconnaissant si quelqu'un a une idée ou peut m'aiguiller dans la bonne direction.
J'aurai peut-être quelques questions supplémentaires, mais pour le moment je suis plutôt intéressé par $p(x \in C_1 | L(x))$.
Bonne journée !
Remarque concernant l'image en pièce jointe : pour le moment je sais que j'ai peu de données et étant donné le fait que les deux gaussiennes se chevauchent pas mal, je ne m'attends pas à un excellent modèle ou un bon score de classification. Cependant ma question principale ne porte pas sur la performance du classifieur mais plutôt sur l'aspect théorique de la classification avec le test du rapport de vraisemblance.
Réponses
-
$\mathbb{P}(L(x) \leqslant z \mid x \in C_1) = p_{1}(z)$ est facile à calculer avec la loi normale $\mathcal{N}(\mu_1, \sigma_1)$, et $\mathbb{P}(x \leqslant z) = p_1(z)p_1' + p_2(z) (1 - p_1')$ avec le préjugé $\mathbb{P}(x \in C_1) = p_1'$ et $p_2(z) = \mathbb{P}(L(x) \leqslant z \mid x \in C_2)$. On applique la formule de Bayes pour obtenir la probabilité $\mathbb{P}(x \in C_1 \mid L(x) \leqslant z)$. Le critère de classification qui en découle, c'est l'inférence bayésienne, mais comme ça demande d'évaluer un préjugé a priori (et d'autres trucs), définir un critère arbitraire n'est pas forcément moins performant.
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.4K Toutes les catégories
- 63 Collège/Lycée
- 22.2K Algèbre
- 37.6K Analyse
- 6.3K Arithmétique
- 61 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 23 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.8K Géométrie
- 84 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 26 Mathématiques et finance
- 342 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 804 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres