Vecteurs de fréquences
Bonjour,
ma question est un peu vague. J'ai bouquiné un certain nombre de livres de statistiques, et j'ai quelques idées vagues sur à peu près pas mal de choses. Cependant, j'ai un problème un peu concret et j'aimerais savoir quels modèles et techniques vous sembleraient appropriés.
ma question est un peu vague. J'ai bouquiné un certain nombre de livres de statistiques, et j'ai quelques idées vagues sur à peu près pas mal de choses. Cependant, j'ai un problème un peu concret et j'aimerais savoir quels modèles et techniques vous sembleraient appropriés.
Soit $X$ un ensemble fini. Un individu est une sorte de texte écrit dans l'alphabet $X$, mais, pour l'instant, je vais oublier l'ordre des mots et je ne vais retenir que le compte des mots, i.e. un individu sera représenté par une application $X \rightarrow \mathbb{N}$ qui compte, pour chaque $x$, le nombre de fois où $x$ apparaît.
Bien sûr, l'ensemble des individus se plonge dans $X^\mathbb{R}$ et je peux calculer des corrélations grâce au produit scalaire naturel, i.e. calculer $\langle f,g\rangle := \sum_{x \in X} f(x) g(x)$. Mais j'ai l'impression que ce genre de techniques, disons, vectorielles, manquent un peu la spécificité de mes vecteurs qui sont des vecteurs de nombres d'occurrences : par exemple, ils sont tous positivement corrélés les uns avec les autres... Mais c'est trivial !
Bien sûr, l'ensemble des individus se plonge dans $X^\mathbb{R}$ et je peux calculer des corrélations grâce au produit scalaire naturel, i.e. calculer $\langle f,g\rangle := \sum_{x \in X} f(x) g(x)$. Mais j'ai l'impression que ce genre de techniques, disons, vectorielles, manquent un peu la spécificité de mes vecteurs qui sont des vecteurs de nombres d'occurrences : par exemple, ils sont tous positivement corrélés les uns avec les autres... Mais c'est trivial !
Qu'en pensez-vous ? Connaissez-vous tout simplement des mots-clefs qui me permettraient de chercher moi-même ?
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Tu veux chercher quoi, exactement. Car pour l'instant, tu ne parles que d'une évidence : dans une population la somme des fréquences est 1. Ce qui se rencontre partout en statistiques.
Cordialement.
J'ai l'idée vague que plus un problème est spécifique, plus les techniques sont perfectionnées. Je ne connais l'existence que de techniques pour des problèmes avec des vecteurs quelconques, et mes vecteurs à moi ont tous leurs coefficients positifs, c'est quand même quelque chose !
Là, je vais être un peu vide : l'analyse du langage n'est pas une partie des stats que j'ai fréquentée.
Cordialement.
Tu t'es intéressé aux techniques de NLP (c'est de l'IA, donc potentiellement des stats) ?