Vecteurs de fréquences

Georges Abitbol
Modifié (December 2022) dans Statistiques
Bonjour,
ma question est un peu vague. J'ai bouquiné un certain nombre de livres de statistiques, et j'ai quelques idées vagues sur à peu près pas mal de choses. Cependant, j'ai un problème un peu concret et j'aimerais savoir quels modèles et techniques vous sembleraient appropriés.
Soit $X$ un ensemble fini. Un individu est une sorte de texte écrit dans l'alphabet $X$, mais, pour l'instant, je vais oublier l'ordre des mots et je ne vais retenir que le compte des mots, i.e. un individu sera représenté par une application $X \rightarrow \mathbb{N}$ qui compte, pour chaque $x$, le nombre de fois où $x$ apparaît.
Bien sûr, l'ensemble des individus se plonge dans $X^\mathbb{R}$ et je peux calculer des corrélations grâce au produit scalaire naturel, i.e. calculer $\langle f,g\rangle := \sum_{x \in X} f(x) g(x)$. Mais j'ai l'impression que ce genre de techniques, disons, vectorielles, manquent un peu la spécificité de mes vecteurs qui sont des vecteurs de nombres d'occurrences : par exemple, ils sont tous positivement corrélés les uns avec les autres... Mais c'est trivial !
Qu'en pensez-vous ? Connaissez-vous tout simplement des mots-clefs qui me permettraient de chercher moi-même ?

Réponses

  • gerard0
    Modifié (December 2022)
    Bonjour.
    Tu veux chercher quoi, exactement. Car pour l'instant, tu ne parles que d'une évidence : dans une population la somme des fréquences est 1. Ce qui se rencontre partout en statistiques.
    Cordialement.
  • Georges Abitbol
    Modifié (December 2022)
    Ben, je voudrais déjà arriver à voir plus clair dans mes données. J'ai calculé les produits scalaires et n'y vois pas grand chose. Si j'arrivais à les regrouper en petits groupes, je serais content.
    Ce que je voulais dire, c'est que j'ai lu des choses sur des techniques qui marchent sur des vecteurs qui sont plus ou moins gaussiens. Par exemple, j'ai lu des algorithmes qui permettent de séparer des nuages de points gaussiens (i.e. si j'ai plein de réalisations d'une loi $\mathcal{N}(\mu_1,\Sigma_1))$, et plein de réalisations d'une loi $\mathcal{N}(\mu_2,\Sigma_2)$, comment décider, pour un point donné, si c'est une réalisation de la première loi ou de la deuxième, enfin bref c'est juste pour l'exemple).
    Mais je n'ai pas lu, par exemple, de techniques qui sont spécialement adaptées à des vecteurs dont tous les coefficients sont positifs !
    J'ai l'idée vague que plus un problème est spécifique, plus les techniques sont perfectionnées. Je ne connais l'existence que de techniques pour des problèmes avec des vecteurs quelconques, et mes vecteurs à moi ont tous leurs coefficients positifs, c'est quand même quelque chose !
    Voici une remarque toute bête pour te montrer un peu ce qui me chafouine : si j'ai une matrice à coefficients positifs, et que je calcule sa décomposition en valeurs singulières, je risque fort d'avoir des coefficients négatifs dans mes vecteurs singuliers. Avant, les coefficients de mes vecteurs, en tant que nombres positifs, portaient un sens (ils "comptaient" quelque chose), et après, ce sens est "perdu".
    En outre, j'imagine que, par exemple, pour l'analyse du langage, il doit y avoir des modèles intéressants : si $X$ est l'ensemble des mots du français, il me semble que le fait qu'un texte contienne le mot "homéomorphisme" renseigne beaucoup plus sur son contenu que le fait qu'il contienne le mot "est". Est-ce qu'il y a des modèles qui prédisent que certains mots apparaissent très peu fréquemment mais sont porteurs de sens ?
    Enfin, je suis d'accord que ma question est un peu vague, mais je trouve ton ton un peu sec (c'est peut-être mon rhume qui me fait tout voir en gris, cela dit) et je n'ai pas très envie de me faire gronder de si bon matin.
  • gerard0
    Modifié (December 2022)
    Ah non, mon message ne se voulait pas sec, mais seulement désireux de mieux comprendre.
    Là, je vais être un peu vide : l'analyse du langage n'est pas une partie des stats que j'ai fréquentée.
    Les techniques de segmentation des données s'appliquent bien en dehors des cas gaussiens (heureusement !), mais j'ai peur qu'elles ne donnent que des évidences. Le nom statistique est "analyse discriminante". Il y a peut-être aussi les "méthodes de classification".
    Cordialement.
  • Bonjour,
    Tu t'es intéressé aux techniques de NLP (c'est de l'IA, donc potentiellement des stats) ?
  • Pour ta dernière question sur le langage, tu peux t'intéresser aux techniques de type "TF-IDF"
  • Merci à vous, les mots-clefs que vous m'avez donnés me permettent déjà de faire une jolie promenade sur Wikipédia !
  • @noobey : J'ai essayé de calculer mes corrélations en pondérant par des poids de type "inverse de la fréquence parmi les documents" et ça les a accentuées (ce à quoi j'aurais dû m'attendre :D). Merci bien !
Connectez-vous ou Inscrivez-vous pour répondre.