Approximation de la loi de X sachant Sn
dans Statistiques
Bonjour à tous
Je dispose d'une base de données composée d'environ 100 000 lignes. Chaque ligne correspond à une localisation géographique, et une même localisation peut apparaître plusieurs fois dans la base de données.
Il y a 3 colonnes : Identifiant localisation, Nombre de personnes (noté N), Coût total (noté Sn) (Montants strictement positifs et en euros). Je m'intéresse au coût individuel (noté X) (Coût par personne), mais je n'ai pas cette information, car tout ce que je dispose c'est de l'information agrégée Sn (correspondant au coût total).
Du coup ma question est : comment faire pour approximer ma colonne "Coût par personne", c'est-à-dire approximer la distribution (loi de proba) du coût individuel ??
J'ai pensé à la relation : "S_N = Somme des Xk pour k allant de 1 à N", puis ajuster une loi de proba aux observations de la colonne "Coût total" (Sn) , puis une loi discrète (de Poisson) au "Nombre de personnes" (N).
Je me suis dit qu'en regardant dans la littérature scientifique, je trouverai certains théorèmes permettant de simuler des observations de la loi individuelle à partir de celles de la loi agrégée, (l'inverse est beaucoup plus facile) mais rien n'y fait, je ne trouve pas ...
Une autre piste qui me fut venue à l'esprit a été de diviser la colonne (Sn) par la colonne (N), pour obtenir la colonne (Sn/n) (plus précisément : S_N/N ), ensuite d'ajuster des lois de proba sur celle-ci et d'en sélectionner la meilleure, la conclusion aurait été de dire que : cette loi est aussi celle qui s'ajusterait le mieux aux observations de X (pas très rigoureux).
En effet, on sait que : Si (Xk)k est une séquence de variables aléatoires (iid et de moments d'ordre 2) de moyenne (mu) et de variance (sigma^2), alors Sn est de moyenne : (n*mu) et de variance : (n*sigma^2), et donc (Sn/n) est de moyenne : (mu) et de variance : (sigma^2)/n , il y a donc déjà une discordance entre les variances de X et de (Sn/n), ce qui m'empêche d'aller plus loin.
Une troisième piste aurait été de considérer le TCL, et donc l'approximation gaussienne, mais j'aimerais éviter la loi normale si possible, car la loi normale n'est pas adaptée pour les coûts positifs en euros, elle va me simuler des coûts négatifs, ce qui n'est pas réaliste ...
Tout ça pour dire que je commence à manquer d'idées, et j'aimerais avoir le plus d'avis possibles. Merci d'avance.
Je dispose d'une base de données composée d'environ 100 000 lignes. Chaque ligne correspond à une localisation géographique, et une même localisation peut apparaître plusieurs fois dans la base de données.
Il y a 3 colonnes : Identifiant localisation, Nombre de personnes (noté N), Coût total (noté Sn) (Montants strictement positifs et en euros). Je m'intéresse au coût individuel (noté X) (Coût par personne), mais je n'ai pas cette information, car tout ce que je dispose c'est de l'information agrégée Sn (correspondant au coût total).
Du coup ma question est : comment faire pour approximer ma colonne "Coût par personne", c'est-à-dire approximer la distribution (loi de proba) du coût individuel ??
J'ai pensé à la relation : "S_N = Somme des Xk pour k allant de 1 à N", puis ajuster une loi de proba aux observations de la colonne "Coût total" (Sn) , puis une loi discrète (de Poisson) au "Nombre de personnes" (N).
Je me suis dit qu'en regardant dans la littérature scientifique, je trouverai certains théorèmes permettant de simuler des observations de la loi individuelle à partir de celles de la loi agrégée, (l'inverse est beaucoup plus facile) mais rien n'y fait, je ne trouve pas ...
Une autre piste qui me fut venue à l'esprit a été de diviser la colonne (Sn) par la colonne (N), pour obtenir la colonne (Sn/n) (plus précisément : S_N/N ), ensuite d'ajuster des lois de proba sur celle-ci et d'en sélectionner la meilleure, la conclusion aurait été de dire que : cette loi est aussi celle qui s'ajusterait le mieux aux observations de X (pas très rigoureux).
En effet, on sait que : Si (Xk)k est une séquence de variables aléatoires (iid et de moments d'ordre 2) de moyenne (mu) et de variance (sigma^2), alors Sn est de moyenne : (n*mu) et de variance : (n*sigma^2), et donc (Sn/n) est de moyenne : (mu) et de variance : (sigma^2)/n , il y a donc déjà une discordance entre les variances de X et de (Sn/n), ce qui m'empêche d'aller plus loin.
Une troisième piste aurait été de considérer le TCL, et donc l'approximation gaussienne, mais j'aimerais éviter la loi normale si possible, car la loi normale n'est pas adaptée pour les coûts positifs en euros, elle va me simuler des coûts négatifs, ce qui n'est pas réaliste ...
Tout ça pour dire que je commence à manquer d'idées, et j'aimerais avoir le plus d'avis possibles. Merci d'avance.
Réponses
-
En gros, tu veux savoir comment passer de la loi de $S = \sum_{k=1}^{N} X_k$ avec les $X_k$ iid, et $N\hookrightarrow\mathcal{P}(\lambda)$ à la loi de $X_1$, sans connaître $\lambda$, et sans avoir le droit d'observer $N$, c'est ça ?
::o Ça n'a pas l'air très facile, c'est tout ce que je vois à dire ! -
Oui, mais je dispose de la colonne "Nombre de personnes" qui contient des observations réelles de N, donc c'est bien cette question que je me pose, mais en connaissant La loi de N (donc lambda). Avec des tests statistiques, j'ai trouvé que N pouvait suivre une loi de Poisson(lambda=1200), mais aussi une loi Binomiale Négative ...
-
Une loi de Poisson avec $\lambda = 1200$ ?! Ça ressemble très très fort à la partie entière d'une loi normale, alors !
Il n'y a quasiment aucune chance que ton $N$ sorte de l'intervalle $[1100,1300]$.
Peut-être que tu peux essayer la méthode de Newton : tu pars d'une distribution quelconque pour ta loi de $X$, et tu essayes de l'améliorer que ton $S$ se rapproche de la distribution que tu observes ? -
Bonjour Maxwell.
Pourquoi la loi de la distribution des valeurs individuelles serait-elle une loi connue, ou même proche d'une loi connue ? Même le fait d'avoir les sommes ne permet pas d'avancer, la répartition individuelle pouvant dépendre de N.
Exemple : Un restaurant a noté, table par table, le total payé et le nombre de convives. Pour une table de 4, ayant payé 200€, on peut aussi bien avoir un seul qui paie (il a invité les trois autres, ou c'est une famille), 4 qui paient 50€, mais aussi 3 qui paient 40 € et un qui paie le vin en plus de sa part et donne 80 €. Par contre, pour une tablée de 12 à 20, il sera bien plus fréquent que chacun paie sa part (égale, ou peu différente suivant les situations).
Il faut donc avoir des connaissances supplémentaires, pas nécessairement statistiques, pour pouvoir passer du global à l'individuel.
Technique de statisticien : passer à des moyennes. On n'aura pas un modèle de coût individuel, mais un modèle de coût individuel moyen, utilisable dans pas mal de cas.
Cordialement. -
Bonjour marsup et gerard0,
Merci beaucoup pour vos réponses. Alors en effet, je suis actuellement sur la piste du modèle de coût individuel moyen (Sn/n) : en divisant Sn par N. Et je me demandais si vous connaissiez une ou des approximations plus exactes que celle-ci, car j'avais en tête que :
Var(Sn/n)<Var(Xk), et donc que ma distribution du coût moyen sous-estimerait le risque (ici la volatilité) du coût individuel réel.
Pour l'instant, je vais tester la solution de marsup, bon ça reste du tatonnage et ça risque d'être long, mais la question est en effet très difficile, et il est toujours possible que la distribution réelle ne soit même pas proche d'une loi connue, (mais à la limite, il me faudrait juste une manière de simuler ces coût individuels, même si le processus de simulation ne passe pas par une loi connue.)
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.1K Toutes les catégories
- 60 Collège/Lycée
- 22.1K Algèbre
- 37.5K Analyse
- 6.3K Arithmétique
- 58 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 20 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.7K Géométrie
- 83 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 337 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 801 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres