Simulation : approximation d'une variable aléatoire X continue par une variable aléatoire Y discrète

maxwell
Modifié (May 2022) dans Statistiques
Bonsoir à tous,
Je voudrais simuler des réalisations d'une certaine variable aléatoire continue, la variable aléatoire X en question est continue et à valeurs dans l'intervalle [ 100 000 , p [ (p est ici un seuil max). Ainsi, il y aura deux cas :
a) p fini
b) p infini

Concernant les informations que j'ai à disposition pour simuler X, celles-ci ne me permettent pas de faire le processus habituel de simulation... Mais je vais vous les expliciter quand même.
Pour le cas a), je dispose de la moyenne et de l'écart type de X, et j'ai en plus le graphique suivant (joint ci-dessous). Ce graphique est issu d'une série d'observations (x1, ... , xn) d'une variable aléatoire X dont je ne dispose pas. Tout ce que j'ai c'est ce graphique sur la répartition de X (+ moyenne et écart type de X). On remarque par ailleurs que dans ce cas : p = 800 000


Pour le cas b) Idem j'ai les mêmes infos, et c'est quasiment le même graphique, sauf pour la dernière tranche car : p = Infini

Pour le cas a). Une simulation approximative de X par une variable Y discrète est assez facile à faire. (Comme j'ai les intervalles et les probabilités d'appartenance dans chacun des intervalles, je peux donc simuler une variable discrète Y qui prend comme valeurs finies les milieux des intervalles respectifs avec leur probas correspondante) et je peux dire que les réalisations de Y serait une approximation (plus ou moins bonne) de celles de X.
Mon problème, c'est que je ne sais pas comment faire pour le cas b). Étant donné que le seuil p n'est pas fini, cela pose problème pour la dernière tranche. Sans maximum, l'étendue de mon dernier intervalle est inconnue, et j'en déduis que ma question n'a pas de réponse, le cas b) est impossible à simuler. Est-ce bien le cas ?
Ensuite, je me demande si la simulation de X pour le cas b) est-elle toujours impossible à résoudre si je connais en plus :    E(X) et Var(X) ?
En fait, je pensais à tester/simuler Y selon différents seuils p finis, de façon à ce que :  E(Y) = E(X) & Var(Y) = Var(X), Est-ce une bonne piste ?
Merci d'avance pour vos réponses.

Réponses

  • Cere
    Modifié (May 2022)
    Si ton problème est le suivant.
    Peut-on simuler une variable aléatoire à valeurs réelles non bornées, par une variable aléatoire discrete
    Alors la réponse est oui, en utilisant la fonction de répartition empirique : méthode du bootstrap. 
    https://fr.wikipedia.org/wiki/Fonction_de_répartition_empirique
    Je pourrai détailler si besoin, une fois que j'aurai bien compris ton problème.
  • gerard0
    Modifié (May 2022)
    Bonjour.
    Avec les informations que tu as, tu peux remplacer la borne infinie par une borne finie. Éventuellement très grande. Car la moyenne interdit d'avoir des valeurs infinies. Par exemple avec deux classes, 10 individus dans [0,100[ et 12 dans [100,+oo[ et une moyenne de 200, les 10 contribuent au total des valeurs (200(10+12) = 4400) pour 10*50 = 500. Les 12 représentent donc 3900, ce qui, dans la pire des situation (11 à 100 et 1 plus grand) donnent 11*100+2800 = 3900. Donc tu es sûr que le deuxième intervalle est [100,2800], si la moyenne des 10 est bien 50. Si elle est plus faible, il faudra augmenter 2800; au pire (10 valeurs à 0, 11 à 100), on aura 10*0+11*100+3300 = 4400, et l'intervalle [100, 4400] convient.
    Par contre, sans information sur la répartition dans les classes, l'hypothèse classique n'est pas "toutes les valeurs au centre de classe", mais "répartition uniforme dans la classe". C'est ce que j'avais pris pour prendre 50 de moyenne pour les 10. Vu ton histogramme, ce n'est pas très réaliste.
    Cordialement.
  • maxwell
    Modifié (May 2022)
    Merci beaucoup gerard0, c'est effectivement une bonne méthode pour déduire jusqu'où on peut mettre la borne finie pour la dernière tranche, je valide.
    Pour de la répartition des valeurs à l'intérieur d'une classe [a,b]... Ce que vous me dites en gros, c'est que si on veut tirer 10 valeurs dans [a,b] sans connaitre sa vraie répartition, alors c'est mieux de prendre l'hypothèse uniforme, et de tirer 10 valeurs selon la loi U([a,b]) plutôt que de tirer 10 valeurs fixes égales à (a+b)/2 ?
  • gerard0
    Modifié (May 2022)
    Oui, car si on utilise une statistique par intervalles, c'est que les modalités sont nombreuses et peuvent prendre de très nombreuses valeurs. Donc à priori, plutôt réparties sur l'intervalle que concentrée sur son centre. Dans ton cas, on sent bien qu'une répartition uniforme dans les intervalles trahit une tendance nette à la décroissance, Mais c'est parfois difficile à corriger.
    C'est pourquoi les statisticiens, maintenant qu'on a des ordinateurs rapides, travaillent autant que possible avec toutes les valeurs, quitte à choisir un modèle adapté pour globaliser.
    Cordialement.
  • Bonjour Gerard0,

    Désolé de relancer ce sujet, mais finalement, je ne pense pas avoir compris ta phrase « Dans ton cas, on sent bien qu'une répartition uniforme dans les intervalles trahit une tendance nette à la décroissance »……qu’est-ce que tu voulais dire par là ?

    Quand vous parlez de tendance nette à la décroissance, vous parlez bien de la forme de mon histogramme (à savoir que plus on va vers de grandes valeurs de X, plus elles seront rares) ?

    Mais en quoi l’hypothèse d’une répartition uniforme (ou non) au sein des classes trahit cette tendance globale à la décroissance ? Corrigez moi si je me trompe, mais les proportions associées à chaque classe de X sont insensibles à la façon dont sont répartis les valeurs au sein d’une même classe donnée, et donc pour moi la tendance à la décroissance sera conservée.

  • gerard0
    Modifié (August 2022)
    Globalement, oui, mais localement, sur l'intervalle, non.
    S'il y a 5 valeurs entre 1 et 2, qui sont 1, 1,1, 1,25, 1,4, 1,8, dire qu'on les représente par 5 valeurs 1,5 fausse le résultat.
    Le choix de la répartition uniforme est en moyenne le moins mauvais choix, mais pas le bon choix.
    Cordialement.
  • Merci beaucoup, je viens de comprendre votre phrase.
Connectez-vous ou Inscrivez-vous pour répondre.