Échantillonnage par les risques

patrickdfshr8
Modifié (24 Jan) dans Statistiques
Bonjour
Avis aux statisticiens et personnes familières avec l'optimisation :).
Je souhaiterais résoudre un problème analogue au suivant. Imaginons que nous disposons d'un dataset de 50000 lignes, nous souhaitons créer un échantillon de 25 lignes via une approche par les risques sur les champs C1, C2  et C3 et C4 du dataset. C'est-à-dire que nous souhaitons avoir au moins 50% de l'échantillon ayant la modalité M1C1 du champ C1, nous souhaitons que l'échantillon soit formé de 20% de la modalité M1C2 et 80% de la modalité M2C2 du champ C2 et  nous souhaitons avoir au moins 50% de la modalité M1C3 du champ C3 et enfin avoir 10% de la modalité M1C4, 20% de M2C4 et 70% de M3C4. Comment faire ?

Réponses

  • patrickdfshr8
    Modifié (24 Jan)
    Toutes les idées sont les bienvenus car je ne suis pas sûr qu'un tel problème ait une solution a analytique toute faite !
    Merci d'avance pour votre aide 🙏
  • 10% de 25 lignes, ça va faire 2,5 lignes. Je suppose que 2 lignes ou 3 lignes, c'est considéré comme conforme à l'objectif ?

    Ceci dit, comme on est dans le sous-forum statistiques, 25 lignes, c'est peu ; et 25 lignes avec autant de contraintes, c'est très peu

    La question serait plus adaptée dans un sous-forum 'algorithme'.
    Dans le dataset complet, est-ce que les proportions en question sont respectées ? Si oui, en tirant au hasard 20 lignes par exemple, tu vas arriver à des proportions proches de ce que tu cherches. Et ensuite, tu cherches à compléter l'échantillon en ajoutant des contraintes. Si au bout de 20 lignes, tu as seulement 40% de M3C4, tu sélectionnes ensuite des lignes avec la contrainte : uniquement des lignes ayant M3C4.

    C'est pas forcément terrible comme méthode. 
    Autre option : tu sélectionnes 25 lignes au hasard, et tu répètes l'expérience une centaine de fois. Et à la fin, tu conserves le tirage de 25 lignes qui correspond le mieux aux contraintes fixées.

    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
    L'hypocrisie est pire qu'une vérité qui fait mal. Franck Ntasamara.
Connectez-vous ou Inscrivez-vous pour répondre.