Échantillonnage par les risques
Bonjour
Avis aux statisticiens et personnes familières avec l'optimisation .
Je souhaiterais résoudre un problème analogue au suivant. Imaginons que nous disposons d'un dataset de 50000 lignes, nous souhaitons créer un échantillon de 25 lignes via une approche par les risques sur les champs C1, C2 et C3 et C4 du dataset. C'est-à-dire que nous souhaitons avoir au moins 50% de l'échantillon ayant la modalité M1C1 du champ C1, nous souhaitons que l'échantillon soit formé de 20% de la modalité M1C2 et 80% de la modalité M2C2 du champ C2 et nous souhaitons avoir au moins 50% de la modalité M1C3 du champ C3 et enfin avoir 10% de la modalité M1C4, 20% de M2C4 et 70% de M3C4. Comment faire ?
Avis aux statisticiens et personnes familières avec l'optimisation .
Je souhaiterais résoudre un problème analogue au suivant. Imaginons que nous disposons d'un dataset de 50000 lignes, nous souhaitons créer un échantillon de 25 lignes via une approche par les risques sur les champs C1, C2 et C3 et C4 du dataset. C'est-à-dire que nous souhaitons avoir au moins 50% de l'échantillon ayant la modalité M1C1 du champ C1, nous souhaitons que l'échantillon soit formé de 20% de la modalité M1C2 et 80% de la modalité M2C2 du champ C2 et nous souhaitons avoir au moins 50% de la modalité M1C3 du champ C3 et enfin avoir 10% de la modalité M1C4, 20% de M2C4 et 70% de M3C4. Comment faire ?
Réponses
-
Toutes les idées sont les bienvenus car je ne suis pas sûr qu'un tel problème ait une solution a analytique toute faite !
Merci d'avance pour votre aide 🙏 -
10% de 25 lignes, ça va faire 2,5 lignes. Je suppose que 2 lignes ou 3 lignes, c'est considéré comme conforme à l'objectif ?
Ceci dit, comme on est dans le sous-forum statistiques, 25 lignes, c'est peu ; et 25 lignes avec autant de contraintes, c'est très peu.
La question serait plus adaptée dans un sous-forum 'algorithme'.
Dans le dataset complet, est-ce que les proportions en question sont respectées ? Si oui, en tirant au hasard 20 lignes par exemple, tu vas arriver à des proportions proches de ce que tu cherches. Et ensuite, tu cherches à compléter l'échantillon en ajoutant des contraintes. Si au bout de 20 lignes, tu as seulement 40% de M3C4, tu sélectionnes ensuite des lignes avec la contrainte : uniquement des lignes ayant M3C4.
C'est pas forcément terrible comme méthode.
Autre option : tu sélectionnes 25 lignes au hasard, et tu répètes l'expérience une centaine de fois. Et à la fin, tu conserves le tirage de 25 lignes qui correspond le mieux aux contraintes fixées.
Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
L'hypocrisie est pire qu'une vérité qui fait mal. Franck Ntasamara.
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.1K Toutes les catégories
- 58 Collège/Lycée
- 22.1K Algèbre
- 37.5K Analyse
- 6.3K Arithmétique
- 58 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 20 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.7K Géométrie
- 83 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 337 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 801 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres