Nombre d'individu d'un échantillon (inconnu)

Bonjour à tous
Je viens vers vous pour vous soumettre un problème de statistique qui j'espère paraîtra simple à certaines personnes. Je vais commencer par une approche générale pour poser ma question avec un exemple simple puis complexifié.

Objectif. Déterminer le nombre d'individus nécessaires dans un échantillon pour que celui-ci soit représentatif (comparer à un nombre infini d'individus) dont on ne connaît rien (ni la moyenne ni la variance visée). Le travail est réalisé avec des variables quantitatives.

Exemple simple. Je prends une très très grande boîte de chocolat (nombre infini de chocolats), je prends un chocolat à la fois et je le pèse (j'obtiens la variable quantitative "masse"), à chaque nouveau chocolat que je rajoute dans mon échantillon je peux recalculer différentes valeurs (ou réaliser différents tests si nécessaire). Je souhaite connaître le poids moyen des chocolats de la boîte avec une erreur de 5%, y a-t-il un moyen de savoir quand je peux m'arrêter au plus tôt (je n'ai aucune estimation de ce qu'il y a comme chocolats dans la boîte, donc pas d'estimation a priori de la variance ou de la moyenne) ?

Si oui, je souhaiterais traiter un cas similaire où l'enjeu est plus important (dans l'exemple ci-dessus la pesée de chaque chocolat me prends 20 minutes). Je travaille avec des données réelles (physique) je m'intéresse non pas à la moyenne mais à la médiane de mon échantillon afin que la valeur que je conserve corresponde à : 50% sont en dessous et 50% sont au-dessus. Ce choix (de la médiane) est réalisé, car pour un échantillon de grande taille les valeurs quantitatives obtenues suivent une loi asymétrique (la moyenne est physiquement moins représentative que la médiane).

Question générale. S'il existe une méthode pour traiter l'exemple simple (ci-dessus) pouvez-vous m'orienter vers elle ? Si tel est le cas, est-elle applicable en regardant la médiane (ou tout autre centile) et non plus la moyenne ?

Vous remerciant par avance de l'aide que vous voudrez bien m'apporter.
Gamabonta

Réponses

  • Bonjour.

    En statistique, le mot représentatif veut simplement dit "pris au hasard" (éventuellement avec la méthode des quotas); il ne peut pas signifier "dont la répartition est exactement celle de la population" (comme on le croit souvent) parce que c'est généralement impossible mathématiquement (comment représenter deux moitiés avec 3 individus), mais aussi parce que ça demande une connaissance totale de la population, et dans ce cas on n'a pas besoin d'échantillon !!

    Dans de bonnes circonstances, un échantillon représentatif étant à choisir, on peut calculer une taille permettant d'assurer à priori une probabilité donnée (par exemple 95%), la "confiance", pour que la valeur calculée dans l'échantillon soit à moins de $e$ de la vraie valeur ($e$ est l'erreur admise, à cette confiance). Pour la moyenne dans la population, estimée par la moyenne de l'échantillon, on trouve des formules toutes faites dans les bouquins et sur Internet. Mais la loi de la moyenne d'un échantillon est très simple.
    Pour la médiane, c'est moins évident, et ça dépend très fortement de la distribution des valeurs dans la population. Tu peux voir dans ce document la complexité de la situation, avec un estimateur simple (la médiane de l'échantillon). Et l'échantillon est donné; remonter de la confiance et l'erreur admise à la taille de l'échantillon est loin d'être évident.

    Donc non, ton problème n'est pas simple. Utiliser les services d'un statisticien professionnel (ce que je ne suis pas) semble une bonne idée.

    Cordialement.
  • Bonjour gerard0,

    Je vous remercie pour votre réponse, le lien et votre aide.
    Si jamais vous avez des références à me conseiller concernant ce sujet n'hésitez pas. Si toutefois vous reconnaissez le problème que j'expose dans des termes plus statistique que les miens je suis preneur afin de réaliser de plus amples recherches sur l'état de l'art.

    Cordialement
    Gamabonta
  • Il y a aussi quelques billes au sujet de la médiane empirique sur Wikipedia : https://en.wikipedia.org/wiki/Median#Medians_for_samples
Connectez-vous ou Inscrivez-vous pour répondre.