Estimation nombre relatif

Bonjour à tous,

Un sondage a été effectué sur un échantillon représentatif de 300 personnes. La population cible est 360.
159 personnes déclarent qu'ils savent maintenant identifier leurs besoins.
Ma question.
Puis-je n'utiliser que des pourcentages ou puis-je utiliser aussi des nombres relatifs pour faire des estimations sur la population cible ?
Bien à vous.

Réponses

  • Bonjour.

    Ta question n'est pas claire : que veux-tu dire par "nombres relatifs" ? (En général, ce sont les entiers positifs et négatifs qu'on appelle ainsi en maths).
    Autre chose : Un sondage "représentatif" sur 300 des 360 personnes ??? Bizarre !

    Si tu fais un exercice, quel est l'énoncé exact ?

    Cordialement.
  • Bonjour,

    Merci beaucoup pour la réponse !
    Ce que j'entendais par là, c'est que lorsqu'on a un échantillon, on peut utiliser un pourcentage avec une marge d'erreur pour pouvoir l'appliquer à la situation réelle.
    Ma question était en définitive est-ce que je pourrais utiliser le nombre 159 dans mon cas pour l'appliquer à la situation réelle ?
    J'espère avoir été plus clair...

    Bien à vous
  • Je ne comprends toujours pas ! Le 159, tu l'as bien utilisé pour présenter ta question ... Et si tu calcules un pourcentage, tu vas bien le calculer avec 159.

    Explique vraiment ce que tu veux faire, je ne comprends toujours pas.
  • Bonsoir,

    Merci encore de la réponse. Je suis bien désolée de ne pas arriver à me faire comprendre.
    Ce que je voulais savoir c'est :
    Si j'ai 159 sur 300 personnes qui sont d'accord avec une affirmation dans mon échantillon
    Est-ce que je peux faire comme une règle de trois pour dire que ramené à la population totale j'ai 150*360/300 =180 sur 360 personnes qui sont d'accord avec l'affirmation ?

    J'espère que maintenant c'est vraiment plus clair.

    Bien à vous
  • C'est très clair à présent, et non tu ne peux pas.

    Tu peux dire que SI la proportion de gens d'accord reste identique, alors tu as 180 personnes sur 360 qui seront d'accord.

    Tu peux aussi dire que ramener à 360 personnes sélectionnées selon la même distribution que tes 300 personnes de départ, tu auras probablement 180 personnes environ qui seront d'accord. J'ai mis deux mots en gras, les deux sont importants. L'un dit que ce n'est pas sûr, l'autre dit qu'en plus ce sera pas exactement la même proportion, en gros y a de bonnes chances que la proportion soit à peu près la même, et une "petite" chance que la proportion n'ait rien à voir.

    Plus ton ratio initial est estimé avec beaucoup de monde, plus il est précis, mais il y aura toujours une incertitude même si elle se réduit. On peut calculer des intervalles de confiance si on veut des résultats quantitatifs.
  • Effectivement, c'est clair,

    et je suis d'accord avec Zbf que "non tu ne peux pas".180 (*) est une estimation du nombre de personnes qui "savent maintenant identifier leurs besoins", mais pas le nombre exact (sauf "coup de chance").
    Par contre dans cette situation, tu sais avec certitude que ce nombre exact est entre 159 (les 60 qui n'ont pas été interrogés ne savent pas) et 219 (les 60 savent tous).

    Cordialement.

    NB : Je m'interroge toujours sur cet "échantillon représentatif" de grande taille.

    (*) en fait, 190,8 puisque 159/300*360 = 190,8.
  • Merci encore pour la patience de me répondre.
    Les intervalles de confiances se calculent -ils comme ceci :
    x plus ou moins t * sigma/racine carrée(n) ?
    avec
    x serait égal à 190,8 (Merci gerard0 pour la correction) ici?
    t serait égal à 1,96 si je veux 95% de confiance
    sigma est l'écart type de la population mais je ne comprends pas comment je peux calculer cette valeur
    n taille de l'échantillon donc dans mon cas 360

    Bien à vous
  • C'est à peu près ça en effet pour une loi de Bernoulli (ce qui est ton cas) avec suffisamment de personnes interrogées.

    Tu as les formules ici pour avoir le détail https://fr.wikipedia.org/wiki/Intervalle_de_confiance#Sondage_d'opinion.
  • Zbf : Encore une erreur : Tu as dit que la taille de l'échantillon est 300.

    Attention : Pour un sondage sans réinterrogation (*), la formule "x plus ou moins t * sigma/racine carrée(n)" ne convient que si la population est de taille très supérieure à l'échantillon (échantillon "petit"), car la loi du nombre de réponses (loi hypergéométrique) ne s'approxime plus en loi binomiale, elle-même approximée ensuite par la loi Normale.

    Ce qui me ramène à une question basique : D'où sort ce problème ? Si on ne le sait pas, on va donner des réponses fausses ou même absurdes.
    Sans une réponse franche, Zbf, tu nous interdit de te répondre correctement. C'est ce que tu cherches ?

    Cordialement.

    (*) comme ça semble être le cas ici : on interroge 300 personnes, pas 300 fois une personne au hasard parmi les 360, ce qui ferait que certains seraient interrogés 2 fois, voire 3 ou plus !
  • Merci beaucoup de vos réponses.
    Le problème vient d'une situation réelle. Une entreprise a fait un échantillon de 300 personnes pour une population cible de 360.
    Je me demande comment extrapoler les résultats.

    Donc gerard0, il s'agirait finalement plus d'une loi normale que [large]B[/large]ernoulli ?
    Bien à vous.

    [ Bernoulli prend toujours une majuscule et jamais de 'i' avant ses 'll'. AD]
  • Comme il n'y a aucune chance que l'échantillon soit représentatif, on ne peut pas avancer sans savoir pourquoi seulement 300 personnes sont interrogées et pas 360; sans avoir de connaissances sur les 60 qui manquent (refus de répondre ? Car en colère parce qu'il n'y arrivent pas ? ...).
    la seule chose saine à priori est " ce nombre exact est entre 159 ... et 219".

    Cordialement.
  • Merci beaucoup gerard0.
    Si dans une utopie, cet échantillon était représentatif, ça aurait été la loi normale alors qui s'appliquerait c'est bien cela que vous disiez non?
  • Non, absolument pas !

    Bien lire : " car la loi du nombre de réponses (loi hypergéométrique) " Donc ce n'est pas la loi Normale !
    " ne s'approxime plus en loi binomiale, elle-même approximée ensuite par la loi Normale." Lire le "ne .. plus" !!

    Je disais bien que dans le cas hypothétique où les 300 personnes auraient été choisies au hasard parmi les 360, la loi Normale ne s'applique pas !
  • Merci beaucoup pour la précision. Ca serait alors la loi hypergéométrique qu'il faudrait alors prendre.
  • Oui et c'est un cas peu utilisé par les statisticiens.
    Si j'ai du temps je regarderai comment trouver un estimateur, sans doute par maximum de vraisemblance.
  • Merci beaucoup.
    J'en serais très intéressée.
  • Voilà.

    Comme on pouvait s'y attendre (*), l'estimateur du maximum de vraisemblance pour 159 oui sur 300 donne, pour une population de 360 la valeur 191 (ce n'est pas un arrondi).
    Je n'ai pas trop d'idée simple pour trouver un intervalle de confiance. Les calculs sur ce genre d'estimateur sont assez difficiles.

    Cordialement.

    (*) 159/300*360 =190,8
  • Bonjour,
    c'est peut-être un peu tard, mais je vais quand même répondre avec ce que j'ai compris de la situation.
    Nous avons une population totale de 360 personnes, dont $x$ sont "positifs" (on enquête sur $x$).
    Dans un échantillon de taille 300, il est observé 159 "positifs".
    Questions : déterminer un intervalle de confiance pour $x$.

    D'abord, il est simple de calculer en fonction de $x$ la probabilité d'avoir $f$ individus "positifs" dans un échantillon de taille 300 :
    $\displaystyle P(x, f) = {\frac {{x\choose f}{360-x\choose 300-f}}{{360\choose 300}}} $

    Pour connaitre le maximum de vraisemblance dans la situation de 159 "positifs" dans l'échantillon, il suffit de calculer $P(x, 159)$ pour tout $x$ :
    aaa10.gif
    On voit que 191 est bien le maximum, et que la valeur de $x$ est "raisonnablement" comprise entre 181 et 201.

    Comme on connait parfaitement $P(x,f)$, on peut calculer des intervalles de fluctuation pour un seuil $s$ fixé, pour une valeur de $x$ fixée.
    A défaut de davantage d'informations sur la situation concrète, on peut choisir des intervalles de fluctuation de longueur minimale.
    Par exemple, pour la variable $f$,
    l'intervalle de fluctuation à 95% avec $x=183$ est $[146 ; 159]$ ; et avec $x=199$, l'intervalle est $[159, 172]$ ;
    l'intervalle de fluctuation à 80% avec $x=185$ est $[150 ; 159]$ ; et avec $x=196$, l'intervalle est $[159, 168]$ ;

    De là, compte tenu du fait qu'on a un échantillon contenant 159 "positifs", on en déduit pour $x$ :
    l' intervalle de confiance [183, 199] à 95% ;
    l' intervalle de confiance [185, 196] à 80% .


    Graphiquement, en fonction du niveau de confiance, on a l'abaque suivant précisant un intervalle de confiance pour $x$ :
    rrr11.gif
    en abscisse, le niveau de confiance ;
    en rouge, la borne inférieure de l'intervalle de confiance,
    en vert, la borne supérieure de l'intervalle de confiance.
  • Si on oublie que choisir 300 personnes différentes parmi 360, n'est pas du tout pareil que choisir (avec remise) 300 fois une personne parmi 360 (loi binomiale, approchée par loi normale) , alors on obtient des intervalles de confiance faux ...et bien plus grands. Double peine :)
  • Merci beaucoup de vos réponses.
    Magnifique démonstration.
    J'aurais aimé reproduire ce même graphique. J'ai essayé avec Rstudio mais j'ai une erreur. Avec quel logiciel avez-vous réussi à calculer P(x,159).

    Cordialement,
  • Bonjour

    J'ai fait tous ces calculs avec le logiciel maple (un logiciel de calculs mathématiques comme un autre), mais en découpant astucieusement le calcul des coefficients binomiaux avec des multiplications et des divisions, tout logiciel programmable doit y arriver.
  • Bonjour,

    Merci de votre réponse.
    J'ai réussi à le faire avec RStudio finalement.
    En revanche, quelle formule utilisez-vous pour l'intervalle de confiance ?

    Cordialement,
  • Comme j'ai essayé d'expliquer, ce n'est pas une formule que j'ai appliquée : je suis revenu à la définition des intervalles de confiances.

    Il est bon d' établir d'abord des intervalles de fluctuation (dont je n'ai pas de formule non plus) en supposant $x$ connu fixé, et $f$ variable.

    Tous les calculs se font par ordinateur.
  • Merci beaucoup.
    J'aurais tellement voulu en faire de même.
    Pour quelle raison avez-vous fixé avec x=183 et x = 199 pour l'intervalle de fluctuation à 95%?

    Cordialement,
  • Votre question judicieuse !

    En fait, pour chaque $x$, l'ordi a calculé un intervalle de fluctuation à $95\%$. Notons cet Intervalle de fluctuation par $IF(x)$.
    Parmi tous les intervalles $IF(x)$, certains d'entre eux contiennent le nombre $159$, d'autres non.
    L'intervalle de confiance $IC(159)$ est alors l'ensemble des $x$ tels que $159 \in IF(x)$.
    ... et l'ensemble de ces $x$ est l'intervalle $IC(159) = [183 ; 199]$.

    En effet,
    pour $x=182$, on a $IF(182) = [145 ; 158]$, et la valeur $159$ est trop grande pour y appartenir ;
    pour $x=183$, on a $IF(183) = [146 ; 159]$ et la valeur $159$ entre tout juste dedans (si je peux dire) ;
    plus la valeur de $x$ augmente, plus l'intervalle $IF(x)$ se décale logiquement vers des valeurs plus grandes... ;
    pour $x=199$, on a $IF(199) = [159 ;172]$ et la valeur $159$ est encore tout juste (si je peux dire) ;
    pour $x=200$, on a $IF(200) = [160 ; 173]$ et la valeur $159$ est trop petite pour y appartenir.
    Ainsi $IC(159)$ l'intervalle qui commence à $183$ et termine à $199$.
  • Je vais essayer de vous trouver une formule (pas exacte, mais suffisamment précise)...
  • Je vous remercie beaucoup.
    Je me demande comment faire pour faire calculer l'intervalle de fluctuation à l'ordinateur...

    Cordialement,
  • Pour $x$ fixé, vous avez $P(x,f)$ qui est la probabilité d'avoir $f$ individus "positifs" .

    Vous cherchez un intervalle de fluctuation $IF(x)$ à $95$% : regardez la définition d'un intervalle de fluctuation (la probabilité d'avoir $f \in IF(x)$ doit être au moins $95$%). Pas si compliqué d'en trouver un quand on connait la loi de probabilité.

    Mais il est vrai qu'il y a un choix personnel à faire, et votre situation réelle peut induire le bon choix à faire (comme je l'ai souligné à mon premier message).

    Personnellement, j'ai choisi de prendre l'intervalle $IF(x)$ le plus court possible, de sorte que la probabilité d'avoir $f \in IF(x)$ soit au moins $95$%.
    Mais au lieu de prendre l'intervalle le plus court, d'autres personnes préféreront retenir un intervalle latérale (avec $5$% d'un coté), ou bilatérale (avec $2.5$% de chaque coté), etc. Il faut accorder cela avec votre situation réelle. Si vous n'en avez pas idée, alors l'intervalle le plus court me parait un bon choix.
  • Merci beaucoup de toutes vos réponses.
    Vous m'avez bien aidé!!
  • Voici une formule approximative, mais pas si mauvaise du tout...

    Nous avons une population totale de $N = 360$ personnes, dont x sont "positifs" (on enquête sur x).
    Dans un échantillon de taille $S = 300$, il est observé $F = 159$ "positifs".
    Questions : déterminer un intervalle de confiance pour x.

    Réponse :
    On pose $v = (1- \frac{S}{N} ) . \frac{F}{S} . (1- \frac{F}{S}) $

    pour un intervalle à $95$%, on prend $t=1.96$ ; pour un intervalle à $80$%, on prend $t=1.28$ ; ...

    Et l'intervalle de confiance $[\frac{F.N}{S}-t.N.\sqrt\frac{v}{S}, \frac{F.N}{S} + t.N.\sqrt\frac{v}{S} ]$ .

    Quand $N$ tend vers l'infini, on retombe sur l'intervalle de confiance classique.
    Mais dans notre contexte, $\frac{S}{N} = 0.8333$ (l'échantillon est une grosse proportion de la population totale), ce qui permet de réduite beaucoup la longueur de l'intervalle de confiance, autrement dit, réduire beaucoup l'incertitude sur $x$.
Connectez-vous ou Inscrivez-vous pour répondre.