Nombre de sujets nécessaires pour une étude de corrélation — Les-mathematiques.net The most powerful custom community solution in the world

Nombre de sujets nécessaires pour une étude de corrélation

Bonjour à tous,
Pour mettre en place mon projet de recherche, j'ai besoin de calculer le nombre de sujets nécessaires.
Je vais récupérer des données quantitatives sur lesquelles je voudrais faire des tests de corrélation mais je ne sais pas comment calculer le nombre de sujets nécessaires pour ce type d'étude vu que je ne m'attend pas à observer une différence entre 2 groupes mais plutôt une corrélation entre 2 variables.
Je suis un peu bloqué là sachant que tout ce que je trouve sur internet correspond à des études dont l'objectif est de comparer des moyennes ou des proportions mais rien sur les tests de corrélation.
D'avance merci si certains d'entre vous ont une idée à me proposer :smile:

Réponses

  • Bonjour,
    L'expression "nombre de sujets nécessaires" est maladroite si elle n'est pas précisée davantage.
    Par exemple, lorsqu'on s'intéresse à l'estimation d'une proportion, on va construire un intervalle de confiance de la proportion, dont la demi-longueur va représenter ce qui est appelé la marge d'erreur de l'intervalle de confiance. On peut alors calculer la taille de l'échantillon de telle sorte que la marge d'erreur de l'intervalle de confiance soit égale à une valeur que l'on se fixe, pour un certain niveau de confiance de l'intervalle.
    J'imagine que l'on peut procéder de façon similaire dans un contexte de régression linéaire entre 2 variables, puisque l'on dispose aussi d'intervalles de confiance de la pente et de l'ordonnée à l'origine de la droite de régression.

  • Réponse n°1 : Plus on a de données, mieux c'est. 
    En lisant ton message, on a un peu le sentiment que tu as plein de données à disposition, et que tu vas en prendre un échantillon pour faire tes analyses. 
    Si tu as plein de données à disposition, sauf raison particulière, utilises toutes les données.

    Réponse n°2 : Dans mes lointains cours, le nombre de 30 était très souvent donné comme seuil.
    Si tu as 2 mesures pour chaque individu (par exemple l'IMC et la tension artérielle), avec une trentaine de données, tu peux commencer à employer le mot 'statistiques'.
    Mais attention, si tu as plus de mesures, si tu veux une corrélation Tension = f(IMC, age)   ou Tension = f(IMC, age, sexe), il faut plus d'individus.
    Disons que pour chaque indicateur supplémentaire, il te faut 15 individus de plus.

    Ces nombres (donnés au doigt mouillé, par un amateur) sont des seuils minimums.

    Si la corrélation entre les données est parfaite, si tout est rose, tu pourras tirer des résultats avec des effectifs réduits de ce type.
    Mais dans la vraie vie, les corrélations ne sont jamais parfaites. Et tu ne sais pas à l'avance si le R² sera de 0.6 ou 0.3 .. et donc tu ne sais pas à l'avance combien de données il te faut. 



    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Le plus, le mieux. Il n'y a pas de seuil magique à partir duquel les statistiques te donneront une certitude.
    Au moins aussi important que le nombre de sujets est l'identification des biais dans leur choix et si possible leur réduction au maximum (pour faire simple, un micro-trottoir au métro Bourse ou au métro La Chapelle ne donnera pas les mêmes réponses. Ou encore un néphrologue aura l'impression que tout le monde a une pathologie rénale).
    The fish doesnt think. The Fish doesnt think because the fish knows. Everything. - Goran Bregovic
  • J'imagine que l'on peut procéder de façon similaire dans un contexte de régression linéaire entre 2 variables, puisque l'on dispose aussi d'intervalles de confiance de la pente et de l'ordonnée à l'origine de la droite de régression.

    Oui pour comparer deux moyennes ou deux proportions je connais la formule, j'ai juste besoin de fixer la différence que je m'attends à observer, l'écart-type, les risques alpha et béta. Mais dans l'étude d'une corrélation entre 2 variables, je ne sais pas du tout. Est-ce que je peux utiliser la même formule mais en estimant la pente que je m'attends à avoir?
    Réponse n°1 : Plus on a de données, mieux c'est. 
    En lisant ton message, on a un peu le sentiment que tu as plein de données à disposition, et que tu vas en prendre un échantillon pour faire tes analyses. 
    Si tu as plein de données à disposition, sauf raison particulière, utilises toutes les données.
    Je me suis mal exprimé alors. Oui je compte utiliser toutes les données que je vais recueillir. J'écris au futur parce que, pour l'instant, je n'ai encore rien recueilli. Il faut que je calcule à l'avance (pour des raisons éthiques, économiques, etc) le nombre minimum de sujets dont j'aurai besoin pour conclure que mes résultats seront bien significatifs et ne pas passer à côté par manque de puissance de mon étude si je n'ai pas assez de sujets. Dans le même temps, je ne pourrais pas recruter autant de patients que je veux si ce n'est pas nécessaire.

  • Le plus, le mieux. Il n'y a pas de seuil magique à partir duquel les statistiques te donneront une certitude.
    Au moins aussi important que le nombre de sujets est l'identification des biais dans leur choix et si possible leur réduction au maximum (pour faire simple, un micro-trottoir au métro Bourse ou au métro La Chapelle ne donnera pas les mêmes réponses. Ou encore un néphrologue aura l'impression que tout le monde a une pathologie rénale).
    Exactement, on est d'accord sur ce point. D'ailleurs l'objectif c'est d'avoir le plus de données possible mais mon problème ici c'est que je dois indiquer le nombre de sujet minimum dont j'ai besoin pour pouvoir mener à bien l'étude.
  • Doc7 a dit :
    J'imagine que l'on peut procéder de façon similaire dans un contexte de régression linéaire entre 2 variables, puisque l'on dispose aussi d'intervalles de confiance de la pente et de l'ordonnée à l'origine de la droite de régression.

    Oui pour comparer deux moyennes ou deux proportions je connais la formule, j'ai juste besoin de fixer la différence que je m'attends à observer, l'écart-type, les risques alpha et béta. Mais dans l'étude d'une corrélation entre 2 variables, je ne sais pas du tout. Est-ce que je peux utiliser la même formule mais en estimant la pente que je m'attends à avoir?

    Oui, tu trouveras les intervalle de confiance de la pente et de l'ordonnée à l'origine en page 3 de ce document par exemple.
  • Modifié (August 2022)
    Bonjour.
    J'ai fortement tiqué en lisant :
    "le nombre minimum de sujets dont j'aurai besoin pour conclure que mes résultats seront bien significatifs"
    car la significativité n'est pas fonction de la taille de l'échantillon, mais de la méthode de choix des individus. Un échantillon de 5 pris parfaitement au hasard est très significatif, un échantillon de 300 choisis n'importe comment ne l'est à priori pas, est probablement biaisé.
    La suite m'allait mieux :
    "et ne pas passer à côté par manque de puissance de mon étude si je n'ai pas assez de sujets".
    Cependant la régression est une méthode d'analyse, pas un test, et le mieux qu'on fait est le test des coefficients (pente et ordonnée à l'origine) sous des hypothèses généralement inatteignables. D'ailleurs, l'étude des résidus, de leur Normalité, et plus efficace, la comparaison avec un deuxième échantillon et ses résidus, sont bien plus éclairants.
    Il est fréquent que la possibilité d'avoir un échantillon non biaisé soit en fait le facteur limitatif de la taille de l'échantillon. Mais si tu as le moyen d'avoir de nombreux individus et de faire un choix au hasard dans la population visée, tu peux essayer de choisir une taille telle que l'ellipse de confiance soit raisonnablement étroite (selon ton goût). Et même, comme tu ne connais pas, à priori, le coefficient de régression (qu'on espère proche de 1 ou -1), une pré-étude sur un petit échantillon (30 à 50) peut permettre d'agir ensuite efficacement.
    Cordialement.
  • Modifié (August 2022)
    J'ai fortement tiqué en lisant :
    "le nombre minimum de sujets dont j'aurai besoin pour conclure que mes résultats seront bien significatifs"
    car la significativité n'est pas fonction de la taille de l'échantillon, mais de la méthode de choix des individus. Un échantillon de 5 pris parfaitement au hasard est très significatif, un échantillon de 300 choisis n'importe comment ne l'est à priori pas, est probablement biaisé.
    Aha je savais que je heurterais la sensibilité de matheux avec mon manque de maîtrise du sujet :D
    La taille de mon échantillon ne sera pas un problème mais au niveau du protocole, pour montrer que mon étude est faisable, je dois indiquer que j'ai calculé le nombre de sujets nécessaires minimum pour m'assurer que la corrélation entre mes variables, si elle est réelle, ressorte significative lors des tests de corrélation.
    C'est ce nombre que je ne sais pas calculer. Il existe une formule pour les cas de comparaison de moyennes ou de proportions mais je ne sais pas si je peux (ni comment) l'appliquer à une régression.
    Et même, comme tu ne connais pas, à priori, le coefficient de régression (qu'on espère proche de 1 ou -1), une pré-étude sur un petit échantillon (30 à 50) peut permettre d'agir ensuite efficacement.
    Une étude précédente assez similaire a obtenu un coeff de 0.91 mais je ne sais pas comment agir efficacement ensuite...
  • Modifié (August 2022)
    Je continue, ce n'est pas la corrélation qui sera significative ! Tout au plus, tu pourras éventuellement montrer que ton rapport de corrélation est significativement différent de 0, ou éventuellement, si tu utilises des outils solides, montrer qu'il y avait 95% de chances pour que la valeur que tu finiras par trouver pour la pente de la droite de régression soit dans un certain intervalle.
    L'analyse de régression étant en fait et en gros simplement le fait de dire que le nuage de points des données est assez allongé et montant (dans ton cas, avec r=0,91 environ), les outils construits par les statisticiens sont assez peu démonstratifs. Ce n'est pas étonnant que tu ne trouves pas d'outil de calcul de la taille d'échantillon, les modèles de régression sont assez décevants, si le coefficient n'est pas quasiment 1 ou -1. Et le modèle de base étant simplement linéaire, il passe souvent à côté de la réalité (d'où l'étude des résidus qui peut amener à changer de modèle).
    Le mieux pour toi serait de trouver un statisticien professionnel (par exemple un bio-statisticien), ce que je ne suis pas (je n'en ai jamais vu ici).
    Cordialement.
  • Ok merci beaucoup pour votre aide, je vais me mettre à la recherche d'un biostatisticien :)
Connectez-vous ou Inscrivez-vous pour répondre.
Success message!