Nombre de sujets nécessaires pour une étude de corrélation
dans Statistiques
Bonjour à tous,
Pour mettre en place mon projet de recherche, j'ai besoin de calculer le nombre de sujets nécessaires.
Je vais récupérer des données quantitatives sur lesquelles je voudrais faire des tests de corrélation mais je ne sais pas comment calculer le nombre de sujets nécessaires pour ce type d'étude vu que je ne m'attend pas à observer une différence entre 2 groupes mais plutôt une corrélation entre 2 variables.
Je suis un peu bloqué là sachant que tout ce que je trouve sur internet correspond à des études dont l'objectif est de comparer des moyennes ou des proportions mais rien sur les tests de corrélation.
D'avance merci si certains d'entre vous ont une idée à me proposer 

Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
L'expression "nombre de sujets nécessaires" est maladroite si elle n'est pas précisée davantage.
Par exemple, lorsqu'on s'intéresse à l'estimation d'une proportion, on va construire un intervalle de confiance de la proportion, dont la demi-longueur va représenter ce qui est appelé la marge d'erreur de l'intervalle de confiance. On peut alors calculer la taille de l'échantillon de telle sorte que la marge d'erreur de l'intervalle de confiance soit égale à une valeur que l'on se fixe, pour un certain niveau de confiance de l'intervalle.
J'imagine que l'on peut procéder de façon similaire dans un contexte de régression linéaire entre 2 variables, puisque l'on dispose aussi d'intervalles de confiance de la pente et de l'ordonnée à l'origine de la droite de régression.
En lisant ton message, on a un peu le sentiment que tu as plein de données à disposition, et que tu vas en prendre un échantillon pour faire tes analyses.
Si tu as plein de données à disposition, sauf raison particulière, utilises toutes les données.
Réponse n°2 : Dans mes lointains cours, le nombre de 30 était très souvent donné comme seuil.
Si tu as 2 mesures pour chaque individu (par exemple l'IMC et la tension artérielle), avec une trentaine de données, tu peux commencer à employer le mot 'statistiques'.
Mais attention, si tu as plus de mesures, si tu veux une corrélation Tension = f(IMC, age) ou Tension = f(IMC, age, sexe), il faut plus d'individus.
Disons que pour chaque indicateur supplémentaire, il te faut 15 individus de plus.
Ces nombres (donnés au doigt mouillé, par un amateur) sont des seuils minimums.
Si la corrélation entre les données est parfaite, si tout est rose, tu pourras tirer des résultats avec des effectifs réduits de ce type.
Mais dans la vraie vie, les corrélations ne sont jamais parfaites. Et tu ne sais pas à l'avance si le R² sera de 0.6 ou 0.3 .. et donc tu ne sais pas à l'avance combien de données il te faut.
Je me suis mal exprimé alors. Oui je compte utiliser toutes les données que je vais recueillir. J'écris au futur parce que, pour l'instant, je n'ai encore rien recueilli. Il faut que je calcule à l'avance (pour des raisons éthiques, économiques, etc) le nombre minimum de sujets dont j'aurai besoin pour conclure que mes résultats seront bien significatifs et ne pas passer à côté par manque de puissance de mon étude si je n'ai pas assez de sujets. Dans le même temps, je ne pourrais pas recruter autant de patients que je veux si ce n'est pas nécessaire.