Question sur les régressions linéaires et log

Bonjour

J'ai fait il y a peu un mooc d'intro aux statistiques et de R sur la plateforme FUN. Pour ce mooc on nous a demandé d'étudier une enquête de satisfaction réalisée sur les patients d'un hôpital psychiatrique. Cette étude présente une dizaine de variables suivies (score de relation, score d'amélioration santé, age, sexe, profession , etc.).
Dans le cours on nous a présenté les régression linéaires et logistiques et les fonctions lm et glm de R. Dans le cours et dans les exercices on s'aperçoit assez rapidement que les valeurs de coefficients et les "p values" vont changer en fonction du nombre de variables explicatives qu'on va intégrer dans l'analyse de régression. Alors je me demande qu'elle a la réelle significativité des valeurs obtenues.
En effet disons qu'avec une régression linéaire simple ou intégrant 2 ou ou 3 valeurs explicatives je trouve une liaison significative entre par exemple le score relatif à la qualité des relations avec le personnel soignant pendant le séjour et le score d'amélioration de la santé. Mais que cette liaison ne soit plus significative quand j’intègre l'ensemble des variables explicatives. Qu'en est-il de cette liaison ? En bref peut-on n'utiliser qu'une partie des variables explicatives dans un modèle de régression ou doit-on systématiquement toutes les intégrer ?

En vous remerciant d'avance d'éclairer le débutant en statistique que je suis :)

Réponses

  • Bonjour,

    Approximativement parlant, lorsque tu introduis des variables : tu ne sais pas quels jeux elles ont entre elles (je parle surtout de corrélations et de colinéarités) ce qui change la significativité des paramètres. Tu devrais donc déterminer un modèle explicatif interprétable avec un nombre de variables qui n'est pas forcément la totalité des variables explicatives.

    Cordialement.
  • Bonjour jma,
    si je te suis bien, il n'est pas nécessaire d'intégrer toutes les variables dans un modèle de régression.
    Mais alors comment choisir les variables explicatives qui vont permettre d’interpréter le modèle?
    Quand l'enquête est réalisée on n'a pas d'à priori sur les variables qui vont avoir du jeu entre elles (enfin j'espère sinon il y a un biais), donc comment limiter le nombre de variables explicatives et comment les choisir pour les intégrer dans notre modèle?
    Y-a-t'il des tests à réaliser pour savoir quelles variables intégrer ou non?
    Je précise qu'il s'agit d'un interrogation personnelle, ce n'était pas demandé dans le mooc.

    Cordialement.
  • Bonjour,

    En effet, il y a plusieurs méthodes de sélections de variables. Je te cite simplement les noms peut-être auras-tu l'occasion de te dire "tiens, j'en ai entendu parlé" :
    - meilleur sous-ensemble de variables (pour 30 à 40 variables un bon ordinateur peut le gérer),
    - "Backward-stepwise selection",
    - "Forward-stepwise selection",
    - Critère AIC et BIC,
    - Cp de Mallows,
    - la validation croisée...

    Il y en a surement d'autres. Tu peux t'en fixer un en essayant de le comprendre. J'ai remarqué que la validation croisée est beaucoup utilisée. Son intérêt est de prendre en compte une erreur de test sur des données "n'ayant pas participé" à l'élaboration du modèle.

    Cela fait beaucoup !

    Cordialement.
  • Merci jma,

    je vais jeter un œil à tout ça. Figures toi que je n'ai entendu parlé d'aucune de ces méthodes ...
    D'ailleurs si tu as des liens à me proposer, je suis preneur :-)
    C'est bien ça va me permettre de progresser (enfin j'espère )

    Cordialement.
  • Bonjour,

    Il ne me vient pas à l'idée un lien ou des liens internet sur cet aspect mais je regarderai : jette un un petit coup d'œil à ce fil dans les jours qui viennent.

    Cordialement.
  • Merci pour ton aide jma (tu)
  • Bonjour,

    Cela prendra un peu plus de temps que prévu car les liens que je trouve pointent sur des contenus disparates où il est un peu difficile de se retrouver. Je pense faire une petite fiche dans la semaine.

    Cordialement.
  • merci pour le mal que tu te donnes :)
    Passe un bon 14 juillet
  • Bonjour,

    La fiche prévue est en pièce-jointe. Je me suis aperçu en l'écrivant que cela faisait pas mal appel à plusieurs notions statistiques tels que les tests statistiques, la vraissemblance,...etc ce que je n'avais réalisé au premier abord. J'espère que certaines parties pourront t'éclairer un peu et, j'insiste sur la validation croisée.

    Bien cordialement.

    Ajout : merci de consulter le document chx_VarModel2707.pdf au douzième post dans lequel les erreurs, surtout sur la forme, sont moindres.
  • Bonjour,
    Je te remercie. Je vais me pencher dessus. A première vu ça va bien plus loin que le mooc que j'ai suivi mais c'est tant mieux :) . Je vais essayer d'intégrer ça.
    Encore merci
    cordialement
  • Bonjour,

    Je joins à ce post une deuxième version du document dans un des post ci-dessus avec moins de fautes surtout de forme. J'en profite pour donner le lien du James et al sur l'apprentissage statistique en remarquant que la section 3.2 Multiple Linear Regression p.71-83 semble une bonne approche véritablement pratique de cette méthode sans compter la partie correspondante avec le logiciel R en fin de Chapitre 3 : https://link.springer.com/book/10.1007/978-1-4614-7138-7

    Cordialement.

    Ajout : (très profond) Statistique sans informatique égale caleçon sans élastiques.
  • Bonjour
    Je te remercie encore une fois (tu).

    J'ai attaqué le livre de James. Et pour le moment c'est assez clair (en tout cas plus clair que Essential for Statistical Learning).
    J'y vais à mon petit rythme pour bien prendre le temps d'assimiler.
    Merci encore une fois pour tes efforts.

    Reste au frais,
    cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.