Trouver la bonne colinéarité - VIF élevé

Bonjour
Je souhaite tester la régression linéaire suivante $$Y = \beta_0 + \sum_{i=1}^{8} \beta_i X_i + \varepsilon.$$ Ici $X_1$ est la variable d'intérêt et les autres $X_i$ sont des covariables. Le logiciel que j'utilise pour effectuer le test de Wald me renvoie un NA car le VIF (Variance Inflation Factor) https://en.wikipedia.org/wiki/Variance_inflation_factor est beaucoup trop élevé.

Ceci indique que la variable $Y$ est fortement corrélée avec une certaine combinaison linaire de $X_i$. Ma question est : comment trouver cette combinaison linéaire sur base de mes échantillons ? Et une fois celle-ci déterminée, comment modifier le modèle de façon adéquate ?

Merci pour toute aide.

Réponses

  • Bonjour,

    Je pense que je dois mal comprendre ta question. La combinaison linéaire n'est-elle pas celle que tu as calculée avec les estimations des paramètres ?

    Cordialement.
  • De nouveau bonjour,

    Je pense avoir compris ta question. y n'est pas le plus important dans ta démarche. En fait, la multicolinéarité concerne les variables explicatives Xi : il y a des combinaisons linéaires entre ces variables ce qui induit une forte instabilité des paramètres du modèle.

    Pour répondre à ta question, je ne connais pas une façon de déterminer ces combinaisons. Déjà, il faut voir les corrélations deux à deux, tester de nouveaux modèles avec moins de prédicteurs peut-être utiliser un algorithme de choix de variables. Sinon, une réponse usuelle à ce problème est la régression "ridge" est un peu plus complexe ou d'autres méthodes de rétrécissement comme la régression "lasso". Pourquoi ne pas essayer la régression "ridge" ?

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.