Trouver la bonne colinéarité - VIF élevé
dans Statistiques
Bonjour
Je souhaite tester la régression linéaire suivante $$Y = \beta_0 + \sum_{i=1}^{8} \beta_i X_i + \varepsilon.$$ Ici $X_1$ est la variable d'intérêt et les autres $X_i$ sont des covariables. Le logiciel que j'utilise pour effectuer le test de Wald me renvoie un NA car le VIF (Variance Inflation Factor) https://en.wikipedia.org/wiki/Variance_inflation_factor est beaucoup trop élevé.
Ceci indique que la variable $Y$ est fortement corrélée avec une certaine combinaison linaire de $X_i$. Ma question est : comment trouver cette combinaison linéaire sur base de mes échantillons ? Et une fois celle-ci déterminée, comment modifier le modèle de façon adéquate ?
Merci pour toute aide.
Je souhaite tester la régression linéaire suivante $$Y = \beta_0 + \sum_{i=1}^{8} \beta_i X_i + \varepsilon.$$ Ici $X_1$ est la variable d'intérêt et les autres $X_i$ sont des covariables. Le logiciel que j'utilise pour effectuer le test de Wald me renvoie un NA car le VIF (Variance Inflation Factor) https://en.wikipedia.org/wiki/Variance_inflation_factor est beaucoup trop élevé.
Ceci indique que la variable $Y$ est fortement corrélée avec une certaine combinaison linaire de $X_i$. Ma question est : comment trouver cette combinaison linéaire sur base de mes échantillons ? Et une fois celle-ci déterminée, comment modifier le modèle de façon adéquate ?
Merci pour toute aide.
Réponses
-
Bonjour,
Je pense que je dois mal comprendre ta question. La combinaison linéaire n'est-elle pas celle que tu as calculée avec les estimations des paramètres ?
Cordialement. -
De nouveau bonjour,
Je pense avoir compris ta question. y n'est pas le plus important dans ta démarche. En fait, la multicolinéarité concerne les variables explicatives Xi : il y a des combinaisons linéaires entre ces variables ce qui induit une forte instabilité des paramètres du modèle.
Pour répondre à ta question, je ne connais pas une façon de déterminer ces combinaisons. Déjà, il faut voir les corrélations deux à deux, tester de nouveaux modèles avec moins de prédicteurs peut-être utiliser un algorithme de choix de variables. Sinon, une réponse usuelle à ce problème est la régression "ridge" est un peu plus complexe ou d'autres méthodes de rétrécissement comme la régression "lasso". Pourquoi ne pas essayer la régression "ridge" ?
Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.4K Toutes les catégories
- 63 Collège/Lycée
- 22.2K Algèbre
- 37.6K Analyse
- 6.3K Arithmétique
- 61 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 23 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.8K Géométrie
- 84 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 26 Mathématiques et finance
- 342 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 804 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres