Coefficient de détermination (R²)

Bonjour
J'ai besoin de votre aide. J'ai implémenté un algorithme en Python qui renvoie le meilleur modèle de régression linéaire possible pour un nombre de variables explicatives donné k, et ce pour l'ensemble des k possibles (Exemple : J'ai 5 variables explicatives, je vais tester (1 parmi 5) modèles à 1 variable explicative et renvoyer le meilleur, puis (2 parmi 5) modèles à 2 variables explicatives et renvoyer le meilleur etc). Le critère choisi est le RSS.

Mon problème est le suivant : en théorie, le R2 devrait croître mécaniquement avec le nombre de variables explicatives. Or, je n'obtiens pas ça : il arrive que le modèle à une variable ait un R2 beaucoup plus élevé que ceux avec d'avantage de variables par exemple (voir images ci-jointes).
Je suppose que j'ai dû faire une erreur quelque part, mais je ne vois pas laquelle ... Auriez-vous une idée ?
Par ailleurs, certains des modèles retournés n'ont pas tous leurs coefficients significatifs ... Ceux-là doivent être écartés, non ?
Merci d'avance pour l'aide que vous pourriez m'apporter !105792
105794

Réponses

  • PS : Erreur sur la légende des graphiques : c'est bien le R2 et non pas le R2 ajusté !
  • Bonjour,


    Comme je le comprends, tu peux avoir un ensemble à deux descripteurs qui ne sont pas contenus dans un autre ensemble à trois entrées par exemple. Ainsi, il est possible que ton coefficient de détermination soit supérieur dans l'ensemble à deux descripteurs. Tu choisis le meilleur sous-ensemble de taille k=1,..,,p et cela ne veut pas dire que les sous-ensembles soient inclus les uns dans les autres.

    Par contre, si dans ton ensemble à trois entrées, tu as les entrées de l'ensemble à deux entrées plus une autres entrée alors le coefficient de détermination devra être supérieur.

    Pour les tests des coefficients, cela dépend si tu fais un modèle pour expliquer (dans ce cas les tests comptent) ou pour prédire. Sur cette dernière phrase, je souhaiterais bien être repris si quelqu'un a de plus amples informations.


    Cordialement.
  • Merci beaucoup pour votre réponse, je comprends mieux !

    Dans la plupart des cas, les modèles avec peu de variables ne sont effectivement pas contenus dans les modèles prenant en compte un plus grand nombre de variables.
    Toutefois, le modèle avec l'ensemble des variables ne devrait-il pas avoir un coefficient de détermination systématiquement plus grand ? Ce n'est pas le cas d'après mes graphiques ... Est-ce que ça pourrait être lié au fait que certains des modèles avec peu de variables explicatives n'ont pas de constante ?
    Exemple : L'un de mes modèles a pour variables explicatives X1 et X2, avec pour R2 : 0,9896
    Le modèle suivant a pour variables explicatives X1, X2 et une constante, pour un R2 de 0,756
    Est-ce contradictoire ?

    D'accord, il y a ici une petite subtilité à laquelle je n'aurais pas pensé ... Le modèle devrait m'aider à décrire, mais le but final est effectivement la prédiction.

    Encore merci pour votre réponse, j'espère que vous pourrez également m'éclairer sur ces nouvelles interrogations.

    Cordialement
  • De mon téléphone :
    Le coefficient de détermination est maximal lorsqu'il comporte toutes les variables disponibles. Je ne sais pas si tu parles d'autres graphiques mais le "RSS" est minimal pour le nombre de variables est maximal dans le premier graphique à gauche. Tu peux augmenter le coefficient de détermination autant que tu veux en lui ajoutant des variables qui peuvent ne rien à voir avec ton problème. C'est pour cela que tes autres graphiques prennent en compte un critère dont le nombre de variables est pénalisant.
    Ta constante ou parfois "biais" est partie prenante de ton modèle. D'ailleurs, tu devrais voir que cette constante subit le test de nullité et est susceptible de diminuer le coefficient de détermination. Faut-il pour autant le conserver ? Dans l'immédiat, je n'ai pas la réponse (je l'ai toujours gardé).

    En tous cas, ces deux coefficients sont très bon.

    Cordialement.
  • Bonjour
    Pour faire le lien entre la somme des carrés des erreurs et le coefficient détermination, on peut le réécrire de manière à ce que : \[

    R^{2}=1-\frac{SCE}{SCT}.

    \] Comme $SCT$ est constante alors plus $SCE$ est faible, plus $R^{2}$ est grand d'où la remarque faite sur le graphique tout en haut à gauche.
    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.