Questions de débutant en statistiques

Bonjour,

J'aimerais poser ma question sur le modèle de régression linéaire simple (à une seule variable) mais elle reste toutefois générale à la statistiques. Un modèle de régression linéaire simple s'écrit : $y_{t} = a_{0} + a_{1}x_{t} + \varepsilon_{t}$. Comme tout bon modèle repose sur des hypothèses, celui de la régression linéaire aussi. Et parmi ces hypothèses on trouve des assertions telles que $E(\varepsilon_{t})=0$ ou encore $Cov(x_{t},\varepsilon_{t})=0$... J'aimerais vous demander ce que cela signifique $Cov(x_{t},\varepsilon_{t})=0$... Je ne comprends pas en fait comment $\varepsilon_{t}$ est une variable aléatoire à part. Pour moi il y a une variable aléatoire $\varepsilon$ (comme une variable aléatoire $x$) qui prend des valeurs sur $\mathbb{R}$ et peut valoir $\varepsilon_{1}$, $\varepsilon_{2}$... De même pour $x$, pour moi c'est une variable aléatoire dont les $x_{1}$,$x_{2}$... serviront à déterminer les paramètres de la loi. Le seul cas de figure où je peux concevoir $x_{t}$ comme variable aléatoire c'est dans le cas où on pouvait figer le temps et faire plusieurs mesures à cet instant $t$.

J'ai aussi une autre question. Comment est-ce que dans la pratique on vérifie les hypothèses comme $Cov(x_{t},\varepsilon_{t})=0$... Car les seules informations qu'on a c'est les résidus, et on voit bien de la façon dont on les obtient qu'ils vérifieront cette propriété...

Une dernière question. J'ai lu que le terme aléatoire $\varepsilon$ était rajouté pour tenir en compte d'une erreur de spécification du modèle (des variables non prises en compte), d'une erreur de mesure (le fait que les données ne représentent pas exactement le phénomène) et d'une fluctuation d'échantillonnage (les données changent d'un échantillon à un autre). Mais est-ce que tout cela ne veut pas dire la même chose ? Car s'il y a des variables non prises en compte c'est normal que les données ne représentent pas exactement le phénomène et vice-versa. Quant à la fluctuation entre les échantillons ceci est bien pris en compte par le fait que $x$ soit une variable aléatoire et donc $\varepsilon$ n'est là que pour une seule raison. Je ne sais pas si je dis n'importe quoi ou bien non.

J'espère que vous pourrez m'aider afin de mieux comprendre ces raisonnements généraux de la statistique.

Merci d'avance.

Réponses

  • Bonjour.

    Je ne sais pas d'où sort ton modèle. Pour moi, le modèle de régression linéaire simple est $Y=aX+b+\varepsilon$. Quand on applique à une série de données, les $(x_i,y_i)$ sont des couples de réalisations de ($(X,Y)$.

    Peux-tu expliquer dans quel document cet indice $t$ apparaît et à quoi il réfère ?

    Cordialement.
  • Bonjour,

    Ah mais c'est la même chose je pense, c'est juste une question de notation (scalaire ou matricielle). Et sinon voilà on peut trouver les deux notations sur Wikipédia : https://fr.wikipedia.org/wiki/Régression_linéaire#:~:text=En statistiques, en économétrie et,ou plusieurs variables, dites explicatives.
    Il y a aussi les hypothèses dont j'ai parlé (partie homoscédasticité par exemple). Les échantillons sont indexés par $i$ sur Wikipédia, mais on peut travailler sur des données qu'on mesure sur des périodes (séries temporelles) comme des volumes de précipitations journaliers...
    Moi je pensais au début qu'il n'y avait que 3 variables aléatoires $Y$, $X$ et $\varepsilon$ mais quand on regarde l'homoscédasticité, l'indépendance des erreurs... on voit que même les réalisations des variables $X$, $Y$ et $\varepsilon$ sont des variables aléatoires. Ce que je ne comprends pas.

    Merci d'avance.
  • Il faut comprendre que avant le tirage d'un échantillon, les réalisations ne sont que des variables aléatoires : $x_i$ est le résultat du tirage de la i-ième réalisation par un procédé aléatoire; donc pas une valeur connue, mais une des valeurs possibles de X (*). Et donc bien différencier la théorie de son application.

    (*) je n'utilise pas la notation matricielle de Wikipédia, mais le fait de marquer les variables aléatoires par des majuscules, les valeurs après tirage par des minuscules; j'aurais dû écrire $X_i$, mais tu n'aurais plus compris.
  • Bonjour,

    Veuillez m'excuser ma réponse tardive.
    Je pense avoir compris un peu. Donc $X$ est plutôt un vecteur aléatoire dont les composantes sont les variables aléatoires des tirages des réalisations ?
    La question qui me taraude l'esprit c'est est-ce qu'on peut vérifier les hypothèses de $E(\varepsilon_{i})=0$, $Cov(x_{i},\varepsilon_{i})=0$... Car j'ai l'impression qu'on ne met les $\varepsilon_{i}$ que dans le modèle théorique, mais après concrètement on travaille avec les résidus et du coup on a toujours $Cov(x_{i},e_{i})=0$... (du fait de la manière dont on les obtient). Peut être que dans les $\varepsilon_{i}$ il y'avait des "variables" liées aux $x_{i}$. Si par exemple je veux étudier la quantité d'une récolte obtenue selon le volume de précipitations (les $x_{i}$) d'une année $i$, et que mes $y_{i}$ sont des récoltes provenant de plusieurs terres différentes, je ne suis pas sûr que mes $\varepsilon_{i}$ soient non corrélés avec les $x_{i}$ puisque l'altitude par rapport au niveau de la mer par exemple influence les précipitations. Je ne sais pas si ma question est claire mais elle peut se résumer à comment vérifier les hypothèses du modèle de régression linéaire. J'ai l'impression qu'on l'utilise trop souvent mais sans la vérification des hypothèses.

    J'espère que vous pourrez m'aider encore une fois.

    Merci d'avance.
  • Bonjour.

    Je ne sais pas trop de quoi tu parles. $E(\varepsilon_{i})=0,\ Cov(x_{i},\varepsilon_{i})=0$ sont des hypothèses du modèle, donc on ne va pas les vérifier. Ça parle seulement de la construction du modèle (je n'ai d'ailleurs jamais utilisé la deuxième, seulement $var(\varepsilon)$ minimale).
    Ensuite, dans les applications, le modèle marche plus ou moins bien. Et on va pouvoir tester les résidus de différentes manières. Mais là, on n'est plus dans des probas, on est dans une étude statistique et les résidus ne peuvent pas être parfaitement gaussiens (ils sont en nombre fini). Par la construction du modèle, ils sont en moyenne nuls, avec une variance (statistique) faible; mais dans certains cas, ils montrent que le modèle est inadapté (à une variable, des résidus croissant avec x; ou forts loin de la moyenne et faible vers la moyenne; ou ...).
    Quant à ta question : "comment vérifier les hypothèses du modèle de régression linéaire", je n'ai pas de réponse. C'est tout le cœur de l'activité scientifique. Dans un cas d'espèce, je peux donner des idées, par exemple dans ton cas des récoltes, si on sait que " l'altitude par rapport au niveau de la mer [] influence les précipitations", c'est une variable liée, mais qu'on ne mettra pas dans le modèle, puisque "les précipitations" est la variable explicative. par contre si on sait que " l'altitude par rapport au niveau de la mer [] influence les températures", on mettra l'altitude en co-facteur puisque les températures jouent sur l'importance des récoltes.
    En fait, la construction d'un bon modèle est l'analyse de tous les facteurs explicatifs qui vont intervenir, de la façon dont ils interviennent (linéaire, quadratique, logistique, .. aléatoire) et leur intégration ou non dans le modèle.

    Cordialement.
  • Bonjour,

    Merci pour votre réponse très instructive. Je pensais au début qu'il pourrait y avoir des méthodes très générales pour savoir si ça marchait bien ou pas mais je vois maintenant que c'était naïf de penser ainsi. J'ai aussi confondu entre la construction du modèle (dans ce cas les hypothèses servent à donner des réponses) et son application (où on va directement utiliser les réponses obtenues par la construction théorique).

    Merci encore.
Connectez-vous ou Inscrivez-vous pour répondre.