Indépendance des variables et ACP

Bonjour,

J'ai une question à propos de l'analyse en composantes principales qui est une méthode de réduction de la dimension. En fait j'ai plusieurs questions mais une seule qui est fondamentale. Est-ce qu'il faut que les variables soient indépendantes ou au moins faiblement corrélées (et il resterait à définir ce qu'est ce faiblement...).

J'ai pensé à ça parce que, en considérant qu'on a un tableau rectangulaire avec $I$ lignes d'individus et $K$ colonnes de variables, on va développer plusieurs éléments théoriques par exemple en considérant deux individus $i$ et $j$ dans l'espace $\mathbb{R}^{K}$ on a leur distance $d(i,j)^{2}=\sum_{k=1}^{K}{(x_{ik}-x_{jk})^{2}}$ pour évaluer la ressemblance entre les deux individus... Mais sauf que pour faire ça, il faut que la base de l'espace $\mathbb{R}^{K}$ soit orthonormée, et pour que les projections sur les axes de cette base soient exatement les $x_{ik}$ et $x_{jk}$ il faut que chaque vecteur de cette base représente une variable et donc les variables doivent être "orthogonales" dans le sens où elles sont faiblement corrélées. Sinon on ne serait pas en train de représenter la réalité de manière un peu fidèle non ?

J'espère que vous pourrez m'aider, j'ai cherché dans des cours sur l'internet mais aucun ne précise si les variables doivent être indépendantes ou non.

Merci d'avance.

Réponses

  • Bonjour.

    La réponse est clairement "non". On étudie d'ailleurs cette question en ACP avec le cercle des corrélations. Ce qui peut facilement se comprendre puisque si trois des variables sont corrélées, leurs combinaisons linéaires vont apporter plus d'inertie que chacune, ce qui va rapprocher le plan de projection (*) des axes correspondants.
    Pourquoi ne pas étudier cette question dans un ouvrage solide sur l'ACP ?

    Cordialement.

    NB : Je ne suis pas spécialiste de ces questions, j'ai seulement un bon ouvrage de référence (Le Saporta) qui en parle dès le début.

    (*) ou l'axe, ou l'espace, de projection
  • Bonsoir
    Merci pour votre réponse. Mais sinon, l'espace $\mathbb{R}^{K}$ n'aurait pas trop de sens non ? Je veux dire si on a 3 variables disons $V_{1}$, $V_{2}=2V_{1}$ et $V_{3}=4V_{1}$, on n'a qu'un seul axe en vrai non ?

    Je vais consulter l'ouvrage que vous citez. Je n'ai pas étudié ces questions dans de bons ouvrages car je n'en connais pas. J'ai des références dans mon cours mais lorsque je les ai consultées, elles ne traitaient pas ces questions. Merci pour la référence !

    PS. Est-ce que c'est bien Probabilités, analyse des données et Statistique de Gilbert Saporta dont vous faîtes références s'il vous plaît ?
  • Oui, c'est bien cet ouvrage.

    Tu parles de variables proportionnelles entre elles, effectivement, dans ce cas, trois axes ne se justifient pas. Mais raisonnablement, on n'a jamais ce cas là, et des variables, même très corrélées, sont de nature différente, peuvent même ne pas avoir la même unité, donc si on fait une ACP, c'est sur des variables différentes.

    Cordialement.

    NB : Ce sujet serait mieux en statistiques ; il n'y a pas d'informatique !
    [Déplacement fait. AD]
  • @PolVano : juste une remarque. L'ACP a pour but essentiel de résumer / restituer / représenter la structure de corrélation des variables. Ou, dit autrement, a pour but de transformer $p$ variables corrélées entre elles en $p$ vecteurs orthogonaux. S'il n'y a aucune corrélation entre les variables initiales, l'ACP n'a pour ainsi dire aucun intérêt. (Pour être très caricatural : si toutes les variables sont déjà parfaitement orthogonales deux à deux, alors tu as des axes principaux avant même de calculer l'ACP !)

    Donc ma réponse à la question "Est-ce qu'il faut que les variables soient au moins faiblement corrélées" est clairement oui. ;-)
  • Corrélés ou non, ça ne pose aucun souci.

    Tu es en train de mélanger mentalement les $K$ axes (la base canonique $e_k=(0\cdots 0, 1, 0, \cdots 0)$, $1\leq k\leq K$), qui eux sont toujours orthogonaux, et le graphe des points de données, qui peut "vivre" sur une droite, un hyperplan, une sous-variété, etc. dans cet espace $\mathbb{R}^K$.

    Trace un segment de droite $\mathcal{S}:=\{(x,y,z)\,|\, 1\leq x=y=z \leq 2\}$ en $3$D. Tous les points $p\in \mathcal{S}$ sont clairement alignés sur la "diagonale principale", en $1$D. Pourtant les axes selon $x$, $y$, $z$ sont bien orthogonaux, ils génèrent un espace tridimensionnel... La PCA retournerait la direction $x=y=z$ (signée $\pm$) comme premier vecteur propre, associé à l'unique valeur propre non-nulle de la matrice de covariance. Les autres directions propres retournées formeraient une base arbitraire de l'hyperplan $\perp$ à $x=y=z$, et les valeurs propres associées sont $0$. Dans ce cas, la PCA te dit donc précisément que les données vivent sur une droite.
  • Bonjour,

    Le livre de G. Saporta est vraiment très bien comme te l'a conseillé gerard0. Saporta a aussi écrit un "que sais-je ?" sur l'analyse des données que tu peux trouver d'occasion. Sur internet, tu peux regarder le cours de François Husson sur L'ACP (Husson à fait partie de l'équipe qui a développée FactoMineR un package d'analyse des données de R).

    Cordialement.

    Ajout : peut-être confonds-tu les variables de départ qui peuvent être corrélées et les nouvelles variables ou composantes principales déterminées par l'ACP. De plus, les projections dont tu parles ne conservent pas les distances entre les points et c'est pour cela que l'on cherche à rendre l'inertie du nuage de points la plus grande possible pour bien représenter la configuration initiale du nuage.
  • Bonjour,

    Merci beaucoup pour vos réponses. Je comprends maintenant où je voyais mal l'ACP et son objectif. Et merci pour les deux autres références jma.

    Sinon, je ne confondais pas les nouvelles variables avec les initiales en parlant de projection. Je pensais que chaque variable représentait forcément un axe de $\mathbb{R}^{K}$ et je me disais qu'il y avait un problème avec l'expression de la distance euclidienne dans ce cas. Mais en fait on pourait juste mettre un individu dans $\mathbb{R}^{K}$ et donner des valeurs pour chaque composante et ces valeurs correspondraient à chaque la valeur que prend une variable sur cet individu. Et après on peut imaginer une situation comme l'a décrit talbon.

    Merci encore pour votre aide !
Connectez-vous ou Inscrivez-vous pour répondre.