Question de logique sur l'ACP
dans Statistiques
Bonjour,
Il me semble qu'il y a quelque chose qui m'échappe complètement dans la technique d'Analyse en Composantes Principales.
On construit une matrice de variance-covariance à partir de la matrice des données et on en calcule les valeurs propres, soit.
Ensuite, il est toujours question d'axes associés aux valeurs propres, sur lesquels on projette pour obtenir des dispersions maximales. Phrase-type, par exemple "le premier axe est celui associé à la plus grande valeur propre".
Pourquoi "axe" ? Qu'est-ce qui me garantit que la plus grande valeur propre n'a pas une multiplicité supérieure à 1 ? Pourquoi fait-on toujours comme si la matrice de variance-covariance (disons de taille p) avait p valeurs propres distinctes, conduisant chacune à un axe ?
Je ne sais si je suis bien clair..., et je suis désolé si la réponse est évidente, mais ça ne me saute pas aux yeux.
Il me semble qu'il y a quelque chose qui m'échappe complètement dans la technique d'Analyse en Composantes Principales.
On construit une matrice de variance-covariance à partir de la matrice des données et on en calcule les valeurs propres, soit.
Ensuite, il est toujours question d'axes associés aux valeurs propres, sur lesquels on projette pour obtenir des dispersions maximales. Phrase-type, par exemple "le premier axe est celui associé à la plus grande valeur propre".
Pourquoi "axe" ? Qu'est-ce qui me garantit que la plus grande valeur propre n'a pas une multiplicité supérieure à 1 ? Pourquoi fait-on toujours comme si la matrice de variance-covariance (disons de taille p) avait p valeurs propres distinctes, conduisant chacune à un axe ?
Je ne sais si je suis bien clair..., et je suis désolé si la réponse est évidente, mais ça ne me saute pas aux yeux.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Sans être un spécialiste de la question, je tente une réponse : C'est parce que ça n'arrive quasiment jamais. Les matrice obtenues après recueil des données réelles et centrage-réduction ont très peu de chances d'avoir deux valeurs propres égales, encore moins que ce soient les deux premières. Et si par hasard c'est la cas, on aura un plan principal.
Mais même si les valeurs propres les plus élevées sont différentes, si elles sont très proches, l'ordre n'est pas très important, il pourrait changer avec un autre recueil de données (*).
Des connaisseurs auront peut-être un autre avis.
Cordialement.
(*) C'est une des bases des stats descriptives que des résultats légèrement différents auraient pu apparaître avec un recueil de donnée différent, dès qu'il n'est pas exhaustif.
La matrice de covariance empirique obtenue est aléatoire.
Or la plupart du temps, une matrice symétrique est à valeurs propres distinctes (elle l'est sauf si le discriminant de son polynôme caractéristique est nul, donc presque toujours, sauf en dehors d'une hypersurface)
En tous cas, si la matrice de covariance empirique est à densité, la probabilité qu'elle ait des valeurs propres multiples est nulle.
C'est pour ça qu'on fait comme si c'était le cas : parce que ça l'est avec probabilité =1.
Là, je ne saisis pas ce que ça veut dire... Et, en admettant quand même que j'ai compris la notion de "matrice de covariance empirique à densité", pourquoi serait-ce le cas quand on a $p$ échantillons de $n$ réalisations de $p$ variables aléatoires, et qu'on forme une matrice de variance-covariance à partir des données ?
Il me semble que, dans tout ce que j'ai lu, pour $p$ variables aléatoires, on parle de $p$ valeurs propres et de $p$ axes, qui permettent de reconstituer un espace $\mathbb{R}^p$
Mais avant que ceux-ci ne te soient donnés, celle-ci est pour toi une variable aléatoire sous forme matricielle (chacun des $p\times p$ coefficients est aléatoire)
Sauf exceptions, il n'y a que peu de chances que deux de ses $p$ valeurs propres (déterminées en fonction des coefficients) tombent sur la même valeur, comme il y a peu de chances que $p$ variables normales ou autre densité tombent deux fois sur la même valeur.
Toutefois, à bien retourner le problème, je pense que ma question était sans objet... ou mal posée, ou irréfléchie, au choix. Mais, pour en être sûr, il faut que je retourne à la théorie de l'ACP, pour bien comprendre ce qu'on y fait et comment on procède.
Il me semble en effet que, finalement, dans l'ACP, on se fiche pas mal que les valeurs propres soient distinctes ou multiples ; je veux dire que si la plus grande valeur propre est, mettons, double, alors elle va déterminer un sous-espace propre de dimension 2, très bien ; mais cela n'est pas un souci, car ce qu'on va faire, c'est simplement prendre 2 axe orthogonaux dans ce sous-espace, qui constitueront les deux premiers axes de l'ACP. Si c'est bien vrai, ça devrait se comprendre en revenant à la théorie.
Bon, j'ai donc peut-être mis la charrue avant les boeufs...
Mettons qu'on ait deux variables : taille/poids.
Les deux sont assez fortement corrélées positivement.
Dans l'ACP, il faut s'attendre à ce que l'axe principal fasse croître les deux variables. (en gros : elle donne une variable qui parle de la taille de l'individu)
L'axe secondaire est intéressant aussi, car il fait croître l'un et décroître l'autre (comme l'IMC, mais linéaire) : il nous dit si chaque individu est plutôt lourd pour sa taille ou inversement.
Si la matrice de covariance a une valeur propre double, ça veut dire qu'on ne peut pas distinguer les deux axes, et que même, on pourrait indifféremment choisir n'importe quel couple de droites orthogonales.
C'est ce qui se passe si on fait l'ACP d'un couple indépendant : il n'y a alors rien à dire.
Justement, en général, ce n'est pas ce qui se produit.
Pourquoi ? Parce que, comme on te dit : une matrice symétrique a presque toujours ses valeurs propres distinctes, ce qui permet de les ordonner strictement, et de numéroter ses sous-espaces propres (des droites) par ordre de signifiance.
Presque toujours, ça veut dire que si la matrice de covariance est générique (notamment aléatoire à densité) on est (presque) sûr que ses valeurs propres sont distinctes deux-à-deux.
Ce qui m'amène à une question subsidiaire : soit une matrice semi-définie positive ; on calcule ses valeurs propres et il se trouve que 2 valeurs propres sont identiques ; est-ce que cela signifie quelque chose dans la structure des colonnes de la matrice ? Vous me direz que je n'ai qu'à chercher un exemple...
Mais je reconnais que continuer à discuter ainsi, en dehors d'un support mathématique précis, n'est pas efficace, et je suis désolé d'avoir - un peu par fainéantise - posé une question aussi floue.
Je vais d'abord revenir aux sources avant d'en venir aux questions, et la page Wikipedia sur "principal component analysis" me semble à première vue assez détaillée pour pouvoir bien comprendre la procédure mathématique (bizarre qu'il faille la plupart du temps revenir à une version anglaise pour avoir des informations précises, mais ceci est un autre point).
L'un des principaux objectifs de l'ACP est de remplacer de nombreuses variables non indépendantes (si elles sont indépendantes, ça ne sert à rien) par de nouvelles variables, combinaisons linéaires des autres et en moins grand nombre (parfois 2 ou 3, généralement moins d'une dizaine), portant l'essentiel de l'information. Donc s'il y a deux ou trois dimensions de valeur propre supérieure aux autres, ça ne pose aucun problème.
Comme on ne rencontre jamais ce cas en pratique, par simplification on parle de l'axe correspondant à cette valeur propre, même si cet "axe" pourrait être un plan, voir un sous-espace de dimension 3.
Pour un statisticien praticien, ta question est un pure pinaillage de matheux; sachant qu'il sera bien évidemment capable de s'adapter si par hasard l'espace propre n'était pas de dimension 1.
Cordialement.
NB : Inutile de chercher une autre raison, les matrice obtenues dans le réel n'ont aucune raison d'être particulières, donc à priori, l'espace propre de dimension 2 n'a rien d'impossible.
La question est intéressante. Simple remarque, même chez les auteurs spécialistes en analyse des données et pinailleurs, ils ne notent pas d'inégalités strictes mais plutôt $ \lambda_{1}\geq\lambda_{2}\geq\cdots\geq\lambda_{P}>0 $ en ce qui concerne les valeurs propres.
Cordialement.
Ajout : il est d'usage de mettre des majuscules à ce domaine des statistiques pour spécifier celui-ci sinon, en statistique, tout est analyse des données. Merci quand même.