Régression et classification avec deux variables quantitatives

maxwell
Modifié (January 2022) dans Statistiques
Bonsoir à tous,
Je dispose de 2 variables quantitatives X et Y à valeurs dans  R+ (privé de 0). Dans le schéma que je vous ai joins : X est sur l'axe des abscisses et Y est sur l'axe des ordonnées. Je voudrais être aidé pour deux problématiques distinctes.
1) Trouver la meilleure fonction f qui s'ajusterait sur Y en fonction de X (Problématique de régression, car il faut ajuster f tel que Y = f(X) )
Compte tenu de la forme de la courbe de Y en fonction de X, je vais partir sur une régression hyperbolique, c'est-à-dire une régression linéaire classique sur le changement de variable Z = 1/Y, quand pensez-vous ? Si vous avez de meilleures idées je suis preneur.

2) Créer une partition/classification. Là on voit bien que la variable Y baisse selon X (pas pour tous les points, mais en tendance), du coup je me dis que y a des intervalles de X distincts dans lesquels Y se comporte de manière différente.
Ma question c'est comment choisir ces intervalles de X ? Pour l'instant, j'ai fait mon choix au hasard :  [0 - 500 000] , [500 000 - 1 000 000] , [1 000 000 - 5 000 000], [5 000 000 - infini], je compte ensuite étudier/modéliser Y sur chacun de ces intervalles. Et bien sûr je n'ai pas vraiment de justification particulière à ce choix d'intervalles.

Quels sont les algorithmes qui pourront m'aider à répondre à cette question ? J'y ai réfléchi, mais je pense que les algorithmes "K plus proches voisins", ni même l'algorithme "Classification ascendante hiérarchique ne répondent à cette question ? Du coup je vais m'orienter vers une ACP sur le tableau (X,Y), c'est la seule technique restante pour identifier des partitions particulières, qu'en pensez-vous ?
Merci d'avance pour vos réponses.

Réponses

  • Calli
    Modifié (January 2022)
    Bonjour, 
    Ton graphique n'est pas génial : tous les points sont dans un coin et le reste est vide. Comme ç'a un peu une tête de $y= \frac{a}{x^b} $, essaie de tracer $\ln(Y) $ en fonction de $\ln(X) $. Si le résultat ressemble à une droite, tu pourras faire une régression linéaire sur ces deux variables. Sinon, comme la fonction peut aussi avoir l'allure d'un $y=ae^{-bx} $, tu peux essayer de faire de même avec $\ln(Y) $ en fonction de $X$.

    Le changement de variable hyperbolique me paraît moins bien car il donnera un modèle du type $y=\frac1{ax+b} $, mais vu ton graphique qui semble avoir une singularité en 0, on devrait avoir $b=0$, donc le paramètre $b$ risque d'être inutile. Alors on se retrouve avec $y\approx\frac1{ax} $, ce qui est moins souple que le modèle  $y=\frac{a} {x^b} $ que je proposais en premier.

    Quant à la classification des $X$ en intervalles, elle a l'air pertinente à cause d'un graphique dont les variables sont mal choisies (cf. début de mon message). Donc elle n'est peut-être pas si pertinente. Essaie d'abord les autres régressions que je proposais pour voir si elles fonctionnent. Car il vaut mieux avoir un modèle $Y=f(X) $ global que plusieurs fonctions $f$ sur différents intervalles. 
  • maxwell
    Modifié (January 2022)
    Merci beaucoup Calli.
    Vous avez en effet bien cerner mon problème, j'avais prévu de faire une partition de Y sur différents intervalles de X uniquement dans le cas où je n'arrivais pas à estimer une fonction de régression f convenable sur l'ensemble des valeurs X et Y.
    Je vais d'abord essayer les régressions que vous me proposez.
Connectez-vous ou Inscrivez-vous pour répondre.