Régression et classification avec deux variables quantitatives
Bonsoir à tous,
Je dispose de 2 variables quantitatives X et Y à valeurs dans R+ (privé de 0). Dans le schéma que je vous ai joins : X est sur l'axe des abscisses et Y est sur l'axe des ordonnées. Je voudrais être aidé pour deux problématiques distinctes.
1) Trouver la meilleure fonction f qui s'ajusterait sur Y en fonction de X (Problématique de régression, car il faut ajuster f tel que Y = f(X) )
Compte tenu de la forme de la courbe de Y en fonction de X, je vais partir sur une régression hyperbolique, c'est-à-dire une régression linéaire classique sur le changement de variable Z = 1/Y, quand pensez-vous ? Si vous avez de meilleures idées je suis preneur.
2) Créer une partition/classification. Là on voit bien que la variable Y baisse selon X (pas pour tous les points, mais en tendance), du coup je me dis que y a des intervalles de X distincts dans lesquels Y se comporte de manière différente.
Ma question c'est comment choisir ces intervalles de X ? Pour l'instant, j'ai fait mon choix au hasard : [0 - 500 000] , [500 000 - 1 000 000] , [1 000 000 - 5 000 000], [5 000 000 - infini], je compte ensuite étudier/modéliser Y sur chacun de ces intervalles. Et bien sûr je n'ai pas vraiment de justification particulière à ce choix d'intervalles.
Quels sont les algorithmes qui pourront m'aider à répondre à cette question ? J'y ai réfléchi, mais je pense que les algorithmes "K plus proches voisins", ni même l'algorithme "Classification ascendante hiérarchique ne répondent à cette question ? Du coup je vais m'orienter vers une ACP sur le tableau (X,Y), c'est la seule technique restante pour identifier des partitions particulières, qu'en pensez-vous ?
Merci d'avance pour vos réponses.
Réponses
-
Bonjour,
Ton graphique n'est pas génial : tous les points sont dans un coin et le reste est vide. Comme ç'a un peu une tête de $y= \frac{a}{x^b} $, essaie de tracer $\ln(Y) $ en fonction de $\ln(X) $. Si le résultat ressemble à une droite, tu pourras faire une régression linéaire sur ces deux variables. Sinon, comme la fonction peut aussi avoir l'allure d'un $y=ae^{-bx} $, tu peux essayer de faire de même avec $\ln(Y) $ en fonction de $X$.
Le changement de variable hyperbolique me paraît moins bien car il donnera un modèle du type $y=\frac1{ax+b} $, mais vu ton graphique qui semble avoir une singularité en 0, on devrait avoir $b=0$, donc le paramètre $b$ risque d'être inutile. Alors on se retrouve avec $y\approx\frac1{ax} $, ce qui est moins souple que le modèle $y=\frac{a} {x^b} $ que je proposais en premier.
Quant à la classification des $X$ en intervalles, elle a l'air pertinente à cause d'un graphique dont les variables sont mal choisies (cf. début de mon message). Donc elle n'est peut-être pas si pertinente. Essaie d'abord les autres régressions que je proposais pour voir si elles fonctionnent. Car il vaut mieux avoir un modèle $Y=f(X) $ global que plusieurs fonctions $f$ sur différents intervalles. -
Merci beaucoup Calli.Vous avez en effet bien cerner mon problème, j'avais prévu de faire une partition de Y sur différents intervalles de X uniquement dans le cas où je n'arrivais pas à estimer une fonction de régression f convenable sur l'ensemble des valeurs X et Y.Je vais d'abord essayer les régressions que vous me proposez.
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.4K Toutes les catégories
- 63 Collège/Lycée
- 22.2K Algèbre
- 37.6K Analyse
- 6.3K Arithmétique
- 61 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 23 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.8K Géométrie
- 84 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 26 Mathématiques et finance
- 342 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 804 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres