K-fold cross validation
dans Statistiques
Bonjour
J'ai du mal à comprendre comment la méthode de K-fold cross validation marche.
Je sais qu'elle fait des partitions des données en K sous-ensembles. Chaque sous-ensemble sert successivement d'échantillon test, le reste d'échantillon d'apprentissage.
L'objectif est d'estimer l'erreur de prévision d'un modèle précis M, mais avec cette méthode on aura K autres modèles ! Je ne sais pas comment on examine le modèle en question ?
Cordialement.
J'ai du mal à comprendre comment la méthode de K-fold cross validation marche.
Je sais qu'elle fait des partitions des données en K sous-ensembles. Chaque sous-ensemble sert successivement d'échantillon test, le reste d'échantillon d'apprentissage.
L'objectif est d'estimer l'erreur de prévision d'un modèle précis M, mais avec cette méthode on aura K autres modèles ! Je ne sais pas comment on examine le modèle en question ?
Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Tu découpes ton jeu de données en K folds.
Pour k allant de 1 à K, tu estimes ton modèles sur les K-1 folds distincts du kème, puis tu calcules ton risque sur le kème fold.
Tu as ainsi K estimations de ton risque, que tu peux alors moyenner pour obtenir une estimation plus robuste de ton risque.
La partie apprentissage estime un modèle qui s'adapte avec ses données, alors qu'on a déjà un modèle à examiner.
par exemple, on veut examiner le modèle de régression logistique binaire heart_modele_glm
cv.glm(data = heart.num.data, glmfit = heart_modele_glm, cost = cout, K = K)
on fait comment ?
La k fold cross-validation permet de comparer plusieurs modèles concurrents sinon cela n'a pas vraiment de sens.
Cordialement.