Estimer une distribution a posteriori
dans Statistiques
Bonjour,
Je viens de m'inscrire sur ce forum afin de trouver un peu de lumière au problème que je vais tenter de vous décrire le plus correctement et complètement possible.
Je tente d'estimer la biomasse des arbres par hectare de foret en réalisant des prévisions sur la distribution a posteriori de forêts qui font l'objet de mon étude.
Pour ce faire je calcul d'abord, pour chaque arbre de l'échantillon sa distribution a posteriori sur base de 100 estimations réalisées à l'aide de 100 couples de paramètres alpha et beta obtenus par modélisation bayésienne pour une régression linéaire.
J'ai donc pour chaque X de mon échantillon une distribution (normale).
Ce que je souhaite obtenir c'est la distribution a postériori d'une foret J sur base des distributions individuelles de chaque X appartenant à J.
Lorsque j'additionne les moyennes de mes X pour obtenir le total pour une forêt et que je calcule son écart type, ce-dernier est souvent supérieur à la moyenne, car dans mon échantillon, les moyennes varient par exemple entre 50 et 1200 (il y a des grands arbres et des tout petits arbres).
Au final, lorsque je calcule la distribution a posteriori d'une de mes forêts, je me retrouve avec un intervalle dont la limite inférieure est négative, ce qui me contrarie fortement car il s'agit de masse en Kg, et que c'est absurde ...
L'astuce peut-être est de passer en logarithme ?
Par avance, merci de l'aide qui peut m'être apportée.
Bien à vous.
Je viens de m'inscrire sur ce forum afin de trouver un peu de lumière au problème que je vais tenter de vous décrire le plus correctement et complètement possible.
Je tente d'estimer la biomasse des arbres par hectare de foret en réalisant des prévisions sur la distribution a posteriori de forêts qui font l'objet de mon étude.
Pour ce faire je calcul d'abord, pour chaque arbre de l'échantillon sa distribution a posteriori sur base de 100 estimations réalisées à l'aide de 100 couples de paramètres alpha et beta obtenus par modélisation bayésienne pour une régression linéaire.
J'ai donc pour chaque X de mon échantillon une distribution (normale).
Ce que je souhaite obtenir c'est la distribution a postériori d'une foret J sur base des distributions individuelles de chaque X appartenant à J.
Lorsque j'additionne les moyennes de mes X pour obtenir le total pour une forêt et que je calcule son écart type, ce-dernier est souvent supérieur à la moyenne, car dans mon échantillon, les moyennes varient par exemple entre 50 et 1200 (il y a des grands arbres et des tout petits arbres).
Au final, lorsque je calcule la distribution a posteriori d'une de mes forêts, je me retrouve avec un intervalle dont la limite inférieure est négative, ce qui me contrarie fortement car il s'agit de masse en Kg, et que c'est absurde ...
L'astuce peut-être est de passer en logarithme ?
Par avance, merci de l'aide qui peut m'être apportée.
Bien à vous.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Que manque-t-il à cette description ? que faut-t-il corriger pour cerner le problème ?
Certains sites possèdent 30 arbres, d'autres 200.
Pour chaque arbre, je connais la moyenne et son ecart-type que j'ai estimé grâce au calcul de 100 estimations par arbres.
Je dois donc estimer pour chaque forêt (avec N allant de 30 a 200 +-) une estimation de sa distribution en fonction des distributions individuelles des arbres qui la compose.
J'espère être suffisamment explicite. J'y travaille depuis un moment et ce n'est pas facile de se mettre dans la tête de quelqu'un qui doit prendre le sujet en cour.
J'utilise des valeurs de alpha et beta que j'ai calculée moi même dans une étape précédente. J'ai obtenu ces 100 valeurs de alpha et beta grace au théorème de Bayes qui me fournissait les distributions à postériori de alpha et beta. (Ce sont les parametres d'équations de forets existant dans le monde que j'ai calibrée et dont les biomasses sont connues, et j'ai procédé a une étape ou j'affecte mes arbres de mon échantillon à des forêts dans le monde où j'utilise leurs parametres car elles se raprochent le plus de mon échantillon)
Ce qui fait qu'au lieu d'avoir une seule valeur ponctuelle d'estimation par arbre, je possède sa moyenne et son ecart type prédit. La est tout l'interet de ma méthode en fait ..
Ne connaissant pas la biomasse de mes forêts, je dois l'estimer à l'aide de D, H et rho, dans une equation de type y=ax+b
x est le produit de D, H et rho et alpha et beta sont les paramètres de la foret qui se rapproche le plus de l'arbre.
Chaque arbre est donc estimé selon des parametres différents et leurs caractéristiques propres
Je ne vais expliquer inutilement mais je vous remercie vivement, Yves, du temps que vous avez accordé à mon message.
Notre discussion m'aura permis de trouver la lumière :-)
Bien à vous