Estimer une distribution a posteriori

Bonjour,

Je viens de m'inscrire sur ce forum afin de trouver un peu de lumière au problème que je vais tenter de vous décrire le plus correctement et complètement possible.

Je tente d'estimer la biomasse des arbres par hectare de foret en réalisant des prévisions sur la distribution a posteriori de forêts qui font l'objet de mon étude.
Pour ce faire je calcul d'abord, pour chaque arbre de l'échantillon sa distribution a posteriori sur base de 100 estimations réalisées à l'aide de 100 couples de paramètres alpha et beta obtenus par modélisation bayésienne pour une régression linéaire.
J'ai donc pour chaque X de mon échantillon une distribution (normale).

Ce que je souhaite obtenir c'est la distribution a postériori d'une foret J sur base des distributions individuelles de chaque X appartenant à J.

Lorsque j'additionne les moyennes de mes X pour obtenir le total pour une forêt et que je calcule son écart type, ce-dernier est souvent supérieur à la moyenne, car dans mon échantillon, les moyennes varient par exemple entre 50 et 1200 (il y a des grands arbres et des tout petits arbres).

Au final, lorsque je calcule la distribution a posteriori d'une de mes forêts, je me retrouve avec un intervalle dont la limite inférieure est négative, ce qui me contrarie fortement car il s'agit de masse en Kg, et que c'est absurde ...


L'astuce peut-être est de passer en logarithme ?



Par avance, merci de l'aide qui peut m'être apportée.

Bien à vous.

Réponses

  • Bonjour, il faut clarifer un peu plus. Voici comment je comprends le problème. On a plusieurs forêts. Dans chaque forêt, on a plusieurs arbres. On effectue un échantillonnage d'arbres d'une forêt et on mesure leur masse. Chaque arbre à UNE masse, mesurée. Les mesures sont-elles diamètre et longueur ? Si oui, on calcule d'abord la masse de chaque arbre de l'échantillon. Il faut supposer la forme comme un cylindre et la densité normale du bois. Puis on trace la loi de la masse (certainement normale ou pas très éloginée, on raffinera plus tard). La loi des masses dans la forêt échantillonnée est la loi trouvée (car on a pris suffisamment d'arbres, environ 100). La loi des masses dans toutes les forêts est la même...

    Que manque-t-il à cette description ? que faut-t-il corriger pour cerner le problème ?
  • On connait le diamètre, la hauteur et la densité du bois pour tous les arbres d'une parcelle connue, après il suffit d'extrapoler à l'hectare :-)

    Certains sites possèdent 30 arbres, d'autres 200.

    Pour chaque arbre, je connais la moyenne et son ecart-type que j'ai estimé grâce au calcul de 100 estimations par arbres.

    Je dois donc estimer pour chaque forêt (avec N allant de 30 a 200 +-) une estimation de sa distribution en fonction des distributions individuelles des arbres qui la compose.


    J'espère être suffisamment explicite. J'y travaille depuis un moment et ce n'est pas facile de se mettre dans la tête de quelqu'un qui doit prendre le sujet en cour.
  • Bonjour, on s'approche, mais il faut clarifier encore un peu. Qu'appelles-tu "100 estimations par arbre" ? Mesure-t-on 100 fois le diamètre et la longueur sur un arbre donné ?
  • Non, ce sont 100 valeurs possibles calculées selon un modèle statistique utilisant comme parametres alpha et beta.

    J'utilise des valeurs de alpha et beta que j'ai calculée moi même dans une étape précédente. J'ai obtenu ces 100 valeurs de alpha et beta grace au théorème de Bayes qui me fournissait les distributions à postériori de alpha et beta. (Ce sont les parametres d'équations de forets existant dans le monde que j'ai calibrée et dont les biomasses sont connues, et j'ai procédé a une étape ou j'affecte mes arbres de mon échantillon à des forêts dans le monde où j'utilise leurs parametres car elles se raprochent le plus de mon échantillon)

    Ce qui fait qu'au lieu d'avoir une seule valeur ponctuelle d'estimation par arbre, je possède sa moyenne et son ecart type prédit. La est tout l'interet de ma méthode en fait ..
  • Bonjour, je crois que je ne comprends pas ta démarche. Après avoir déterminée quelle distribution de forêt connue s'approche le plus de celle de ton échantillon, alors on a la distribution de la forêt d'où provient l'échantillon, non ? Pour reprendre ton premier message, si les négatifs sont gênants, pourquoi ne pas calculer la probabilité que la masse soit supérieure à $m$ ?
  • Non,

    Ne connaissant pas la biomasse de mes forêts, je dois l'estimer à l'aide de D, H et rho, dans une equation de type y=ax+b
    x est le produit de D, H et rho et alpha et beta sont les paramètres de la foret qui se rapproche le plus de l'arbre.
    Chaque arbre est donc estimé selon des parametres différents et leurs caractéristiques propres
  • Je viens de m'apercevoir de mon erreur. Elle se situe ailleurs. Je ne faisais pas les bonnes opérations d'addition.
    Je ne vais expliquer inutilement mais je vous remercie vivement, Yves, du temps que vous avez accordé à mon message.
    Notre discussion m'aura permis de trouver la lumière :-)

    Bien à vous
Connectez-vous ou Inscrivez-vous pour répondre.