Difficultés pour définir un estimateur

Bonjour
J'ai des difficultés pour définir un estimateur dans le cas suivant.

J'ai un vecteur de variables aléatoire indépendantes $M = (m_1, \ldots, m_m)$ suivant toutes des lois normales de paramètres $(\mu_j, \sigma^2)$ (voire peut-être $(\mu_j, \sigma_j^2)$) strictement positifs inconnus.

Je dispose d'une matrice d'observations partielle $T$ et d'une matrice de position $P$ telle que $T_{i,j}$ est une observation de $\lambda_i \times m_j$ si $P_{i,j} = 1$ et $T_{i,j} = 0$ si $P_{i,j} = 0$. Le vecteur $\Lambda = (\lambda_1, \ldots, \lambda_n)$ est inconnu mais tous les $\lambda_i$ sont positifs strictement.

On peut noter qu'une solution $(\mu_1, .., \mu_m, \lambda_1, ..., \lambda_n)$ est équivalente à toute solution $(\alpha \mu_1, ..., \alpha \mu_m, \frac 1 \alpha \lambda_1, ..., \frac 1 \alpha \lambda_n)$. Je choisis donc de prendre $\Lambda$ dont la norme 1 est égale à $n$.
Pour $\Lambda$ fixé, un estimateur sans biais de $(\mu_1, ..., \mu_m)$ est réalisable par $\hat{\mu_i} = \frac{\sum_j T_{i,j}}{\sum_j \lambda_j P_{i,j}}$.
Pour $(\mu_1, ..., \mu_m)$ fixé, le meilleur $\Lambda$ possible est donné par $\lambda_j = \frac{\sum_i T_{i,j}}{\sum_i \mu_i P_{i,j}}$.
Comme je ne vois pas comment estimer $\Lambda$ et $(\mu_1, ..., \mu_m)$ simultanément, j'ai choisi de partir de $\Lambda = (1, \ldots, 1)$ puis d'estimer successivement $(\mu_1, ..., \mu_m)$ et $\Lambda$ jusqu'à convergence, avec à chaque étape une normalisation de $\Lambda$.

Dernier point : mes observations comportent un certain nombre de points aberrants, de valeur trop importante, que je supprime progressivement à chaque étape.
J'observe de bons résultats mais je me demande comment justifier cela proprement. Est-ce qu'il serait possible de résoudre ce problème à l'aide de l'algorithme EM ? Ou sinon par une autre méthode ?
Je vous remercie d'avance !

Réponses

  • Pas très clair : $M$ est d'abord une suite de variables aléatoires normales (indépendantes?) mais il semble qu'ensuite c'est plutôt la suite $(\mu_1,\ldots,\mu_n).$ Et qui est $\lambda$ par rapport à la suite $(\lambda_1,\ldots,\lambda_n)$ ?
  • Bonjour,
    Effectivement, mon message n'est pas très clair, je vais le modifier ! Le vecteur $\Lambda$ est donné par $\Lambda = (\lambda_1, ..., \lambda_n)$.
    Est-ce que le message initial est plus clair ?
  • oui, et qui est $\lambda?$ Et les variables aleatoires $m_j$, elles sont sans doute independantes? Ah! pardon, je vois qu'il n'est plus question de ce $\lambda.$


    Il faudrait en savoir un peu plus sur la matrice $P.$ On doit considerer le graphe oriente associe a $P$ de sommets $V=\{1,\ldots,n\}$ et d'ensemble $E$ d'aretes $(i,j)$ telles que $P_{ij}=1.$ Je ne vois pas beaucoup d'aleatoire la dedans. La matrice de rang 1 qui est $\Lambda M^T$ est recouverte d'un cache qui montre seulement une partie $E$ de ses coefficients, qui est la matrice $T$. Si $E$ est assez gros -obligatoirement avec plus de $2n-1$ points, on peut esperer resoudre explicitement le systeme. Cela semble dependre des proprietes de $G$ et forme un interessant probleme combinatoire: on se donne un graphe, le poids de l'arete $(ij )$ est connu et vaut $\lambda_im_j$, trouver les $\lambda_i$ (avec par exemple $ \lambda^2_1+\cdots+\lambda_n^2=1$)et les $m_j$. Si la cns d'une solution unique n'est pas remplie, alors on peut chercher a faire de l'estimation, mais seulement donc apres s'etre assure qu'il n'y a pas de solution deterministe.
  • En fait j'ai quelques idees sur cette cns, mais elles seraient plus faciles a expliquer si tu sais ce que sont les classes transientes et recurrentes d'une chaine de Markov finie.
  • Merci pour ta réponse !

    Effectivement, les variables $m_j$ sont indépendantes.

    Je ne vois pas comment on peut déterminer explicitement les $\lambda_i$ et $\mu_j$. Si $P_{i,j}$ vaut 1, $T_{i,j}$ ne vaut pas $\lambda_i \mu_j$ mais est une observation d'une loi normale de paramètres $(\lambda_i \mu_j, \lambda_i^2 \sigma^2)$.

    $P$ comporte environ 200 à 300 lignes et 2000 à 4000 colonnes selon les cas. Chaque ligne comporte 50 à 300 valeurs non nulles, et chaque colonne 1 à 40 valeurs non nulles.

    Je ne suis pas un expert en chaines de Markov mais je me plongerai volontiers dans mes cours si nécessaire !
  • 1) Ce que je propose ne vise pas a calculer $\lambda_i\mu_j$ mais seulement $\lambda_im_j$ puisque tu ne disposes que de la matrice $T$, qui est la matrice $\Lambda M^T$ occultee par $P.$


    2) Car en fait je ne comprends pas bien ta demarche: tu veux estimer $\mu_j$ mais tu ne disposes au mieux que d'une seul echantillon en fin de parcours pour ca, soit $m_j?$ Ce n'est pas beaucoup.



    3) Pour calculer $\lambda_i$ et $m_j$ j'errais en parlant de chaines de Markov et je ne parlais pas du bon graphe. Je commence par un probleme un peu plus simple en remplacant le produit $w_{ij}=\lambda_im_j$ par une somme $w_{ij}=x_i+y_j$ pour me faire comprendre. Je me donne deux ensembles $I$ et $J$ de tailles $n$ et $m$ et une partie $V$ de $I\times J.$ ($V$ est l'ensemble des $(i,j)$ tels que $P_{ij}=1$) On dira que deux points distincts de $V$ sont relies par une arete s'ils ont une coordonnee commune , cad $(i,j)\sim (i',j')$ si ou bien $i=i'$ ou bien $j=j'$. Soit $E$ l'ensemble des aretes. Donc $G=(V,E)$ est un graphe non oriente.



    Le point $(i,j)$ de $V$ est affecte du poids connu $w_{ij}=x_i+y_j$ mais $x_i$ et $y_j$ sont inconnus.
    Alors si $V_1$ est une composante connexe du graphe alors les $x_i$ et $y_j$ tels que $(i,j)\in V_1$ sont
    calculables a une constante additive pres. Par exemple soit le chemin

    $$(i_1,j_1),\ (i_1,j_2),\ (i_2,j_2),\ i_2,j_3),\ (i_3,j_3),\ (i_3,j_4) ,$$

    alors si $x_1=C$ on a $y_1=w_{11}-C,$ $y_2=w_{12}-C,$ $x_2=w_{22}-w_{12}+C,$ $y_3=w_{23}-w_{22}+w_{12}-C$ etc. (pour simplifier, j'ai note $w_{23}$ ce que j'aurais du noter $w_{i_2,j_3}.$


    4) Avec $w_{ij}=\lambda_im_j$ la demarche est la meme, et les formules un peu plus compliquees.


    5) Donc tu es amene a voir quelles sont les composantes connexes du graphe $G$, car il y aura une constante arbitraire pour chacune d'entre elles. Prie pour que en fait le graphe soit connexe, avec les nombres enormes que tu mentionnes, cela peut etre vrai. Le bon informaticien que tu es doit s'en tirer.
  • Bonjour, et merci pour ta réponse !

    Pour le point 2), je pense que je n'ai peut-être pas été assez clair. Il n'y a pas une unique observation des $m_j$ que l'on multiplie ensuite par les $\lambda_i$ pour obtenir $T$, mais tous les $T_{i,j}$ non nuls sont une observation de $\lambda_i m_j$. Donc si une colonne $j$ de $T$ contient 10 valeurs, nous auront 10 observations différentes de $m_j$, mais que nous ne verrons qu'après multiplication par les $\lambda_i$ (inconnus) associés.

    Effectivement, je vois très bien comment la méthode que tu me présente pourrait s'appliquer dans le cas d'une unique observation des $m_j$, mais moins dans le cas d'observations distinctes pour les différentes valeurs de $T$.
  • Pas de probleme : la ou je mettais $m_j$ il te faut mettre la moyenne des dix observations de cet $m_j.$ En esperant que $P$ ne change pas a chacune des dix observations.
Connectez-vous ou Inscrivez-vous pour répondre.