Petit jeu décisionnel de Markov

Bonjour à toutes et à tous !

Je m'intéresse au processus décisionnel de Markov suivant : 

Soit $E=\{0,...,N\}$ un ensemble fini, $A = \{0,1\}$ l'ensemble des actions possibles. Pour chaque point de E sauf 1 (voir plus loin), on peut choisir n'importe quelle action, 0 ou 1. J'ai précisé sauf 1 parce qu'il y a un point qui ne dispose que de l'action 0 (j'appelle ce point 0).

 Les récompenses sont définies de la manière suivante : Si l'action 0 est choisie, l'agent ne gagne rien puis transition selon la matrice de transition $P$. Si l'action 1 est choisie, l'agent gagne une récompense $R>0$ puis transitionne selon la matrice $P^a$, avec a entier.

La matrices P est telle que $\forall i,j$ $P_{ij} >0$

Intuitivement, j'ai l'impression (peut être fausse) que la récompense moyenne à l'infinie ($\lim_{N \to \infty} \frac{1}{N} \sum_{n=1}^N R_n $ ) est maximisée lorsqu'on choisit toujours l'action 1 si elle est disponible. Mais j'ai du mal à comprendre comment le montrer.

Avec vous des idées ?

Merci d'avance !

bredouille



Réponses

  • Sauf $1$ ou sauf un ?
  • Pardon je n’avais pas vu que c’était ambigu. Il n’y a qu’un seul point qui ne dispose que de l’action 0. Par choix j’ai appelé ce point 0. 
  • Ah et as-tu fait des simulations ?
  • Non pas vraiment. Je pensais pouvoir arriver à une preuve formelle en utilisant que choisir 0 puis 1 est équivalent à choisir 1 puis 0 si c’est possible. 
Connectez-vous ou Inscrivez-vous pour répondre.