line 404
This commit is contained in:
Leopold Clement 2021-08-22 18:34:22 +02:00
parent 75bdedb8a8
commit 00ebcec210

View file

@ -401,7 +401,7 @@ Le système est constitué d'un environnement et d'un acteur.
On suppose que le temps est discontinu.
Ainsi à l'instant $t$, l'environnement est dans un état $e \in \mathbb{E}$.
L'acteur observe l'environnement au travers d'un interpréteur qui lui renvoie un vecteur $s \in \mathbb{S}$, le vecteur d'observation.
L'acteur a la possibilité de réaliser une action $a in \mathbb{A}$ pour influencer l'environnement.
L'acteur a la possibilité de réaliser une action $a \in \mathbb{A}$ pour influencer l'environnement.
Suite à cette action, l'environnement change d'état et renvoie à l'acteur un nouveau vecteur d'observation et une récompense $r \in \R$.
Cette récompense permet de quantifier la qualité de l'action et du nouvel état.
Pour la suite, on notera $x ^ i$ la i-ème grandeur, et $x_t$ la grandeur à l'instant $t$.