Fix typo
line 404
This commit is contained in:
parent
75bdedb8a8
commit
00ebcec210
1 changed files with 1 additions and 1 deletions
|
@ -401,7 +401,7 @@ Le système est constitué d'un environnement et d'un acteur.
|
|||
On suppose que le temps est discontinu.
|
||||
Ainsi à l'instant $t$, l'environnement est dans un état $e \in \mathbb{E}$.
|
||||
L'acteur observe l'environnement au travers d'un interpréteur qui lui renvoie un vecteur $s \in \mathbb{S}$, le vecteur d'observation.
|
||||
L'acteur a la possibilité de réaliser une action $a in \mathbb{A}$ pour influencer l'environnement.
|
||||
L'acteur a la possibilité de réaliser une action $a \in \mathbb{A}$ pour influencer l'environnement.
|
||||
Suite à cette action, l'environnement change d'état et renvoie à l'acteur un nouveau vecteur d'observation et une récompense $r \in \R$.
|
||||
Cette récompense permet de quantifier la qualité de l'action et du nouvel état.
|
||||
Pour la suite, on notera $x ^ i$ la i-ème grandeur, et $x_t$ la grandeur à l'instant $t$.
|
||||
|
|
Loading…
Reference in a new issue