From 00ebcec2106f8a5eb9ce532a58df04522a592af9 Mon Sep 17 00:00:00 2001 From: Leopold Clement Date: Sun, 22 Aug 2021 18:34:22 +0200 Subject: [PATCH] Fix typo line 404 --- rapport.tex | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/rapport.tex b/rapport.tex index 3f3567f..a212988 100644 --- a/rapport.tex +++ b/rapport.tex @@ -401,7 +401,7 @@ Le système est constitué d'un environnement et d'un acteur. On suppose que le temps est discontinu. Ainsi à l'instant $t$, l'environnement est dans un état $e \in \mathbb{E}$. L'acteur observe l'environnement au travers d'un interpréteur qui lui renvoie un vecteur $s \in \mathbb{S}$, le vecteur d'observation. -L'acteur a la possibilité de réaliser une action $a in \mathbb{A}$ pour influencer l'environnement. +L'acteur a la possibilité de réaliser une action $a \in \mathbb{A}$ pour influencer l'environnement. Suite à cette action, l'environnement change d'état et renvoie à l'acteur un nouveau vecteur d'observation et une récompense $r \in \R$. Cette récompense permet de quantifier la qualité de l'action et du nouvel état. Pour la suite, on notera $x ^ i$ la i-ème grandeur, et $x_t$ la grandeur à l'instant $t$.