Update 8-Reinforcement/2-Gym/translations/assignment.es.md

Co-authored-by: Steven Jocol <53009062+Stevengez@users.noreply.github.com>
pull/537/head
Angel Mendez 4 years ago committed by GitHub
parent e5e470ff9c
commit 675c2bbf9b
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -27,7 +27,7 @@ El espacio de observación consiste de sólo dos valores:
El sistema de recompensas para el carrito de montaña es engañoso: El sistema de recompensas para el carrito de montaña es engañoso:
* La recompensa de 0 es otorgada si el agente alcanzó la bandera (position = 0.5) en la cima de la montaña. * La recompensa de 0 es otorgada si el agente alcanzó la bandera (posición = 0.5) en la cima de la montaña.
* La recompensa de -1 es otorgada si la posición del agente es menos de 0.5. * La recompensa de -1 es otorgada si la posición del agente es menos de 0.5.
El episodio termina si la posición del carrito es más de 0.5, o la longitud del episodio es mayor que 200. El episodio termina si la posición del carrito es más de 0.5, o la longitud del episodio es mayor que 200.

Loading…
Cancel
Save