You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/es/8-Reinforcement
Pikachú 9e189e28e2
updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator
8 months ago
..
1-QLearning updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator 8 months ago
2-Gym updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator 8 months ago
README.md updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator 8 months ago

README.md

Introducción al aprendizaje por refuerzo

El aprendizaje por refuerzo, RL, es visto como uno de los paradigmas básicos del aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado. RL trata sobre decisiones: tomar las decisiones correctas o al menos aprender de ellas.

Imagina que tienes un entorno simulado como el mercado de valores. ¿Qué pasa si impones una regulación determinada? ¿Tiene un efecto positivo o negativo? Si ocurre algo negativo, necesitas tomar este refuerzo negativo, aprender de él y cambiar de rumbo. Si es un resultado positivo, necesitas construir sobre ese refuerzo positivo.

Pedro y el lobo

¡Pedro y sus amigos necesitan escapar del lobo hambriento! Imagen por Jen Looper

Tema regional: Pedro y el lobo (Rusia)

Pedro y el lobo es un cuento musical escrito por el compositor ruso Sergei Prokofiev. Es una historia sobre el joven pionero Pedro, que valientemente sale de su casa hacia el claro del bosque para perseguir al lobo. En esta sección, entrenaremos algoritmos de aprendizaje automático que ayudarán a Pedro:

  • Explorar el área circundante y construir un mapa de navegación óptimo.
  • Aprender a usar una patineta y equilibrarse en ella, para moverse más rápido.

Pedro y el lobo

🎥 Haz clic en la imagen de arriba para escuchar Pedro y el lobo por Prokofiev

Aprendizaje por refuerzo

En secciones anteriores, has visto dos ejemplos de problemas de aprendizaje automático:

  • Supervisado, donde tenemos conjuntos de datos que sugieren soluciones de muestra al problema que queremos resolver. Clasificación y regresión son tareas de aprendizaje supervisado.
  • No supervisado, en el cual no tenemos datos de entrenamiento etiquetados. El principal ejemplo de aprendizaje no supervisado es Agrupamiento.

En esta sección, te presentaremos un nuevo tipo de problema de aprendizaje que no requiere datos de entrenamiento etiquetados. Hay varios tipos de estos problemas:

Ejemplo - juego de computadora

Supongamos que quieres enseñar a una computadora a jugar un juego, como el ajedrez, o Super Mario. Para que la computadora juegue un juego, necesitamos que prediga qué movimiento hacer en cada uno de los estados del juego. Aunque esto pueda parecer un problema de clasificación, no lo es, porque no tenemos un conjunto de datos con estados y acciones correspondientes. Aunque podamos tener algunos datos como partidas de ajedrez existentes o grabaciones de jugadores jugando Super Mario, es probable que esos datos no cubran suficientemente un número grande de estados posibles.

En lugar de buscar datos de juego existentes, el Aprendizaje por Refuerzo (RL) se basa en la idea de hacer que la computadora juegue muchas veces y observar el resultado. Así, para aplicar el Aprendizaje por Refuerzo, necesitamos dos cosas:

  • Un entorno y un simulador que nos permitan jugar un juego muchas veces. Este simulador definiría todas las reglas del juego, así como los posibles estados y acciones.

  • Una función de recompensa, que nos diría qué tan bien lo hicimos durante cada movimiento o juego.

La principal diferencia entre otros tipos de aprendizaje automático y RL es que en RL típicamente no sabemos si ganamos o perdemos hasta que terminamos el juego. Por lo tanto, no podemos decir si un cierto movimiento solo es bueno o no - solo recibimos una recompensa al final del juego. Y nuestro objetivo es diseñar algoritmos que nos permitan entrenar un modelo bajo condiciones inciertas. Aprenderemos sobre un algoritmo de RL llamado Q-learning.

Lecciones

  1. Introducción al aprendizaje por refuerzo y Q-Learning
  2. Uso de un entorno de simulación de gimnasio

Créditos

"La Introducción al Aprendizaje por Refuerzo" fue escrita con ♥️ por Dmitry Soshnikov

Descargo de responsabilidad: Este documento ha sido traducido utilizando servicios de traducción automática basados en inteligencia artificial. Aunque nos esforzamos por lograr precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de ningún malentendido o interpretación errónea que surja del uso de esta traducción.