History

leestott e4050807fb 🌐 Update translations via Co-op Translator		2 weeks ago
..
1-QLearning	🌐 Update translations via Co-op Translator	2 weeks ago
2-Gym	🌐 Update translations via Co-op Translator	2 weeks ago
README.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

Introducción al aprendizaje por refuerzo

El aprendizaje por refuerzo, RL, se considera uno de los paradigmas básicos del aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado. RL trata sobre decisiones: tomar las decisiones correctas o, al menos, aprender de ellas.

Imagina que tienes un entorno simulado como el mercado de valores. ¿Qué sucede si impones una regulación específica? ¿Tiene un efecto positivo o negativo? Si ocurre algo negativo, necesitas tomar este refuerzo negativo, aprender de ello y cambiar de rumbo. Si el resultado es positivo, necesitas construir sobre ese refuerzo positivo.

¡Pedro y sus amigos necesitan escapar del lobo hambriento! Imagen por Jen Looper

Tema regional: Pedro y el Lobo (Rusia)

Pedro y el Lobo es un cuento musical escrito por el compositor ruso Sergei Prokofiev. Es una historia sobre el joven pionero Pedro, quien valientemente sale de su casa hacia el claro del bosque para perseguir al lobo. En esta sección, entrenaremos algoritmos de aprendizaje automático que ayudarán a Pedro:

Explorar el área circundante y construir un mapa de navegación óptimo.
Aprender a usar un monopatín y mantener el equilibrio en él, para moverse más rápido.

🎥 Haz clic en la imagen de arriba para escuchar Pedro y el Lobo de Prokofiev

Aprendizaje por refuerzo

En secciones anteriores, has visto dos ejemplos de problemas de aprendizaje automático:

Supervisado, donde tenemos conjuntos de datos que sugieren soluciones de muestra para el problema que queremos resolver. Clasificación y regresión son tareas de aprendizaje supervisado.
No supervisado, en el que no tenemos datos de entrenamiento etiquetados. El principal ejemplo de aprendizaje no supervisado es Agrupamiento.

En esta sección, te presentaremos un nuevo tipo de problema de aprendizaje que no requiere datos de entrenamiento etiquetados. Hay varios tipos de problemas de este tipo:

Aprendizaje semisupervisado, donde tenemos una gran cantidad de datos no etiquetados que pueden usarse para preentrenar el modelo.
Aprendizaje por refuerzo, en el que un agente aprende cómo comportarse realizando experimentos en algún entorno simulado.

Ejemplo - videojuego

Supongamos que quieres enseñar a una computadora a jugar un juego, como ajedrez o Super Mario. Para que la computadora juegue, necesitamos que prediga qué movimiento realizar en cada estado del juego. Aunque esto pueda parecer un problema de clasificación, no lo es, porque no tenemos un conjunto de datos con estados y acciones correspondientes. Aunque podríamos tener algunos datos como partidas de ajedrez existentes o grabaciones de jugadores jugando Super Mario, es probable que esos datos no cubran suficientemente una gran cantidad de estados posibles.

En lugar de buscar datos existentes del juego, el Aprendizaje por Refuerzo (RL) se basa en la idea de hacer que la computadora juegue muchas veces y observar el resultado. Por lo tanto, para aplicar el Aprendizaje por Refuerzo, necesitamos dos cosas:

Un entorno y un simulador que nos permitan jugar muchas veces. Este simulador definiría todas las reglas del juego, así como los posibles estados y acciones.
Una función de recompensa, que nos indique qué tan bien lo hicimos durante cada movimiento o partida.

La principal diferencia entre otros tipos de aprendizaje automático y RL es que en RL típicamente no sabemos si ganamos o perdemos hasta que terminamos el juego. Por lo tanto, no podemos decir si un movimiento en particular es bueno o no: solo recibimos una recompensa al final del juego. Y nuestro objetivo es diseñar algoritmos que nos permitan entrenar un modelo bajo condiciones inciertas. Aprenderemos sobre un algoritmo de RL llamado Q-learning.

Lecciones

Créditos

"Introducción al Aprendizaje por Refuerzo" fue escrito con ♥️ por Dmitry Soshnikov

Descargo de responsabilidad:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Si bien nos esforzamos por lograr precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.