History

leestott e4050807fb 🌐 Update translations via Co-op Translator		2 weeks ago
..
1-QLearning	🌐 Update translations via Co-op Translator	2 weeks ago
2-Gym	🌐 Update translations via Co-op Translator	2 weeks ago
README.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

Introdução ao aprendizado por reforço

O aprendizado por reforço, RL, é considerado um dos paradigmas básicos de aprendizado de máquina, ao lado do aprendizado supervisionado e não supervisionado. RL trata de decisões: tomar as decisões certas ou, pelo menos, aprender com elas.

Imagine que você tem um ambiente simulado, como o mercado de ações. O que acontece se você impuser uma determinada regulamentação? Isso terá um efeito positivo ou negativo? Se algo negativo acontecer, você precisa aceitar esse reforço negativo, aprender com ele e mudar de direção. Se o resultado for positivo, você precisa construir sobre esse reforço positivo.

Pedro e seus amigos precisam escapar do lobo faminto! Imagem por Jen Looper

Tópico regional: Pedro e o Lobo (Rússia)

Pedro e o Lobo é um conto musical escrito pelo compositor russo Sergei Prokofiev. É uma história sobre o jovem pioneiro Pedro, que corajosamente sai de sua casa para a clareira da floresta para perseguir o lobo. Nesta seção, treinaremos algoritmos de aprendizado de máquina que ajudarão Pedro a:

Explorar a área ao redor e construir um mapa de navegação ideal.
Aprender a usar um skate e se equilibrar nele, para se mover mais rápido.

🎥 Clique na imagem acima para ouvir Pedro e o Lobo de Prokofiev

Aprendizado por reforço

Nas seções anteriores, você viu dois exemplos de problemas de aprendizado de máquina:

Supervisionado, onde temos conjuntos de dados que sugerem soluções de exemplo para o problema que queremos resolver. Classificação e regressão são tarefas de aprendizado supervisionado.
Não supervisionado, no qual não temos dados de treinamento rotulados. O principal exemplo de aprendizado não supervisionado é Agrupamento.

Nesta seção, apresentaremos um novo tipo de problema de aprendizado que não requer dados de treinamento rotulados. Existem vários tipos de problemas desse tipo:

Aprendizado semi-supervisionado, onde temos muitos dados não rotulados que podem ser usados para pré-treinar o modelo.
Aprendizado por reforço, no qual um agente aprende como se comportar realizando experimentos em algum ambiente simulado.

Exemplo - jogo de computador

Suponha que você queira ensinar um computador a jogar um jogo, como xadrez ou Super Mario. Para que o computador jogue, precisamos que ele preveja qual movimento fazer em cada estado do jogo. Embora isso possa parecer um problema de classificação, não é - porque não temos um conjunto de dados com estados e ações correspondentes. Embora possamos ter alguns dados, como partidas de xadrez existentes ou gravações de jogadores jogando Super Mario, é provável que esses dados não cubram suficientemente um número grande de estados possíveis.

Em vez de procurar dados existentes do jogo, o Aprendizado por Reforço (RL) baseia-se na ideia de fazer o computador jogar muitas vezes e observar o resultado. Assim, para aplicar o Aprendizado por Reforço, precisamos de duas coisas:

Um ambiente e um simulador que nos permitam jogar muitas vezes. Esse simulador definiria todas as regras do jogo, bem como os estados e ações possíveis.
Uma função de recompensa, que nos diria quão bem nos saímos durante cada movimento ou partida.

A principal diferença entre outros tipos de aprendizado de máquina e RL é que, no RL, geralmente não sabemos se ganhamos ou perdemos até terminarmos o jogo. Assim, não podemos dizer se um determinado movimento isolado é bom ou não - só recebemos uma recompensa no final do jogo. Nosso objetivo é projetar algoritmos que nos permitam treinar um modelo sob condições incertas. Vamos aprender sobre um algoritmo de RL chamado Q-learning.

Lições

Créditos

"Introdução ao Aprendizado por Reforço" foi escrito com ♥️ por Dmitry Soshnikov

Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.