You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/8-Reinforcement/translations/README.ru.md

53 lines
8.3 KiB

This file contains invisible Unicode characters!

This file contains invisible Unicode characters that may be processed differently from what appears below. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to reveal hidden characters.

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# Введение в обучение с подкреплением
Обучение с подкреплением (Reinforcement learning, RL) рассматривается как одна из основных парадигм машинного обучения, наряду с обучением с учителем (supervised learning) и без учителя (unsupervised learning). RL - это все о принятии решений: принятии правильных решений или, по крайней мере, извлечении уроков из них.
Представьте, что у вас есть смоделированная среда, такая как фондовый рынок. Что произойдет, если вы введете определенное правило. Имеет ли это положительный или отрицательный эффект? Если происходит что-то негативное, вам нужно принять это егативное подкрепление_, извлечь из него урок и изменить направление. Если это положительный результат, вам нужно использовать это _положительное подкрепление_.
![Петя и волк](../images/peter.png)
> Пете и его друзьям нужно спастись от голодного волка! Автор изображения [Jen Looper](https://twitter.com/jenlooper)
## Региональная тема: Петя и Волк (Россия)
[Петя и Волк](https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%82%D1%8F_%D0%B8_%D0%B2%D0%BE%D0%BB%D0%BA) - музыкальная сказка русского композитора [Сергея Прокофьева](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%BE%D0%BA%D0%BE%D1%84%D1%8C%D0%B5%D0%B2,_%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B5%D0%B2%D0%B8%D1%87). Это история о юном пионере Пете, который смело выходит из своего дома на лесную поляну, чтобы преследовать волка. В этом разделе мы обучим алгоритмы машинного обучения, которые помогут Пете:
- **Исследовать** окрестности и построить оптимальную навигационную карту.
- **Научиться** пользоваться скейтбордом и балансировать на нем, чтобы двигаться быстрее.
[![Петя и Волк](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM)
> 🎥 Нажмите на изображение выше, чтобы послушать Петю и Волка Прокофьева
## Обучение с подкреплением
В предыдущих разделах вы видели два примера проблем машинного обучения:
- **Обучение с учителем**, где у нас есть наборы данных, которые предлагают примеры решений проблемы, которую мы хотим решить. [Классификация](../../4-Classification/README.md) и [регрессия](../../2-Regression/README.md) - это задачи обучения с учителем.
- **Обучение без учителя**, в котором у нас нет размеченных данных для обучения. Основным примером обучения без учителя является [Кластеризация](../../5-Clustering/README.md).
В этом разделе мы познакомим вас с новым типом задач, которые не требуют маркированных данных для обучения. Есть несколько типов таких проблем:
- **[Обучение с частичным привлечением учителя](https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D1%87%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%BD%D1%8B%D0%BC_%D0%BF%D1%80%D0%B8%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D1%83%D1%87%D0%B8%D1%82%D0%B5%D0%BB%D1%8F)**, где у нас есть много немаркированных данных, которые можно использовать для предварительного обучения модели.
- **[Обучение с подкреплением](https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC)**, в котором агент учится вести себя, проводя эксперименты в некоторой моделируемой среде.
### Пример - компьютерная игра
Предположим, вы хотите научить компьютер играть в игру, например, в шахматы или [Супер Марио](https://ru.wikipedia.org/wiki/Super_Mario_(%D1%81%D0%B5%D1%80%D0%B8%D1%8F_%D0%B8%D0%B3%D1%80)). Чтобы компьютер мог играть в игру, нам нужно, чтобы он предсказывал, какой ход сделать в каждом из игровых состояний. Хотя это может показаться проблемой классификации, это не так - потому что у нас нет набора данных с состояниями и соответствующими действиями. Хотя у нас могут быть некоторые данные, такие как существующие шахматные матчи или записи игроков, играющих в Супер Марио, скорее всего, что эти данные не будут в достаточной степени охватывать достаточно большое количество возможных состояний.
Вместо поиска существующих игровых данных **Обучение с подкреплением** (RL) основано на идее *заставить компьютер играть* много раз и наблюдать за результатом. Таким образом, чтобы применить обучение с подкреплением, нам нужны две вещи:
- **Среда** и **симулятор**, которые позволяют нам играть в игру много раз. Этот симулятор будет определять все правила игры, а также возможные состояния и действия.
- **Функция вознаграждения**, которая сообщит нам, насколько хорошо мы сделали отдельный ход или прошли всю игру.
Основное различие между другими типами машинного обучения и RL заключается в том, что в RL мы обычно не знаем, выиграем мы или проиграем, пока не закончим игру. Таким образом, мы не можем сказать, является ли отдельно взятый ход хорошим или нет - мы получаем награду только в конце игры. И наша цель - разработать алгоритмы, которые позволят нам обучать модель в неопределенных условиях. Мы познакомимся с одним алгоритмом RL под названием **Q-Learning**.
## Уроки
1. [Введение в обучение с подкреплением и Q-Learning](../1-QLearning/README.md)
2. [Использование тренажерного зала](../2-Gym/README.md)
## Благодарности
«Введение в обучение с подкреплением» написано с[Дмитрием Сошниковым](https://soshnikov.com)