|
7 months ago | |
---|---|---|
.. | ||
1-QLearning | 7 months ago | |
2-Gym | 7 months ago | |
README.md | 7 months ago |
README.md
Введение в обучение с подкреплением
Обучение с подкреплением (RL) рассматривается как один из основных парадигм машинного обучения наряду с контролируемым и неконтролируемым обучением. RL сосредоточено на принятии решений: правильное принятие решений или, по крайней мере, обучение на их основе.
Представьте, что у вас есть смоделированная среда, например, фондовый рынок. Что произойдет, если вы введете определенные правила? Будет ли это иметь положительный или отрицательный эффект? Если произойдет что-то негативное, вам нужно воспринять это как негативное подкрепление, извлечь из этого урок и изменить курс. Если результат положительный, вам нужно развивать это положительное подкрепление.
Питеру и его друзьям нужно убежать от голодного волка! Изображение от Jen Looper
Региональная тема: Питер и Волк (Россия)
Питер и Волк — это музыкальная сказка, написанная русским композитором Сергеем Прокофьевым. Это история о молодом пионере Питере, который смело выходит из своего дома на лесную поляну, чтобы поймать волка. В этом разделе мы будем обучать алгоритмы машинного обучения, которые помогут Питеру:
- Исследовать окрестности и создать оптимальную навигационную карту
- Научиться кататься на скейтборде и балансировать на нем, чтобы передвигаться быстрее.
🎥 Нажмите на изображение выше, чтобы послушать "Питера и Волка" Прокофьева
Обучение с подкреплением
В предыдущих разделах вы увидели два примера задач машинного обучения:
- Контролируемое, где у нас есть наборы данных, которые предлагают образцы решений для задачи, которую мы хотим решить. Классификация и регрессия являются задачами контролируемого обучения.
- Неконтролируемое, в котором у нас нет размеченных обучающих данных. Основной пример неконтролируемого обучения — это Кластеризация.
В этом разделе мы познакомим вас с новым типом задачи обучения, для которой не требуются размеченные обучающие данные. Существует несколько типов таких задач:
- Полу-контролируемое обучение, где у нас есть много неразмеченных данных, которые могут быть использованы для предварительного обучения модели.
- Обучение с подкреплением, в котором агент учится вести себя, проводя эксперименты в некоторой смоделированной среде.
Пример - компьютерная игра
Предположим, вы хотите научить компьютер играть в игру, такую как шахматы или Супер Марио. Чтобы компьютер мог играть в игру, нам нужно, чтобы он предсказывал, какой ход сделать в каждом из игровых состояний. Хотя это может показаться задачей классификации, это не так — потому что у нас нет набора данных с состояниями и соответствующими действиями. Хотя у нас могут быть некоторые данные, такие как существующие шахматные партии или записи игроков, играющих в Супер Марио, вероятно, что эти данные не будут достаточно покрывать достаточно большое количество возможных состояний.
Вместо того чтобы искать существующие игровые данные, Обучение с подкреплением (RL) основывается на идее заставить компьютер играть много раз и наблюдать за результатом. Таким образом, для применения обучения с подкреплением нам нужно две вещи:
-
Среда и симулятор, которые позволят нам играть в игру много раз. Этот симулятор определит все правила игры, а также возможные состояния и действия.
-
Функция вознаграждения, которая скажет нам, насколько хорошо мы действовали во время каждого хода или игры.
Основное отличие других типов машинного обучения от RL заключается в том, что в RL мы обычно не знаем, выигрываем мы или проигрываем, пока не закончим игру. Таким образом, мы не можем сказать, является ли определенный ход хорошим или плохим — мы получаем вознаграждение только в конце игры. Наша цель — разработать алгоритмы, которые позволят нам обучить модель в условиях неопределенности. Мы узнаем об одном алгоритме RL, который называется Q-learning.
Уроки
Авторы
"Введение в обучение с подкреплением" было написано с ♥️ Дмитрием Сошниковым
Отказ от ответственности:
Этот документ был переведен с использованием услуг машинного перевода на основе ИИ. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на родном языке следует считать авторитетным источником. Для критически важной информации рекомендуется профессиональный человеческий перевод. Мы не несем ответственности за любые недоразумения или неверные интерпретации, возникающие в результате использования этого перевода.