8.8 KiB

Raw Permalink Blame History Unescape Escape

Введение в обучение с подкреплением

Обучение с подкреплением (Reinforcement Learning, RL) считается одной из основных парадигм машинного обучения наряду с обучением с учителем и без учителя. RL посвящено принятию решений: принятию правильных решений или, по крайней мере, обучению на их основе.

Представьте себе смоделированную среду, например, фондовый рынок. Что произойдет, если вы введете определенное регулирование? Будет ли это иметь положительный или отрицательный эффект? Если произойдет что-то негативное, вам нужно принять это негативное подкрепление, извлечь из него уроки и изменить курс. Если результат положительный, нужно развивать это положительное подкрепление.

Петя и его друзья должны убежать от голодного волка! Иллюстрация Джен Лупер

Региональная тема: Петя и волк (Россия)

Петя и волк — это музыкальная сказка, написанная русским композитором Сергеем Прокофьевым. Это история о юном пионере Пете, который смело выходит из дома на лесную поляну, чтобы поймать волка. В этом разделе мы будем обучать алгоритмы машинного обучения, которые помогут Пете:

Исследовать окружающую местность и построить оптимальную карту навигации.
Научиться кататься на скейтборде и держать равновесие, чтобы передвигаться быстрее.

🎥 Нажмите на изображение выше, чтобы послушать "Петя и волк" Прокофьева

Обучение с подкреплением

В предыдущих разделах вы видели два примера задач машинного обучения:

С учителем, где у нас есть наборы данных, предлагающие примеры решений задачи, которую мы хотим решить. Классификация и регрессия относятся к задачам обучения с учителем.
Без учителя, где у нас нет размеченных данных для обучения. Основной пример обучения без учителя — это кластеризация.

В этом разделе мы познакомим вас с новым типом задач обучения, который не требует размеченных данных для обучения. Существует несколько типов таких задач:

Полуобучение, где у нас есть много неразмеченных данных, которые можно использовать для предварительного обучения модели.
Обучение с подкреплением, где агент учится, как себя вести, проводя эксперименты в некоторой смоделированной среде.

Пример — компьютерная игра

Предположим, вы хотите научить компьютер играть в игру, например, в шахматы или Super Mario. Чтобы компьютер мог играть в игру, нам нужно, чтобы он предсказывал, какой ход сделать в каждом из игровых состояний. Хотя это может показаться задачей классификации, это не так — потому что у нас нет набора данных с состояниями и соответствующими действиями. Хотя у нас могут быть данные, такие как записи шахматных партий или игры в Super Mario, скорее всего, этих данных будет недостаточно, чтобы охватить большое количество возможных состояний.

Вместо того чтобы искать существующие игровые данные, обучение с подкреплением (RL) основывается на идее заставить компьютер играть много раз и наблюдать за результатом. Таким образом, для применения обучения с подкреплением нам нужны две вещи:

Среда и симулятор, которые позволят нам многократно играть в игру. Этот симулятор должен определять все правила игры, а также возможные состояния и действия.
Функция вознаграждения, которая будет показывать, насколько хорошо мы справились с каждым ходом или игрой.

Основное отличие других типов машинного обучения от RL заключается в том, что в RL мы обычно не знаем, выиграем мы или проиграем, пока не закончим игру. Таким образом, мы не можем сказать, является ли определенный ход сам по себе хорошим или нет — мы получаем вознаграждение только в конце игры. Наша цель — разработать алгоритмы, которые позволят обучить модель в условиях неопределенности. Мы изучим один из алгоритмов RL, называемый Q-обучение.

Уроки

Благодарности

"Введение в обучение с подкреплением" написано с ♥️ Дмитрием Сошниковым

Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, учитывайте, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.

8.8 KiB Raw Permalink Blame History Unescape Escape