8.4 KiB

Raw Permalink Blame History Unescape Escape

Вступ до навчання з підкріпленням

Навчання з підкріпленням (RL) вважається одним із основних парадигм машинного навчання поряд із навчанням з учителем та без учителя. RL стосується прийняття рішень: ухвалення правильних рішень або, принаймні, навчання на їх основі.

Уявіть, що у вас є симульоване середовище, наприклад, фондовий ринок. Що станеться, якщо ви введете певне регулювання? Чи матиме це позитивний чи негативний ефект? Якщо відбувається щось негативне, потрібно взяти це негативне підкріплення, навчитися на ньому та змінити курс. Якщо результат позитивний, потрібно будувати на основі цього позитивного підкріплення.

Петрик і його друзі мають втекти від голодного вовка! Зображення Jen Looper

Регіональна тема: Петрик і вовк (Росія)

Петрик і вовк — це музична казка, написана російським композитором Сергієм Прокоф'євим. Це історія про юного піонера Петрика, який сміливо виходить із дому на лісову галявину, щоб переслідувати вовка. У цьому розділі ми будемо тренувати алгоритми машинного навчання, які допоможуть Петрику:

Досліджувати навколишню територію та створити оптимальну карту навігації.
Навчитися користуватися скейтбордом і тримати рівновагу, щоб швидше пересуватися.

🎥 Натисніть на зображення вище, щоб послухати "Петрик і вовк" Прокоф'єва

Навчання з підкріпленням

У попередніх розділах ви бачили два приклади задач машинного навчання:

З учителем, де у нас є набори даних, які пропонують зразкові рішення задачі, яку ми хочемо вирішити. Класифікація та регресія є задачами навчання з учителем.
Без учителя, де у нас немає мічених навчальних даних. Основним прикладом навчання без учителя є кластеризація.

У цьому розділі ми познайомимо вас із новим типом задач навчання, який не потребує мічених навчальних даних. Існує кілька типів таких задач:

Напівнавчання з учителем, де у нас є багато немічених даних, які можна використовувати для попереднього тренування моделі.
Навчання з підкріпленням, у якому агент навчається поводитися, проводячи експерименти в певному симульованому середовищі.

Приклад - комп'ютерна гра

Припустимо, ви хочете навчити комп'ютер грати в гру, наприклад, шахи або Super Mario. Щоб комп'ютер міг грати в гру, нам потрібно, щоб він передбачав, який хід зробити в кожному стані гри. Хоча це може здатися задачею класифікації, це не так — тому що у нас немає набору даних зі станами та відповідними діями. Хоча ми можемо мати деякі дані, як-от існуючі шахові партії або записи гравців, які грають у Super Mario, ймовірно, ці дані не будуть достатньо охоплювати велику кількість можливих станів.

Замість того, щоб шукати існуючі дані гри, навчання з підкріпленням (RL) базується на ідеї змусити комп'ютер грати багато разів і спостерігати за результатом. Отже, для застосування навчання з підкріпленням нам потрібні дві речі:

Середовище та симулятор, які дозволяють нам грати в гру багато разів. Цей симулятор визначатиме всі правила гри, а також можливі стани та дії.
Функція винагороди, яка повідомлятиме нам, наскільки добре ми виконали кожен хід або гру.

Основна відмінність між іншими типами машинного навчання та RL полягає в тому, що в RL ми зазвичай не знаємо, чи виграємо ми, чи програємо, поки не закінчимо гру. Таким чином, ми не можемо сказати, чи певний хід сам по собі є хорошим чи ні — ми отримуємо винагороду лише наприкінці гри. І наша мета — розробити алгоритми, які дозволять нам тренувати модель в умовах невизначеності. Ми дізнаємося про один алгоритм RL, який називається Q-навчання.

Уроки

Авторство

"Вступ до навчання з підкріпленням" написано з ♥️ Дмитром Сошниковим

Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.

8.4 KiB Raw Permalink Blame History Unescape Escape