|
3 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 3 weeks ago | |
2-Gym | 3 weeks ago | |
README.md | 3 weeks ago |
README.md
Въведение в обучението чрез подсилване
Обучението чрез подсилване (RL) се счита за един от основните парадигми на машинното обучение, наред с обучението с учител и без учител. RL се фокусира върху вземането на решения: доставяне на правилните решения или поне учене от тях.
Представете си, че имате симулирана среда, като например фондовия пазар. Какво се случва, ако наложите дадена регулация? Има ли положителен или отрицателен ефект? Ако се случи нещо отрицателно, трябва да вземете това отрицателно подсилване, да се поучите от него и да промените курса. Ако резултатът е положителен, трябва да надградите върху това положително подсилване.
Петър и приятелите му трябва да избягат от гладния вълк! Изображение от Jen Looper
Регионална тема: Петър и вълкът (Русия)
Петър и вълкът е музикална приказка, написана от руския композитор Сергей Прокофиев. Това е история за младия пионер Петър, който смело излиза от дома си към горската поляна, за да преследва вълка. В този раздел ще обучим алгоритми за машинно обучение, които ще помогнат на Петър:
- Да изследва околността и да изгради оптимална навигационна карта.
- Да се научи да използва скейтборд и да балансира върху него, за да се движи по-бързо.
🎥 Кликнете върху изображението по-горе, за да слушате "Петър и вълкът" от Прокофиев
Обучение чрез подсилване
В предишните раздели видяхте два примера за задачи на машинното обучение:
- С учител, където имаме набори от данни, които предлагат примерни решения на проблема, който искаме да решим. Класификация и регресия са задачи на обучението с учител.
- Без учител, при което нямаме етикетирани тренировъчни данни. Основният пример за обучение без учител е Клъстеризация.
В този раздел ще ви запознаем с нов тип задача за обучение, която не изисква етикетирани тренировъчни данни. Съществуват няколко типа такива задачи:
- Полу-обучение с учител, при което имаме много неетикетирани данни, които могат да се използват за предварително обучение на модела.
- Обучение чрез подсилване, при което агентът се учи как да се държи, като извършва експерименти в някаква симулирана среда.
Пример - компютърна игра
Да предположим, че искате да научите компютър да играе игра, като шах или Super Mario. За да играе компютърът играта, трябва да предскаже кой ход да направи във всяко от състоянията на играта. Макар това да изглежда като задача за класификация, всъщност не е - защото нямаме набор от данни със състояния и съответстващи действия. Макар да имаме някои данни, като съществуващи шахматни партии или записи на играчи, играещи Super Mario, вероятно тези данни няма да покрият достатъчно голям брой възможни състояния.
Вместо да търсим съществуващи данни за играта, Обучението чрез подсилване (RL) се основава на идеята да накараме компютъра да играе много пъти и да наблюдаваме резултата. Следователно, за да приложим Обучение чрез подсилване, ни трябват две неща:
-
Среда и симулатор, които ни позволяват да играем играта много пъти. Този симулатор трябва да дефинира всички правила на играта, както и възможните състояния и действия.
-
Функция за награда, която да ни казва колко добре сме се справили по време на всеки ход или игра.
Основната разлика между другите типове машинно обучение и RL е, че при RL обикновено не знаем дали печелим или губим, докато не завършим играта. Следователно, не можем да кажем дали даден ход сам по себе си е добър или не - получаваме награда едва в края на играта. Нашата цел е да проектираме алгоритми, които ще ни позволят да обучим модел при несигурни условия. Ще научим за един RL алгоритъм, наречен Q-learning.
Уроци
Благодарности
"Въведение в обучението чрез подсилване" е написано с ♥️ от Dmitry Soshnikov
Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.