|
3 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 3 weeks ago | |
2-Gym | 3 weeks ago | |
README.md | 3 weeks ago |
README.md
Увод у учење путем појачања
Учење путем појачања, RL, сматра се једним од основних парадигми машинског учења, поред надгледаног и ненадгледаног учења. RL се бави доношењем одлука: доношењем исправних одлука или барем учењем из њих.
Замислите да имате симулирано окружење, као што је берза. Шта се дешава ако уведете одређену регулацију? Да ли она има позитиван или негативан ефекат? Ако се догоди нешто негативно, потребно је да узмете у обзир ту негативну повратну информацију, научите из ње и промените курс. Ако је исход позитиван, треба да изградите на тој позитивној повратној информацији.
Петар и његови пријатељи морају побећи од гладног вука! Слика: Џен Лупер
Регионална тема: Петар и вук (Русија)
Петар и вук је музичка бајка коју је написао руски композитор Сергеј Прокофјев. То је прича о младом пиониру Петру, који храбро излази из своје куће на шумску чистину како би уловио вука. У овом делу ћемо обучити алгоритме машинског учења који ће помоћи Петру:
- Истражи околину и направи оптималну мапу за навигацију
- Научи како да користи скејтборд и одржава равнотежу на њему, како би се брже кретао.
🎥 Кликните на слику изнад да бисте слушали Петар и вук од Прокофјева
Учење путем појачања
У претходним деловима видели сте два примера проблема машинског учења:
- Надгледано учење, где имамо скупове података који предлажу пример решења за проблем који желимо да решимо. Класификација и регресија су задаци надгледаног учења.
- Ненадгледано учење, у којем немамо означене податке за обуку. Главни пример ненадгледаног учења је Кластеровање.
У овом делу ћемо вас упознати са новом врстом проблема учења који не захтева означене податке за обуку. Постоји неколико врста таквих проблема:
- Полунадгледано учење, где имамо пуно необележених података који се могу користити за претходну обуку модела.
- Учење путем појачања, у којем агент учи како да се понаша извођењем експеримената у неком симулираном окружењу.
Пример - компјутерска игра
Претпоставимо да желите да научите рачунар да игра игру, као што је шах или Супер Марио. Да би рачунар играо игру, потребно је да предвиди који потез да направи у свакој ситуацији у игри. Иако ово може изгледати као проблем класификације, није - јер немамо скуп података са стањима и одговарајућим акцијама. Иако можемо имати неке податке, као што су постојеће шаховске партије или снимци играча који играју Супер Марио, вероватно је да ти подаци неће довољно покрити велики број могућих стања.
Уместо тражења постојећих података о игри, учење путем појачања (RL) заснива се на идеји да натерамо рачунар да игра више пута и посматрамо резултате. Дакле, за примену учења путем појачања потребно је:
-
Окружење и симулатор који нам омогућавају да играмо игру више пута. Овај симулатор би дефинисао сва правила игре, као и могућа стања и акције.
-
Функција награде, која би нам говорила колико смо добро урадили током сваког потеза или игре.
Главна разлика између других врста машинског учења и RL-а је у томе што у RL-у обично не знамо да ли побеђујемо или губимо док не завршимо игру. Дакле, не можемо рећи да ли је одређени потез сам по себи добар или не - награду добијамо тек на крају игре. Наш циљ је да дизајнирамо алгоритме који ће нам омогућити да обучимо модел у условима неизвесности. Упознаћемо се са једним RL алгоритмом који се зове Q-учење.
Лекције
Захвалнице
"Увод у учење путем појачања" написан је са ♥️ од стране Дмитрија Сошњикова
Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода.