You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/sr/8-Reinforcement/2-Gym/assignment.md

5.2 KiB

Тренирање Mountain Car

OpenAI Gym је дизајниран тако да сви окружења пружају исти API - односно исте методе reset, step и render, као и исте апстракције простора акција и простора опсервација. Због тога би требало да буде могуће прилагодити исте алгоритме за учење појачања различитим окружењима уз минималне измене кода.

Окружење Mountain Car

Окружење Mountain Car садржи ауто заглављен у долини:

Циљ је изаћи из долине и освојити заставицу, извршавајући у сваком кораку једну од следећих акција:

Вредност Значење
0 Убрзање улево
1 Без убрзања
2 Убрзање удесно

Главни трик овог проблема је, међутим, то што мотор аута није довољно снажан да пређе планину у једном покушају. Због тога је једини начин да се успе вожња напред-назад ради стицања замаха.

Простор опсервација се састоји од само две вредности:

Бр. Опсервација Мин Макс
0 Позиција аута -1.2 0.6
1 Брзина аута -0.07 0.07

Систем награђивања за Mountain Car је прилично сложен:

  • Награда од 0 се додељује ако агент достигне заставицу (позиција = 0.5) на врху планине.
  • Награда од -1 се додељује ако је позиција агента мања од 0.5.

Епизода се завршава ако је позиција аута већа од 0.5, или ако је дужина епизоде већа од 200.

Упутства

Прилагодите наш алгоритам за учење појачања да реши проблем Mountain Car. Почните са постојећим notebook.ipynb кодом, замените ново окружење, промените функције за дискретизацију стања и покушајте да постојећи алгоритам обучите уз минималне измене кода. Оптимизујте резултат подешавањем хиперпараметара.

Напомена: Подешавање хиперпараметара ће вероватно бити потребно да би алгоритам конверговао.

Рубрика

Критеријум Изузетно Адекватно Потребно побољшање
Q-Learning алгоритам је успешно прилагођен из примера CartPole, уз минималне измене кода, и у стању је да реши проблем освајања заставице у мање од 200 корака. Нови Q-Learning алгоритам је преузет са интернета, али је добро документован; или постојећи алгоритам је прилагођен, али не постиже жељене резултате Студент није успео успешно да прилагоди ниједан алгоритам, али је направио значајне кораке ка решењу (имплементирао дискретизацију стања, структуру података Q-Table, итд.)

Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода.