You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/sk/8-Reinforcement/2-Gym/assignment.md

3.4 KiB

Trénovanie Mountain Car

OpenAI Gym je navrhnutý tak, že všetky prostredia poskytujú rovnaké API - teda rovnaké metódy reset, step a render, a rovnaké abstrakcie akčného priestoru a pozorovacieho priestoru. Preto by malo byť možné prispôsobiť rovnaké algoritmy posilneného učenia rôznym prostrediam s minimálnymi zmenami kódu.

Prostredie Mountain Car

Prostredie Mountain Car obsahuje auto uviaznuté v údolí:

Cieľom je dostať sa z údolia a zachytiť vlajku, pričom na každom kroku vykonáte jednu z nasledujúcich akcií:

Hodnota Význam
0 Zrýchliť doľava
1 Nezrýchľovať
2 Zrýchliť doprava

Hlavný trik tohto problému však spočíva v tom, že motor auta nie je dostatočne silný na to, aby vyšiel na horu na jeden pokus. Jediný spôsob, ako uspieť, je jazdiť tam a späť, aby sa získala hybnosť.

Pozorovací priestor pozostáva len z dvoch hodnôt:

Číslo Pozorovanie Min Max
0 Poloha auta -1.2 0.6
1 Rýchlosť auta -0.07 0.07

Systém odmien pre Mountain Car je pomerne zložitý:

  • Odmena 0 sa udeľuje, ak agent dosiahne vlajku (poloha = 0.5) na vrchole hory.
  • Odmena -1 sa udeľuje, ak je poloha agenta menšia ako 0.5.

Epizóda sa ukončí, ak je poloha auta väčšia ako 0.5, alebo ak dĺžka epizódy presiahne 200.

Pokyny

Prispôsobte náš algoritmus posilneného učenia na riešenie problému Mountain Car. Začnite s existujúcim kódom notebook.ipynb, nahraďte nové prostredie, zmeňte funkcie na diskretizáciu stavu a pokúste sa upraviť existujúci algoritmus tak, aby sa trénoval s minimálnymi úpravami kódu. Optimalizujte výsledok úpravou hyperparametrov.

Poznámka: Úprava hyperparametrov bude pravdepodobne potrebná na dosiahnutie konvergencie algoritmu.

Hodnotenie

Kritérium Vynikajúce Dostatočné Potrebuje zlepšenie
Algoritmus Q-Learning je úspešne prispôsobený z príkladu CartPole s minimálnymi úpravami kódu, ktorý dokáže vyriešiť problém zachytenia vlajky do 200 krokov. Bol prijatý nový algoritmus Q-Learning z internetu, ale je dobre zdokumentovaný; alebo bol prijatý existujúci algoritmus, ale nedosahuje požadované výsledky. Študent nebol schopný úspešne prijať žiadny algoritmus, ale urobil podstatné kroky k riešeniu (implementoval diskretizáciu stavu, dátovú štruktúru Q-Table, atď.)

Upozornenie:
Tento dokument bol preložený pomocou služby AI prekladu Co-op Translator. Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nenesieme zodpovednosť za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.