3.4 KiB
Trénink Mountain Car
OpenAI Gym byl navržen tak, aby všechna prostředí poskytovala stejnou API - tj. stejné metody reset
, step
a render
, a stejné abstrakce akčního prostoru a pozorovacího prostoru. Díky tomu by mělo být možné přizpůsobit stejné algoritmy pro posilované učení různým prostředím s minimálními změnami kódu.
Prostředí Mountain Car
Prostředí Mountain Car obsahuje auto uvízlé v údolí:
Cílem je dostat se z údolí a získat vlajku, přičemž v každém kroku lze provést jednu z následujících akcí:
Hodnota | Význam |
---|---|
0 | Zrychlit doleva |
1 | Nezrychlovat |
2 | Zrychlit doprava |
Hlavní trik tohoto problému však spočívá v tom, že motor auta není dostatečně silný na to, aby vyjel na horu na jeden pokus. Jediný způsob, jak uspět, je jezdit tam a zpět, aby se nashromáždila hybnost.
Pozorovací prostor obsahuje pouze dvě hodnoty:
Číslo | Pozorování | Min | Max |
---|---|---|---|
0 | Pozice auta | -1.2 | 0.6 |
1 | Rychlost auta | -0.07 | 0.07 |
Systém odměn pro Mountain Car je poměrně složitý:
- Odměna 0 je udělena, pokud agent dosáhne vlajky (pozice = 0.5) na vrcholu hory.
- Odměna -1 je udělena, pokud je pozice agenta menší než 0.5.
Epizoda končí, pokud je pozice auta větší než 0.5, nebo pokud délka epizody přesáhne 200 kroků.
Pokyny
Přizpůsobte náš algoritmus pro posilované učení k vyřešení problému Mountain Car. Začněte s existujícím kódem notebook.ipynb, nahraďte nové prostředí, změňte funkce pro diskretizaci stavu a pokuste se upravit existující algoritmus tak, aby se trénoval s minimálními úpravami kódu. Optimalizujte výsledek úpravou hyperparametrů.
Note: Úprava hyperparametrů bude pravděpodobně nutná, aby algoritmus konvergoval.
Hodnocení
Kritéria | Vynikající | Přiměřené | Potřebuje zlepšení |
---|---|---|---|
Algoritmus Q-Learning byl úspěšně přizpůsoben z příkladu CartPole s minimálními úpravami kódu a dokáže vyřešit problém získání vlajky do 200 kroků. | Nový algoritmus Q-Learning byl převzat z internetu, ale je dobře zdokumentován; nebo byl přizpůsoben existující algoritmus, ale nedosahuje požadovaných výsledků. | Student nebyl schopen úspěšně přizpůsobit žádný algoritmus, ale učinil podstatné kroky k řešení (implementoval diskretizaci stavu, datovou strukturu Q-Tabulky atd.). |
Prohlášení:
Tento dokument byl přeložen pomocí služby AI pro překlady Co-op Translator. Ačkoli se snažíme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.