3.2 KiB

Raw Permalink Blame History

Treniraj Mountain Car

OpenAI Gym je zasnovan tako, da vsa okolja zagotavljajo enak API - tj. iste metode reset, step in render, ter enake abstrakcije akcijskega prostora in prostora opazovanj. Zato bi moralo biti mogoče prilagoditi iste algoritme za krepitev učenja različnim okoljem z minimalnimi spremembami kode.

Okolje Mountain Car

Okolje Mountain Car vsebuje avto, ki je obtičal v dolini:

Cilj je priti iz doline in ujeti zastavo, pri čemer na vsakem koraku izvedemo eno od naslednjih akcij:

Vrednost	Pomen
0	Pospeši v levo
1	Ne pospešuj
2	Pospeši v desno

Glavna težava tega problema pa je, da motor avtomobila ni dovolj močan, da bi premagal goro v enem poskusu. Zato je edini način za uspeh vožnja naprej in nazaj, da se pridobi zagon.

Prostor opazovanj vsebuje le dve vrednosti:

Št.	Opazovanje	Min	Max
0	Položaj avtomobila	-1.2	0.6
1	Hitrost avtomobila	-0.07	0.07

Sistem nagrajevanja za Mountain Car je precej zahteven:

Nagrada 0 je podeljena, če agent doseže zastavo (položaj = 0.5) na vrhu gore.
Nagrada -1 je podeljena, če je položaj agenta manjši od 0.5.

Epizoda se zaključi, če je položaj avtomobila večji od 0.5 ali če dolžina epizode presega 200.

Navodila

Prilagodite naš algoritem za krepitev učenja, da rešite problem Mountain Car. Začnite z obstoječo kodo notebook.ipynb, zamenjajte okolje, spremenite funkcije za diskretizacijo stanja in poskusite obstoječi algoritem usposobiti z minimalnimi spremembami kode. Optimizirajte rezultat z nastavitvijo hiperparametrov.

Opomba: Nastavitev hiperparametrov bo verjetno potrebna, da se algoritem konvergira.

Merila

Merila	Odlično	Zadostno	Potrebno izboljšanje
	Algoritem Q-Learning je uspešno prilagojen iz primera CartPole z minimalnimi spremembami kode, ki je sposoben rešiti problem ujetja zastave v manj kot 200 korakih.	Nov algoritem Q-Learning je bil prevzet z interneta, vendar je dobro dokumentiran; ali obstoječi algoritem prilagojen, vendar ne dosega želenih rezultatov.	Študent ni uspel uspešno prilagoditi nobenega algoritma, vendar je naredil pomembne korake proti rešitvi (implementiral diskretizacijo stanja, podatkovno strukturo Q-Table itd.)

Omejitev odgovornosti:
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje Co-op Translator. Čeprav si prizadevamo za natančnost, vas opozarjamo, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo strokovno človeško prevajanje. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki izhajajo iz uporabe tega prevoda.

3.2 KiB Raw Permalink Blame History

Treniraj Mountain Car

Okolje Mountain Car

Navodila

Merila

3.2 KiB

Raw Permalink Blame History