3.4 KiB

Raw Permalink Blame History

Kouluta Mountain Car

OpenAI Gym on suunniteltu siten, että kaikki ympäristöt tarjoavat saman API:n - eli samat metodit reset, step ja render, sekä samat abstraktiot toimintatilasta ja havaintotilasta. Näin ollen pitäisi olla mahdollista soveltaa samoja vahvistusoppimisalgoritmeja eri ympäristöihin vähäisin koodimuutoksin.

Mountain Car -ympäristö

Mountain Car -ympäristö sisältää auton, joka on jumissa laaksossa:

Tavoitteena on päästä ulos laaksosta ja napata lippu tekemällä jokaisella askeleella yksi seuraavista toimista:

Arvo	Merkitys
0	Kiihdytä vasemmalle
1	Älä kiihdytä
2	Kiihdytä oikealle

Tämän ongelman päätemppu on kuitenkin se, että auton moottori ei ole tarpeeksi voimakas kiivetäkseen vuoren huipulle yhdellä kerralla. Siksi ainoa tapa onnistua on ajaa edestakaisin keräten vauhtia.

Havaintotila koostuu vain kahdesta arvosta:

Num	Havainto	Min	Max
0	Auton sijainti	-1.2	0.6
1	Auton nopeus	-0.07	0.07

Mountain Car -ympäristön palkkiojärjestelmä on melko haastava:

Palkkio 0 annetaan, jos agentti saavuttaa lipun (sijainti = 0.5) vuoren huipulla.
Palkkio -1 annetaan, jos agentin sijainti on alle 0.5.

Episodi päättyy, jos auton sijainti on yli 0.5 tai episodin pituus ylittää 200.

Ohjeet

Sovella vahvistusoppimisalgoritmiamme ratkaistaksesi Mountain Car -ongelman. Aloita olemassa olevasta notebook.ipynb -koodista, korvaa uusi ympäristö, muuta tilan diskretisointifunktioita ja yritä saada olemassa oleva algoritmi toimimaan vähäisin koodimuutoksin. Optimoi tulos säätämällä hyperparametreja.

Huom: Hyperparametrien säätöä tarvitaan todennäköisesti, jotta algoritmi konvergoituu.

Arviointikriteerit

Kriteeri	Erinomainen	Riittävä	Parannettavaa
	Q-Learning -algoritmi on onnistuneesti sovitettu CartPole-esimerkistä vähäisin koodimuutoksin, ja se pystyy ratkaisemaan lipun nappaamisen alle 200 askeleessa.	Uusi Q-Learning -algoritmi on otettu käyttöön Internetistä, mutta se on hyvin dokumentoitu; tai olemassa oleva algoritmi on sovitettu, mutta ei saavuta toivottuja tuloksia.	Opiskelija ei ole onnistunut soveltamaan mitään algoritmia, mutta on tehnyt merkittäviä edistysaskeleita ratkaisun suuntaan (toteuttanut tilan diskretisoinnin, Q-Table -tietorakenteen jne.).

Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäinen asiakirja sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.

3.4 KiB Raw Permalink Blame History

Kouluta Mountain Car

Mountain Car -ympäristö

Ohjeet

Arviointikriteerit

3.4 KiB

Raw Permalink Blame History