4.2 KiB
Realističniji svijet
U našoj situaciji, Peter se mogao kretati gotovo bez umaranja ili osjećaja gladi. U realističnijem svijetu, morao bi se povremeno odmoriti i nahraniti. Učinimo naš svijet realističnijim implementirajući sljedeća pravila:
- Kretanjem s jednog mjesta na drugo, Peter gubi energiju i dobiva umor.
- Peter može dobiti više energije jedući jabuke.
- Peter se može riješiti umora odmarajući se ispod stabla ili na travi (tj. hodanjem do polja na ploči koje ima stablo ili travu - zeleno polje).
- Peter mora pronaći i ubiti vuka.
- Da bi ubio vuka, Peter mora imati određene razine energije i umora, inače gubi bitku.
Upute
Koristite originalni notebook.ipynb kao početnu točku za svoje rješenje.
Modificirajte funkciju nagrade prema pravilima igre, pokrenite algoritam za učenje pojačanjem kako biste naučili najbolju strategiju za pobjedu u igri, i usporedite rezultate nasumičnog hodanja s vašim algoritmom u smislu broja pobijeđenih i izgubljenih igara.
Note: U vašem novom svijetu, stanje je složenije i, uz poziciju čovjeka, uključuje i razine umora i energije. Možete odabrati prikazati stanje kao tuple (Ploča, energija, umor), ili definirati klasu za stanje (možete je također izvesti iz
Board
), ili čak modificirati originalnu klasuBoard
unutar rlboard.py.
U svom rješenju, molimo vas da zadržite kod odgovoran za strategiju nasumičnog hodanja i usporedite rezultate svog algoritma s nasumičnim hodanjem na kraju.
Note: Možda ćete morati prilagoditi hiperparametre kako bi sve funkcioniralo, posebno broj epoha. Budući da je uspjeh u igri (borba s vukom) rijedak događaj, možete očekivati znatno duže vrijeme treniranja.
Rubrika
Kriterij | Izvrsno | Zadovoljavajuće | Potrebno poboljšanje |
---|---|---|---|
Predstavljen je notebook s definicijom novih pravila svijeta, Q-Learning algoritmom i nekim tekstualnim objašnjenjima. Q-Learning značajno poboljšava rezultate u usporedbi s nasumičnim hodanjem. | Predstavljen je notebook, Q-Learning je implementiran i poboljšava rezultate u usporedbi s nasumičnim hodanjem, ali ne značajno; ili je notebook loše dokumentiran, a kod nije dobro strukturiran. | Napravljeni su neki pokušaji redefiniranja pravila svijeta, ali Q-Learning algoritam ne funkcionira ili funkcija nagrade nije potpuno definirana. |
Odricanje od odgovornosti:
Ovaj dokument je preveden koristeći AI uslugu za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za bilo kakva nesporazuma ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda.