# Реалистичнији свет У нашој ситуацији, Петар је могао да се креће готово без умора или глади. У реалистичнијем свету, морао би с времена на време да седне и одмори се, као и да се нахрани. Хајде да учинимо наш свет реалистичнијим, применом следећих правила: 1. Крећући се са једног места на друго, Петар губи **енергију** и добија **умор**. 2. Петар може да поврати енергију једући јабуке. 3. Петар може да се ослободи умора одмарајући се испод дрвета или на трави (тј. уласком на поље са дрветом или травом - зелено поље). 4. Петар мора да пронађе и убије вука. 5. Да би убио вука, Петар мора да има одређене нивое енергије и умора, у супротном губи битку. ## Упутства Користите оригинални [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) као почетну тачку за ваше решење. Измените функцију награде у складу са правилима игре, покрените алгоритам за учење појачањем како бисте научили најбољу стратегију за победу у игри, и упоредите резултате случајног кретања са вашим алгоритмом у смислу броја добијених и изгубљених игара. > **Напомена**: У вашем новом свету, стање је сложеније и, поред позиције човека, укључује и нивое умора и енергије. Можете изабрати да представите стање као тројку (табла, енергија, умор), или да дефинишете класу за стање (можете је чак и наследити из `Board`), или чак да измените оригиналну класу `Board` унутар [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py). У вашем решењу, молимо вас да задржите код одговоран за стратегију случајног кретања и упоредите резултате вашег алгоритма са случајним кретањем на крају. > **Напомена**: Можда ћете морати да прилагодите хиперпараметре како би све функционисало, посебно број епоха. Пошто је успех у игри (борба са вуком) редак догађај, можете очекивати знатно дуже време обуке. ## Рубрика | Критеријум | Изузетно | Задовољавајуће | Потребна побољшања | | ---------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | Презентован је нотебук са дефиницијом нових правила света, Q-Learning алгоритмом и текстуалним објашњењима. Q-Learning значајно побољшава резултате у поређењу са случајним кретањем. | Презентован је нотебук, Q-Learning је имплементиран и побољшава резултате у поређењу са случајним кретањем, али не значајно; или је нотебук слабо документован, а код није добро структуриран. | Направљен је покушај редефинисања правила света, али Q-Learning алгоритам не функционише, или функција награде није у потпуности дефинисана. | --- **Одрицање од одговорности**: Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.