# Более Реалистичный Мир В нашей ситуации Питер мог двигаться почти без усталости и голода. В более реалистичном мире нам нужно было бы время от времени садиться и отдыхать, а также кормить себя. Давайте сделаем наш мир более реалистичным, внедрив следующие правила: 1. Перемещаясь с одного места на другое, Питер теряет **энергию** и накапливает **усталость**. 2. Питер может получить больше энергии, съедая яблоки. 3. Питер может избавиться от усталости, отдыхая под деревом или на траве (т.е. зайдя в зону с деревом или травой - зеленое поле). 4. Питеру нужно найти и убить волка. 5. Чтобы убить волка, Питеру необходимо иметь определенные уровни энергии и усталости, иначе он проиграет битву. ## Инструкции Используйте оригинальный [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) как отправную точку для вашего решения. Измените функцию вознаграждения выше в соответствии с правилами игры, запустите алгоритм обучения с подкреплением, чтобы узнать лучшую стратегию для победы в игре, и сравните результаты случайного блуждания с вашим алгоритмом по количеству выигранных и проигранных игр. > **Примечание**: В вашем новом мире состояние более сложное и, кроме положения человека, также включает уровни усталости и энергии. Вы можете выбрать представление состояния в виде кортежа (Board, energy, fatigue) или определить класс для состояния (вы также можете захотеть унаследовать его от `Board`), или даже модифицировать оригинальный класс `Board` внутри [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py). В вашем решении, пожалуйста, сохраните код, отвечающий за стратегию случайного блуждания, и сравните результаты вашего алгоритма с случайным блужданием в конце. > **Примечание**: Вам может понадобиться настроить гиперпараметры, чтобы это работало, особенно количество эпох. Поскольку успех игры (борьба с волком) является редким событием, вы можете ожидать гораздо более длительное время обучения. ## Рубрика | Критерии | Примерно | Адекватно | Требует улучшения | | -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | Представлен ноутбук с определением новых правил мира, алгоритмом Q-Learning и некоторыми текстовыми объяснениями. Q-Learning может значительно улучшить результаты по сравнению со случайным блужданием. | Ноутбук представлен, Q-Learning реализован и улучшает результаты по сравнению со случайным блужданием, но незначительно; или ноутбук плохо документирован, а код неструктурирован | Сделана попытка переопределить правила мира, но алгоритм Q-Learning не работает или функция вознаграждения не полностью определена. | **Отказ от ответственности**: Этот документ был переведен с использованием машинных переводческих сервисов на основе ИИ. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для критически важной информации рекомендуется профессиональный человеческий перевод. Мы не несем ответственности за любые недоразумения или неверные интерпретации, возникающие в результате использования этого перевода.