|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "68394b2102d3503882e5e914bd0ff5c1",
|
|
|
"translation_date": "2025-08-29T22:10:11+00:00",
|
|
|
"source_file": "8-Reinforcement/1-QLearning/assignment.md",
|
|
|
"language_code": "ru"
|
|
|
}
|
|
|
-->
|
|
|
# Более реалистичный мир
|
|
|
|
|
|
В нашей ситуации Питер мог перемещаться почти без усталости и голода. В более реалистичном мире ему нужно время от времени отдыхать, а также питаться. Давайте сделаем наш мир более реалистичным, внедрив следующие правила:
|
|
|
|
|
|
1. При перемещении из одного места в другое Питер теряет **энергию** и набирает **усталость**.
|
|
|
2. Питер может восстановить энергию, съев яблоки.
|
|
|
3. Питер может избавиться от усталости, отдыхая под деревом или на траве (т.е. заходя на клетку с деревом или травой — зеленое поле).
|
|
|
4. Питеру нужно найти и убить волка.
|
|
|
5. Чтобы убить волка, Питеру необходимо иметь определенные уровни энергии и усталости, иначе он проиграет битву.
|
|
|
|
|
|
## Инструкции
|
|
|
|
|
|
Используйте оригинальный [notebook.ipynb](notebook.ipynb) как отправную точку для вашего решения.
|
|
|
|
|
|
Измените функцию вознаграждения в соответствии с правилами игры, запустите алгоритм обучения с подкреплением, чтобы найти лучшую стратегию для победы в игре, и сравните результаты случайного блуждания с вашим алгоритмом по количеству выигранных и проигранных игр.
|
|
|
|
|
|
> **Note**: В вашем новом мире состояние становится более сложным и, помимо позиции человека, включает уровни усталости и энергии. Вы можете представить состояние как кортеж (Board, energy, fatigue), или определить класс для состояния (вы также можете унаследовать его от `Board`), или даже изменить оригинальный класс `Board` внутри [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py).
|
|
|
|
|
|
В вашем решении, пожалуйста, сохраните код, отвечающий за стратегию случайного блуждания, и сравните результаты вашего алгоритма со случайным блужданием в конце.
|
|
|
|
|
|
> **Note**: Возможно, вам потребуется настроить гиперпараметры, чтобы добиться результата, особенно количество эпох. Поскольку успех в игре (битва с волком) — это редкое событие, можно ожидать значительно более длительного времени обучения.
|
|
|
|
|
|
## Критерии оценки
|
|
|
|
|
|
| Критерий | Превосходно | Удовлетворительно | Требует улучшения |
|
|
|
| -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|
|
|
| | Представлен ноутбук с определением новых правил мира, алгоритмом Q-Learning и текстовыми объяснениями. Q-Learning значительно улучшает результаты по сравнению со случайным блужданием. | Представлен ноутбук, Q-Learning реализован и улучшает результаты по сравнению со случайным блужданием, но незначительно; или ноутбук плохо документирован, а код неструктурирован. | Сделаны попытки переопределить правила мира, но алгоритм Q-Learning не работает, или функция вознаграждения определена не полностью. |
|
|
|
|
|
|
---
|
|
|
|
|
|
**Отказ от ответственности**:
|
|
|
Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, учитывайте, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода. |