You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ru/8-Reinforcement/1-QLearning/assignment.md

6.5 KiB

Более реалистичный мир

В нашей ситуации Питер мог перемещаться почти без усталости и голода. В более реалистичном мире ему нужно время от времени отдыхать, а также питаться. Давайте сделаем наш мир более реалистичным, внедрив следующие правила:

  1. При перемещении из одного места в другое Питер теряет энергию и набирает усталость.
  2. Питер может восстановить энергию, съев яблоки.
  3. Питер может избавиться от усталости, отдыхая под деревом или на траве (т.е. заходя на клетку с деревом или травой — зеленое поле).
  4. Питеру нужно найти и убить волка.
  5. Чтобы убить волка, Питеру необходимо иметь определенные уровни энергии и усталости, иначе он проиграет битву.

Инструкции

Используйте оригинальный notebook.ipynb как отправную точку для вашего решения.

Измените функцию вознаграждения в соответствии с правилами игры, запустите алгоритм обучения с подкреплением, чтобы найти лучшую стратегию для победы в игре, и сравните результаты случайного блуждания с вашим алгоритмом по количеству выигранных и проигранных игр.

Note: В вашем новом мире состояние становится более сложным и, помимо позиции человека, включает уровни усталости и энергии. Вы можете представить состояние как кортеж (Board, energy, fatigue), или определить класс для состояния (вы также можете унаследовать его от Board), или даже изменить оригинальный класс Board внутри rlboard.py.

В вашем решении, пожалуйста, сохраните код, отвечающий за стратегию случайного блуждания, и сравните результаты вашего алгоритма со случайным блужданием в конце.

Note: Возможно, вам потребуется настроить гиперпараметры, чтобы добиться результата, особенно количество эпох. Поскольку успех в игре (битва с волком) — это редкое событие, можно ожидать значительно более длительного времени обучения.

Критерии оценки

Критерий Превосходно Удовлетворительно Требует улучшения
Представлен ноутбук с определением новых правил мира, алгоритмом Q-Learning и текстовыми объяснениями. Q-Learning значительно улучшает результаты по сравнению со случайным блужданием. Представлен ноутбук, Q-Learning реализован и улучшает результаты по сравнению со случайным блужданием, но незначительно; или ноутбук плохо документирован, а код неструктурирован. Сделаны попытки переопределить правила мира, но алгоритм Q-Learning не работает, или функция вознаграждения определена не полностью.

Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, учитывайте, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода.