6.4 KiB
Більш реалістичний світ
У нашій ситуації Пітер міг пересуватися майже без втоми чи голоду. У більш реалістичному світі йому потрібно час від часу сідати та відпочивати, а також харчуватися. Давайте зробимо наш світ більш реалістичним, впровадивши наступні правила:
- Пересуваючись з одного місця в інше, Пітер втрачає енергію і набирає втому.
- Пітер може відновлювати енергію, з'їдаючи яблука.
- Пітер може позбавлятися втоми, відпочиваючи під деревом або на траві (тобто заходячи на клітинку з деревом або травою — зелене поле).
- Пітер повинен знайти і вбити вовка.
- Щоб перемогти вовка, Пітер повинен мати певний рівень енергії та втоми, інакше він програє битву.
Інструкції
Використовуйте оригінальний блокнот notebook.ipynb як відправну точку для вашого рішення.
Модифікуйте функцію винагороди відповідно до правил гри, запустіть алгоритм навчання з підкріпленням, щоб знайти найкращу стратегію для перемоги в грі, і порівняйте результати випадкових ходів із вашим алгоритмом за кількістю виграних і програних ігор.
Note: У вашому новому світі стан є більш складним і, окрім позиції людини, також включає рівні втоми та енергії. Ви можете представити стан у вигляді кортежу (Board, energy, fatigue), або визначити клас для стану (ви також можете успадкувати його від
Board
), або навіть модифікувати оригінальний класBoard
у файлі rlboard.py.
У вашому рішенні, будь ласка, збережіть код, відповідальний за стратегію випадкових ходів, і порівняйте результати вашого алгоритму з випадковими ходами наприкінці.
Note: Можливо, вам доведеться налаштувати гіперпараметри, щоб усе працювало, особливо кількість епох. Оскільки успіх у грі (битва з вовком) є рідкісною подією, ви можете очікувати значно тривалішого часу навчання.
Критерії оцінювання
Критерії | Відмінно | Задовільно | Потребує покращення |
---|---|---|---|
Блокнот представлений із визначенням нових правил світу, алгоритмом Q-Learning і текстовими поясненнями. Q-Learning значно покращує результати порівняно з випадковими ходами. | Блокнот представлений, Q-Learning реалізований і покращує результати порівняно з випадковими ходами, але незначно; або блокнот погано документований, а код не має чіткої структури. | Зроблено спробу переосмислити правила світу, але алгоритм Q-Learning не працює, або функція винагороди не повністю визначена. |
Відмова від відповідальності:
Цей документ було перекладено за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.