<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "68394b2102d3503882e5e914bd0ff5c1",
  "translation_date": "2025-09-04T00:23:31+00:00",
  "source_file": "8-Reinforcement/1-QLearning/assignment.md",
  "language_code": "ja"
}
-->
# より現実的な世界

私たちの状況では、ピーターはほとんど疲れたり空腹になったりすることなく移動することができました。しかし、より現実的な世界では、ピーターは時々座って休む必要があり、また食事を取る必要があります。以下のルールを実装することで、私たちの世界をより現実的にしてみましょう。

1. 一つの場所から別の場所へ移動することで、ピーターは**エネルギー**を失い、**疲労**を蓄積します。
2. ピーターはリンゴを食べることでエネルギーを回復できます。
3. ピーターは木の下や草の上で休むことで疲労を解消できます（つまり、木や草がある場所に移動する - 緑のフィールド）。
4. ピーターはオオカミを見つけて倒す必要があります。
5. オオカミを倒すためには、ピーターは一定のエネルギーと疲労レベルを持っている必要があり、そうでない場合は戦いに敗北します。

## 手順

元の [notebook.ipynb](notebook.ipynb) ノートブックを解決策の出発点として使用してください。

ゲームのルールに従って報酬関数を修正し、強化学習アルゴリズムを実行してゲームに勝つための最適な戦略を学習し、ランダムウォークの結果とアルゴリズムの結果を比較してください。勝敗の数を基準に評価します。

> **Note**: 新しい世界では状態がより複雑になり、人間の位置に加えて疲労とエネルギーレベルも含まれます。状態を (Board,energy,fatigue) のタプルとして表現するか、状態のクラスを定義することができます（`Board` から派生させることも可能です）。または、元の `Board` クラスを [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) 内で修正することもできます。

解決策では、ランダムウォーク戦略に関するコードを保持し、最後にアルゴリズムの結果をランダムウォークと比較してください。

> **Note**: ハイパーパラメータを調整する必要があるかもしれません。特にエポック数を調整してください。ゲームの成功（オオカミとの戦い）は稀なイベントであるため、トレーニング時間がかなり長くなることが予想されます。

## 評価基準

| 基準     | 優秀                                                                                                                                                                                                 | 適切                                                                                                                                                                                   | 改善が必要                                                                                                                                |
| -------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------- |
|          | 新しい世界のルールの定義、Q-Learningアルゴリズム、いくつかのテキスト説明を含むノートブックが提示されている。Q-Learningがランダムウォークと比較して結果を大幅に改善している。                              | ノートブックが提示され、Q-Learningが実装されており、ランダムウォークと比較して結果を改善しているが、改善が大幅ではない。または、ノートブックの文書化が不十分でコードが整理されていない。 | 世界のルールを再定義しようとする試みはあるが、Q-Learningアルゴリズムが機能していない、または報酬関数が完全に定義されていない。                                            |

---

**免責事項**:  
この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当社は責任を負いません。