# より現実的な世界 私たちのシナリオでは、ピーターはほとんど疲れたりお腹が空いたりすることなく移動することができました。より現実的な世界では、ピーターは時々座って休憩し、食事をする必要があります。次のルールを実装して、私たちの世界をより現実的にしましょう。 1. 一つの場所から別の場所に移動することで、ピーターは**エネルギー**を失い、少し**疲労**を得ます。 2. ピーターはリンゴを食べることでエネルギーを増やすことができます。 3. ピーターは木の下や草の上で休むことで疲労を取り除くことができます(つまり、木や草のあるボードの位置に移動すること - 緑のフィールド)。 4. ピーターはオオカミを見つけて倒す必要があります。 5. オオカミを倒すためには、ピーターは一定のエネルギーと疲労のレベルが必要で、それがないと戦いに負けてしまいます。 ## 手順 解決策の出発点として、元の [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) ノートブックを使用してください。 上記のルールに従って報酬関数を修正し、強化学習アルゴリズムを実行してゲームに勝つための最適な戦略を学び、ランダムウォークとの勝敗数を比較してください。 > **Note**: 新しい世界では状態がより複雑で、人間の位置に加えて疲労とエネルギーのレベルも含まれます。状態をタプル (Board, energy, fatigue) として表現するか、状態のためのクラスを定義することを選ぶことができます(`Board` から派生させることもできます)、または元の `Board` クラスを [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) 内で修正することもできます。 解決策では、ランダムウォーク戦略を担当するコードを保持し、最後にアルゴリズムの結果をランダムウォークと比較してください。 > **Note**: ハイパーパラメータを調整して動作させる必要があるかもしれません。特にエポック数です。ゲームの成功(オオカミとの戦い)は稀なイベントであるため、訓練時間が長くなることが予想されます。 ## 評価基準 | 基準 | 模範的 | 適切 | 改善が必要 | | ---- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------- | | | 新しい世界のルール、Q学習アルゴリズム、およびいくつかのテキスト説明が定義されたノートブックが提示されます。Q学習はランダムウォークと比較して結果を大幅に改善することができます。 | ノートブックが提示され、Q学習が実装され、ランダムウォークと比較して結果が改善されますが、大幅ではないか、ノートブックの文書が不十分でコードがよく構成されていない。 | 世界のルールを再定義しようとする試みがなされていますが、Q学習アルゴリズムが機能せず、報酬関数が完全に定義されていない。 | **免責事項**: この文書は機械翻訳サービスを使用して翻訳されています。正確さを期しておりますが、自動翻訳には誤りや不正確さが含まれる場合があります。原文の言語で書かれた元の文書を権威ある情報源とみなしてください。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解について、当社は一切の責任を負いません。