You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ja/8-Reinforcement/1-QLearning/assignment.md

4.6 KiB

より現実的な世界

私たちのシナリオでは、ピーターはほとんど疲れたりお腹が空いたりすることなく移動することができました。より現実的な世界では、ピーターは時々座って休憩し、食事をする必要があります。次のルールを実装して、私たちの世界をより現実的にしましょう。

  1. 一つの場所から別の場所に移動することで、ピーターはエネルギーを失い、少し疲労を得ます。
  2. ピーターはリンゴを食べることでエネルギーを増やすことができます。
  3. ピーターは木の下や草の上で休むことで疲労を取り除くことができます(つまり、木や草のあるボードの位置に移動すること - 緑のフィールド)。
  4. ピーターはオオカミを見つけて倒す必要があります。
  5. オオカミを倒すためには、ピーターは一定のエネルギーと疲労のレベルが必要で、それがないと戦いに負けてしまいます。

手順

解決策の出発点として、元の notebook.ipynb ノートブックを使用してください。

上記のルールに従って報酬関数を修正し、強化学習アルゴリズムを実行してゲームに勝つための最適な戦略を学び、ランダムウォークとの勝敗数を比較してください。

Note: 新しい世界では状態がより複雑で、人間の位置に加えて疲労とエネルギーのレベルも含まれます。状態をタプル (Board, energy, fatigue) として表現するか、状態のためのクラスを定義することを選ぶことができます(Board から派生させることもできます)、または元の Board クラスを rlboard.py 内で修正することもできます。

解決策では、ランダムウォーク戦略を担当するコードを保持し、最後にアルゴリズムの結果をランダムウォークと比較してください。

Note: ハイパーパラメータを調整して動作させる必要があるかもしれません。特にエポック数です。ゲームの成功(オオカミとの戦い)は稀なイベントであるため、訓練時間が長くなることが予想されます。

評価基準

基準 模範的 適切 改善が必要
新しい世界のルール、Q学習アルゴリズム、およびいくつかのテキスト説明が定義されたートブックが提示されます。Q学習はランダムウォークと比較して結果を大幅に改善することができます。 ートブックが提示され、Q学習が実装され、ランダムウォークと比較して結果が改善されますが、大幅ではないか、ートブックの文書が不十分でコードがよく構成されていない。 世界のルールを再定義しようとする試みがなされていますが、Q学習アルゴリズムが機能せず、報酬関数が完全に定義されていない。

免責事項: この文書は機械翻訳サービスを使用して翻訳されています。正確さを期しておりますが、自動翻訳には誤りや不正確さが含まれる場合があります。原文の言語で書かれた元の文書を権威ある情報源とみなしてください。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解について、当社は一切の責任を負いません。