You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ja/8-Reinforcement/1-QLearning/assignment.md

5.1 KiB

より現実的な世界

私たちの状況では、ピーターはほとんど疲れたり空腹になったりすることなく移動することができました。しかし、より現実的な世界では、ピーターは時々座って休む必要があり、また食事を取る必要があります。以下のルールを実装することで、私たちの世界をより現実的にしてみましょう。

  1. 一つの場所から別の場所へ移動することで、ピーターはエネルギーを失い、疲労を蓄積します。
  2. ピーターはリンゴを食べることでエネルギーを回復できます。
  3. ピーターは木の下や草の上で休むことで疲労を解消できます(つまり、木や草がある場所に移動する - 緑のフィールド)。
  4. ピーターはオオカミを見つけて倒す必要があります。
  5. オオカミを倒すためには、ピーターは一定のエネルギーと疲労レベルを持っている必要があり、そうでない場合は戦いに敗北します。

手順

元の notebook.ipynb ノートブックを解決策の出発点として使用してください。

ゲームのルールに従って報酬関数を修正し、強化学習アルゴリズムを実行してゲームに勝つための最適な戦略を学習し、ランダムウォークの結果とアルゴリズムの結果を比較してください。勝敗の数を基準に評価します。

Note: 新しい世界では状態がより複雑になり、人間の位置に加えて疲労とエネルギーレベルも含まれます。状態を (Board,energy,fatigue) のタプルとして表現するか、状態のクラスを定義することができます(Board から派生させることも可能です)。または、元の Board クラスを rlboard.py 内で修正することもできます。

解決策では、ランダムウォーク戦略に関するコードを保持し、最後にアルゴリズムの結果をランダムウォークと比較してください。

Note: ハイパーパラメータを調整する必要があるかもしれません。特にエポック数を調整してください。ゲームの成功(オオカミとの戦い)は稀なイベントであるため、トレーニング時間がかなり長くなることが予想されます。

評価基準

基準 優秀 適切 改善が必要
新しい世界のルールの定義、Q-Learningアルゴリズム、いくつかのテキスト説明を含むートブックが提示されている。Q-Learningがランダムウォークと比較して結果を大幅に改善している。 ートブックが提示され、Q-Learningが実装されており、ランダムウォークと比較して結果を改善しているが、改善が大幅ではない。または、ートブックの文書化が不十分でコードが整理されていない。 世界のルールを再定義しようとする試みはあるが、Q-Learningアルゴリズムが機能していない、または報酬関数が完全に定義されていない。

免責事項:
この文書は、AI翻訳サービス Co-op Translator を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当社は責任を負いません。