<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "68394b2102d3503882e5e914bd0ff5c1",
  "translation_date": "2025-08-29T22:09:49+00:00",
  "source_file": "8-Reinforcement/1-QLearning/assignment.md",
  "language_code": "bn"
}
-->
# একটি আরও বাস্তবসম্মত বিশ্ব

আমাদের পরিস্থিতিতে, পিটার প্রায় ক্লান্ত বা ক্ষুধার্ত না হয়ে চলাফেরা করতে পারছিল। একটি আরও বাস্তবসম্মত বিশ্বে, তাকে মাঝে মাঝে বসে বিশ্রাম নিতে হবে এবং নিজেকে খাওয়াতে হবে। চলুন আমাদের বিশ্বকে আরও বাস্তবসম্মত করি, নিম্নলিখিত নিয়মগুলি প্রয়োগ করে:

1. এক জায়গা থেকে অন্য জায়গায় যাওয়ার সময়, পিটার **শক্তি** হারাবে এবং কিছু **ক্লান্তি** অর্জন করবে।
2. পিটার আপেল খেয়ে আরও শক্তি অর্জন করতে পারে।
3. পিটার গাছের নিচে বা ঘাসের উপর বিশ্রাম নিয়ে ক্লান্তি দূর করতে পারে (অর্থাৎ, গাছ বা ঘাস থাকা বোর্ডের অবস্থানে হাঁটা - সবুজ ক্ষেত্র)।
4. পিটারকে নেকড়েকে খুঁজে বের করে হত্যা করতে হবে।
5. নেকড়েকে হত্যা করার জন্য, পিটারের নির্দিষ্ট মাত্রার শক্তি এবং ক্লান্তি থাকতে হবে, অন্যথায় সে যুদ্ধে হেরে যাবে।

## নির্দেশনা

মূল [notebook.ipynb](notebook.ipynb) নোটবুকটি আপনার সমাধানের জন্য একটি সূচনা পয়েন্ট হিসেবে ব্যবহার করুন।

উপরের পুরস্কার ফাংশনটি গেমের নিয়ম অনুযায়ী সংশোধন করুন, রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম চালান যাতে গেম জেতার সেরা কৌশল শেখা যায়, এবং র্যান্ডম হাঁটার ফলাফলগুলির সাথে আপনার অ্যালগরিদমের ফলাফল তুলনা করুন জেতা এবং হারার সংখ্যার ভিত্তিতে।

> **Note**: আপনার নতুন বিশ্বে, অবস্থাটি আরও জটিল, এবং মানব অবস্থানের পাশাপাশি ক্লান্তি এবং শক্তির মাত্রাগুলিও অন্তর্ভুক্ত করে। আপনি অবস্থাটি একটি টুপল (Board,energy,fatigue) হিসেবে উপস্থাপন করতে পারেন, অথবা অবস্থার জন্য একটি ক্লাস সংজ্ঞায়িত করতে পারেন (আপনি এটি `Board` থেকে ডেরাইভ করতে পারেন), অথবা এমনকি মূল `Board` ক্লাসটি [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py)-এর ভিতরে সংশোধন করতে পারেন।

আপনার সমাধানে, র্যান্ডম হাঁটার কৌশলের জন্য দায়ী কোডটি রাখুন এবং শেষে আপনার অ্যালগরিদমের ফলাফল র্যান্ডম হাঁটার সাথে তুলনা করুন।

> **Note**: এটি কাজ করার জন্য আপনাকে হাইপারপ্যারামিটারগুলি সামঞ্জস্য করতে হতে পারে, বিশেষত epochs-এর সংখ্যা। কারণ গেমের সাফল্য (নেকড়ের সাথে যুদ্ধ) একটি বিরল ঘটনা, আপনি অনেক দীর্ঘ প্রশিক্ষণের সময় আশা করতে পারেন।

## মূল্যায়ন

| মানদণ্ড | চমৎকার                                                                                                                                                                                                 | পর্যাপ্ত                                                                                                                                                                                | উন্নতির প্রয়োজন                                                                                                                          |
| -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|          | একটি নোটবুক উপস্থাপন করা হয়েছে যেখানে নতুন বিশ্ব নিয়মের সংজ্ঞা, Q-Learning অ্যালগরিদম এবং কিছু পাঠ্য ব্যাখ্যা রয়েছে। Q-Learning র্যান্ডম হাঁটার তুলনায় উল্লেখযোগ্যভাবে ফলাফল উন্নত করতে সক্ষম। | একটি নোটবুক উপস্থাপন করা হয়েছে, Q-Learning বাস্তবায়িত হয়েছে এবং র্যান্ডম হাঁটার তুলনায় ফলাফল উন্নত করেছে, তবে উল্লেখযোগ্যভাবে নয়; অথবা নোটবুকটি খারাপভাবে ডকুমেন্টেড এবং কোডটি ভালভাবে গঠন করা হয়নি। | বিশ্বের নিয়মগুলি পুনঃসংজ্ঞায়িত করার কিছু প্রচেষ্টা করা হয়েছে, তবে Q-Learning অ্যালগরিদম কাজ করে না, অথবা পুরস্কার ফাংশনটি সম্পূর্ণভাবে সংজ্ঞায়িত করা হয়নি। |

---

**অস্বীকৃতি**:  
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।