# একটি আরও বাস্তবসম্মত বিশ্ব আমাদের পরিস্থিতিতে, পিটার প্রায় ক্লান্ত বা ক্ষুধার্ত না হয়ে চলাফেরা করতে পারছিল। একটি আরও বাস্তবসম্মত বিশ্বে, তাকে মাঝে মাঝে বসে বিশ্রাম নিতে হবে এবং নিজেকে খাওয়াতে হবে। চলুন আমাদের বিশ্বকে আরও বাস্তবসম্মত করি, নিম্নলিখিত নিয়মগুলি প্রয়োগ করে: 1. এক জায়গা থেকে অন্য জায়গায় যাওয়ার সময়, পিটার **শক্তি** হারাবে এবং কিছু **ক্লান্তি** অর্জন করবে। 2. পিটার আপেল খেয়ে আরও শক্তি অর্জন করতে পারে। 3. পিটার গাছের নিচে বা ঘাসের উপর বিশ্রাম নিয়ে ক্লান্তি দূর করতে পারে (অর্থাৎ, গাছ বা ঘাস থাকা বোর্ডের অবস্থানে হাঁটা - সবুজ ক্ষেত্র)। 4. পিটারকে নেকড়েকে খুঁজে বের করে হত্যা করতে হবে। 5. নেকড়েকে হত্যা করার জন্য, পিটারের নির্দিষ্ট মাত্রার শক্তি এবং ক্লান্তি থাকতে হবে, অন্যথায় সে যুদ্ধে হেরে যাবে। ## নির্দেশনা মূল [notebook.ipynb](notebook.ipynb) নোটবুকটি আপনার সমাধানের জন্য একটি সূচনা পয়েন্ট হিসেবে ব্যবহার করুন। উপরের পুরস্কার ফাংশনটি গেমের নিয়ম অনুযায়ী সংশোধন করুন, রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম চালান যাতে গেম জেতার সেরা কৌশল শেখা যায়, এবং র্যান্ডম হাঁটার ফলাফলগুলির সাথে আপনার অ্যালগরিদমের ফলাফল তুলনা করুন জেতা এবং হারার সংখ্যার ভিত্তিতে। > **Note**: আপনার নতুন বিশ্বে, অবস্থাটি আরও জটিল, এবং মানব অবস্থানের পাশাপাশি ক্লান্তি এবং শক্তির মাত্রাগুলিও অন্তর্ভুক্ত করে। আপনি অবস্থাটি একটি টুপল (Board,energy,fatigue) হিসেবে উপস্থাপন করতে পারেন, অথবা অবস্থার জন্য একটি ক্লাস সংজ্ঞায়িত করতে পারেন (আপনি এটি `Board` থেকে ডেরাইভ করতে পারেন), অথবা এমনকি মূল `Board` ক্লাসটি [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py)-এর ভিতরে সংশোধন করতে পারেন। আপনার সমাধানে, র্যান্ডম হাঁটার কৌশলের জন্য দায়ী কোডটি রাখুন এবং শেষে আপনার অ্যালগরিদমের ফলাফল র্যান্ডম হাঁটার সাথে তুলনা করুন। > **Note**: এটি কাজ করার জন্য আপনাকে হাইপারপ্যারামিটারগুলি সামঞ্জস্য করতে হতে পারে, বিশেষত epochs-এর সংখ্যা। কারণ গেমের সাফল্য (নেকড়ের সাথে যুদ্ধ) একটি বিরল ঘটনা, আপনি অনেক দীর্ঘ প্রশিক্ষণের সময় আশা করতে পারেন। ## মূল্যায়ন | মানদণ্ড | চমৎকার | পর্যাপ্ত | উন্নতির প্রয়োজন | | -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | একটি নোটবুক উপস্থাপন করা হয়েছে যেখানে নতুন বিশ্ব নিয়মের সংজ্ঞা, Q-Learning অ্যালগরিদম এবং কিছু পাঠ্য ব্যাখ্যা রয়েছে। Q-Learning র্যান্ডম হাঁটার তুলনায় উল্লেখযোগ্যভাবে ফলাফল উন্নত করতে সক্ষম। | একটি নোটবুক উপস্থাপন করা হয়েছে, Q-Learning বাস্তবায়িত হয়েছে এবং র্যান্ডম হাঁটার তুলনায় ফলাফল উন্নত করেছে, তবে উল্লেখযোগ্যভাবে নয়; অথবা নোটবুকটি খারাপভাবে ডকুমেন্টেড এবং কোডটি ভালভাবে গঠন করা হয়নি। | বিশ্বের নিয়মগুলি পুনঃসংজ্ঞায়িত করার কিছু প্রচেষ্টা করা হয়েছে, তবে Q-Learning অ্যালগরিদম কাজ করে না, অথবা পুরস্কার ফাংশনটি সম্পূর্ণভাবে সংজ্ঞায়িত করা হয়নি। | --- **অস্বীকৃতি**: এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।