You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/bn/8-Reinforcement/1-QLearning/assignment.md

8.4 KiB

একটি আরও বাস্তবসম্মত বিশ্ব

আমাদের পরিস্থিতিতে, পিটার প্রায় ক্লান্ত বা ক্ষুধার্ত না হয়ে চলাফেরা করতে পারছিল। একটি আরও বাস্তবসম্মত বিশ্বে, তাকে মাঝে মাঝে বসে বিশ্রাম নিতে হবে এবং নিজেকে খাওয়াতে হবে। চলুন আমাদের বিশ্বকে আরও বাস্তবসম্মত করি, নিম্নলিখিত নিয়মগুলি প্রয়োগ করে:

  1. এক জায়গা থেকে অন্য জায়গায় যাওয়ার সময়, পিটার শক্তি হারাবে এবং কিছু ক্লান্তি অর্জন করবে।
  2. পিটার আপেল খেয়ে আরও শক্তি অর্জন করতে পারে।
  3. পিটার গাছের নিচে বা ঘাসের উপর বিশ্রাম নিয়ে ক্লান্তি দূর করতে পারে (অর্থাৎ, গাছ বা ঘাস থাকা বোর্ডের অবস্থানে হাঁটা - সবুজ ক্ষেত্র)।
  4. পিটারকে নেকড়েকে খুঁজে বের করে হত্যা করতে হবে।
  5. নেকড়েকে হত্যা করার জন্য, পিটারের নির্দিষ্ট মাত্রার শক্তি এবং ক্লান্তি থাকতে হবে, অন্যথায় সে যুদ্ধে হেরে যাবে।

নির্দেশনা

মূল notebook.ipynb নোটবুকটি আপনার সমাধানের জন্য একটি সূচনা পয়েন্ট হিসেবে ব্যবহার করুন।

উপরের পুরস্কার ফাংশনটি গেমের নিয়ম অনুযায়ী সংশোধন করুন, রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম চালান যাতে গেম জেতার সেরা কৌশল শেখা যায়, এবং র্যান্ডম হাঁটার ফলাফলগুলির সাথে আপনার অ্যালগরিদমের ফলাফল তুলনা করুন জেতা এবং হারার সংখ্যার ভিত্তিতে।

Note: আপনার নতুন বিশ্বে, অবস্থাটি আরও জটিল, এবং মানব অবস্থানের পাশাপাশি ক্লান্তি এবং শক্তির মাত্রাগুলিও অন্তর্ভুক্ত করে। আপনি অবস্থাটি একটি টুপল (Board,energy,fatigue) হিসেবে উপস্থাপন করতে পারেন, অথবা অবস্থার জন্য একটি ক্লাস সংজ্ঞায়িত করতে পারেন (আপনি এটি Board থেকে ডেরাইভ করতে পারেন), অথবা এমনকি মূল Board ক্লাসটি rlboard.py-এর ভিতরে সংশোধন করতে পারেন।

আপনার সমাধানে, র্যান্ডম হাঁটার কৌশলের জন্য দায়ী কোডটি রাখুন এবং শেষে আপনার অ্যালগরিদমের ফলাফল র্যান্ডম হাঁটার সাথে তুলনা করুন।

Note: এটি কাজ করার জন্য আপনাকে হাইপারপ্যারামিটারগুলি সামঞ্জস্য করতে হতে পারে, বিশেষত epochs-এর সংখ্যা। কারণ গেমের সাফল্য (নেকড়ের সাথে যুদ্ধ) একটি বিরল ঘটনা, আপনি অনেক দীর্ঘ প্রশিক্ষণের সময় আশা করতে পারেন।

মূল্যায়ন

মানদণ্ড চমৎকার পর্যাপ্ত উন্নতির প্রয়োজন
একটি নোটবুক উপস্থাপন করা হয়েছে যেখানে নতুন বিশ্ব নিয়মের সংজ্ঞা, Q-Learning অ্যালগরিদম এবং কিছু পাঠ্য ব্যাখ্যা রয়েছে। Q-Learning র্যান্ডম হাঁটার তুলনায় উল্লেখযোগ্যভাবে ফলাফল উন্নত করতে সক্ষম। একটি নোটবুক উপস্থাপন করা হয়েছে, Q-Learning বাস্তবায়িত হয়েছে এবং র্যান্ডম হাঁটার তুলনায় ফলাফল উন্নত করেছে, তবে উল্লেখযোগ্যভাবে নয়; অথবা নোটবুকটি খারাপভাবে ডকুমেন্টেড এবং কোডটি ভালভাবে গঠন করা হয়নি। বিশ্বের নিয়মগুলি পুনঃসংজ্ঞায়িত করার কিছু প্রচেষ্টা করা হয়েছে, তবে Q-Learning অ্যালগরিদম কাজ করে না, অথবা পুরস্কার ফাংশনটি সম্পূর্ণভাবে সংজ্ঞায়িত করা হয়নি।

অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।