8.4 KiB

Raw Permalink Blame History

একটি আরও বাস্তবসম্মত বিশ্ব

আমাদের পরিস্থিতিতে, পিটার প্রায় ক্লান্ত বা ক্ষুধার্ত না হয়ে চলাফেরা করতে পারছিল। একটি আরও বাস্তবসম্মত বিশ্বে, তাকে মাঝে মাঝে বসে বিশ্রাম নিতে হবে এবং নিজেকে খাওয়াতে হবে। চলুন আমাদের বিশ্বকে আরও বাস্তবসম্মত করি, নিম্নলিখিত নিয়মগুলি প্রয়োগ করে:

এক জায়গা থেকে অন্য জায়গায় যাওয়ার সময়, পিটার শক্তি হারাবে এবং কিছু ক্লান্তি অর্জন করবে।
পিটার আপেল খেয়ে আরও শক্তি অর্জন করতে পারে।
পিটার গাছের নিচে বা ঘাসের উপর বিশ্রাম নিয়ে ক্লান্তি দূর করতে পারে (অর্থাৎ, গাছ বা ঘাস থাকা বোর্ডের অবস্থানে হাঁটা - সবুজ ক্ষেত্র)।
পিটারকে নেকড়েকে খুঁজে বের করে হত্যা করতে হবে।
নেকড়েকে হত্যা করার জন্য, পিটারের নির্দিষ্ট মাত্রার শক্তি এবং ক্লান্তি থাকতে হবে, অন্যথায় সে যুদ্ধে হেরে যাবে।

নির্দেশনা

মূল notebook.ipynb নোটবুকটি আপনার সমাধানের জন্য একটি সূচনা পয়েন্ট হিসেবে ব্যবহার করুন।

উপরের পুরস্কার ফাংশনটি গেমের নিয়ম অনুযায়ী সংশোধন করুন, রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম চালান যাতে গেম জেতার সেরা কৌশল শেখা যায়, এবং র্যান্ডম হাঁটার ফলাফলগুলির সাথে আপনার অ্যালগরিদমের ফলাফল তুলনা করুন জেতা এবং হারার সংখ্যার ভিত্তিতে।

Note: আপনার নতুন বিশ্বে, অবস্থাটি আরও জটিল, এবং মানব অবস্থানের পাশাপাশি ক্লান্তি এবং শক্তির মাত্রাগুলিও অন্তর্ভুক্ত করে। আপনি অবস্থাটি একটি টুপল (Board,energy,fatigue) হিসেবে উপস্থাপন করতে পারেন, অথবা অবস্থার জন্য একটি ক্লাস সংজ্ঞায়িত করতে পারেন (আপনি এটি Board থেকে ডেরাইভ করতে পারেন), অথবা এমনকি মূল Board ক্লাসটি rlboard.py-এর ভিতরে সংশোধন করতে পারেন।

আপনার সমাধানে, র্যান্ডম হাঁটার কৌশলের জন্য দায়ী কোডটি রাখুন এবং শেষে আপনার অ্যালগরিদমের ফলাফল র্যান্ডম হাঁটার সাথে তুলনা করুন।

Note: এটি কাজ করার জন্য আপনাকে হাইপারপ্যারামিটারগুলি সামঞ্জস্য করতে হতে পারে, বিশেষত epochs-এর সংখ্যা। কারণ গেমের সাফল্য (নেকড়ের সাথে যুদ্ধ) একটি বিরল ঘটনা, আপনি অনেক দীর্ঘ প্রশিক্ষণের সময় আশা করতে পারেন।

মূল্যায়ন

মানদণ্ড	চমৎকার	পর্যাপ্ত	উন্নতির প্রয়োজন
	একটি নোটবুক উপস্থাপন করা হয়েছে যেখানে নতুন বিশ্ব নিয়মের সংজ্ঞা, Q-Learning অ্যালগরিদম এবং কিছু পাঠ্য ব্যাখ্যা রয়েছে। Q-Learning র্যান্ডম হাঁটার তুলনায় উল্লেখযোগ্যভাবে ফলাফল উন্নত করতে সক্ষম।	একটি নোটবুক উপস্থাপন করা হয়েছে, Q-Learning বাস্তবায়িত হয়েছে এবং র্যান্ডম হাঁটার তুলনায় ফলাফল উন্নত করেছে, তবে উল্লেখযোগ্যভাবে নয়; অথবা নোটবুকটি খারাপভাবে ডকুমেন্টেড এবং কোডটি ভালভাবে গঠন করা হয়নি।	বিশ্বের নিয়মগুলি পুনঃসংজ্ঞায়িত করার কিছু প্রচেষ্টা করা হয়েছে, তবে Q-Learning অ্যালগরিদম কাজ করে না, অথবা পুরস্কার ফাংশনটি সম্পূর্ণভাবে সংজ্ঞায়িত করা হয়নি।

অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।

8.4 KiB Raw Permalink Blame History

একটি আরও বাস্তবসম্মত বিশ্ব

নির্দেশনা

মূল্যায়ন

8.4 KiB

Raw Permalink Blame History