You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ar/8-Reinforcement
leestott e4050807fb
🌐 Update translations via Co-op Translator
2 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 2 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

مقدمة في التعلم المعزز

يُعتبر التعلم المعزز، أو RL، أحد الأسس الرئيسية في تعلم الآلة، إلى جانب التعلم الموجّه والتعلم غير الموجّه. التعلم المعزز يدور حول اتخاذ القرارات: اتخاذ القرارات الصحيحة أو على الأقل التعلم منها.

تخيل أن لديك بيئة محاكاة مثل سوق الأسهم. ماذا يحدث إذا فرضت تنظيمًا معينًا؟ هل سيكون له تأثير إيجابي أم سلبي؟ إذا حدث شيء سلبي، عليك أن تأخذ هذا التعزيز السلبي، تتعلم منه، وتغير المسار. وإذا كان هناك نتيجة إيجابية، عليك أن تبني على هذا التعزيز الإيجابي.

بيتر والذئب

بيتر وأصدقاؤه بحاجة للهروب من الذئب الجائع! الصورة بواسطة جين لوبر

موضوع إقليمي: بيتر والذئب (روسيا)

بيتر والذئب هي قصة خيالية موسيقية كتبها المؤلف الروسي سيرجي بروكوفييف. تحكي القصة عن بيتر، الشاب الشجاع الذي يخرج من منزله إلى الغابة لمطاردة الذئب. في هذا القسم، سنقوم بتدريب خوارزميات تعلم الآلة لمساعدة بيتر:

  • استكشاف المنطقة المحيطة وبناء خريطة تنقل مثالية.
  • تعلم كيفية استخدام لوح التزلج والتوازن عليه، للتنقل بشكل أسرع.

بيتر والذئب

🎥 انقر على الصورة أعلاه للاستماع إلى بيتر والذئب بواسطة بروكوفييف

التعلم المعزز

في الأقسام السابقة، رأيت مثالين لمشاكل تعلم الآلة:

  • التعلم الموجّه، حيث لدينا مجموعات بيانات تقترح حلولًا نموذجية للمشكلة التي نريد حلها. التصنيف والانحدار هما مهمتان في التعلم الموجّه.
  • التعلم غير الموجّه، حيث لا توجد لدينا بيانات تدريبية مُعلمة. المثال الرئيسي للتعلم غير الموجّه هو التجميع.

في هذا القسم، سنقدم لك نوعًا جديدًا من مشاكل التعلم التي لا تتطلب بيانات تدريب مُعلمة. هناك عدة أنواع من هذه المشاكل:

  • التعلم شبه الموجّه، حيث لدينا الكثير من البيانات غير المُعلمة التي يمكن استخدامها لتدريب النموذج مبدئيًا.
  • التعلم المعزز، حيث يتعلم الوكيل كيفية التصرف من خلال إجراء تجارب في بيئة محاكاة.

مثال - لعبة كمبيوتر

افترض أنك تريد تعليم الكمبيوتر لعب لعبة، مثل الشطرنج أو سوبر ماريو. لكي يلعب الكمبيوتر اللعبة، نحتاج إلى أن يتنبأ بالحركة التي يجب أن يقوم بها في كل حالة من حالات اللعبة. بينما قد يبدو هذا كمشكلة تصنيف، إلا أنه ليس كذلك - لأننا لا نملك مجموعة بيانات تحتوي على الحالات والإجراءات المقابلة لها. على الرغم من أنه قد يكون لدينا بعض البيانات مثل مباريات الشطرنج الموجودة أو تسجيلات للاعبين يلعبون سوبر ماريو، فمن المحتمل أن هذه البيانات لن تغطي عددًا كافيًا من الحالات الممكنة.

بدلاً من البحث عن بيانات اللعبة الموجودة، يعتمد التعلم المعزز (RL) على فكرة جعل الكمبيوتر يلعب مرات عديدة ومراقبة النتائج. لذلك، لتطبيق التعلم المعزز، نحتاج إلى شيئين:

  • بيئة ومحاكي يسمحان لنا بلعب اللعبة مرات عديدة. هذا المحاكي سيحدد جميع قواعد اللعبة بالإضافة إلى الحالات والإجراءات الممكنة.

  • دالة المكافأة، التي تخبرنا بمدى نجاحنا خلال كل حركة أو لعبة.

الفرق الرئيسي بين أنواع التعلم الأخرى وRL هو أنه في RL عادةً لا نعرف ما إذا كنا سنفوز أو نخسر حتى ننهي اللعبة. لذلك، لا يمكننا القول ما إذا كانت حركة معينة وحدها جيدة أم لا - نحن نتلقى المكافأة فقط في نهاية اللعبة. وهدفنا هو تصميم خوارزميات تسمح لنا بتدريب نموذج في ظل ظروف غير مؤكدة. سنتعلم عن خوارزمية RL تُسمى Q-learning.

الدروس

  1. مقدمة في التعلم المعزز وQ-Learning
  2. استخدام بيئة محاكاة الجيم

الشكر

تم كتابة "مقدمة في التعلم المعزز" بحب ♥️ بواسطة ديمتري سوشنيكوف


إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.