You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/he/8-Reinforcement
leestott 349386faa1
🌐 Update translations via Co-op Translator
2 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 2 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago

README.md

מבוא ללמידת חיזוק

למידת חיזוק, RL, נחשבת לאחת מהפרדיגמות הבסיסיות של למידת מכונה, לצד למידה מונחית ולמידה בלתי מונחית. RL עוסקת בקבלת החלטות: קבלת ההחלטות הנכונות או לפחות ללמוד מהן.

דמיינו שיש לכם סביבה מדומה כמו שוק המניות. מה קורה אם אתם מטילים רגולציה מסוימת? האם יש לכך השפעה חיובית או שלילית? אם קורה משהו שלילי, עליכם לקחת את ה_חיזוק השלילי_, ללמוד ממנו ולשנות כיוון. אם התוצאה חיובית, עליכם לבנות על אותו חיזוק חיובי.

פטר והזאב

פטר וחבריו צריכים לברוח מהזאב הרעב! תמונה מאת Jen Looper

נושא אזורי: פטר והזאב (רוסיה)

פטר והזאב הוא אגדה מוזיקלית שנכתבה על ידי המלחין הרוסי סרגיי פרוקופייב. זהו סיפור על החלוץ הצעיר פטר, שיוצא באומץ מביתו אל קרחת היער כדי לרדוף אחרי הזאב. בחלק זה, נלמד אלגוריתמים של למידת מכונה שיעזרו לפטר:

  • לחקור את האזור הסובב ולבנות מפה ניווט אופטימלית.
  • ללמוד כיצד להשתמש בסקייטבורד ולשמור על איזון עליו, כדי לנוע מהר יותר.

פטר והזאב

🎥 לחצו על התמונה למעלה כדי להאזין ל"פטר והזאב" מאת פרוקופייב

למידת חיזוק

בחלקים הקודמים ראיתם שני סוגים של בעיות למידת מכונה:

  • מונחית, שבה יש לנו מערכי נתונים שמציעים פתרונות לדוגמה לבעיה שאנו רוצים לפתור. סיווג ורגרסיה הם משימות של למידה מונחית.
  • בלתי מונחית, שבה אין לנו נתוני אימון מתויגים. הדוגמה העיקרית ללמידה בלתי מונחית היא אשכולות.

בחלק זה, נציג בפניכם סוג חדש של בעיית למידה שאינה דורשת נתוני אימון מתויגים. ישנם כמה סוגים של בעיות כאלה:

  • למידה חצי-מונחית, שבה יש לנו הרבה נתונים לא מתויגים שניתן להשתמש בהם כדי לאמן את המודל מראש.
  • למידת חיזוק, שבה סוכן לומד כיצד להתנהג על ידי ביצוע ניסויים בסביבה מדומה.

דוגמה - משחק מחשב

נניח שאתם רוצים ללמד מחשב לשחק במשחק, כמו שחמט או סופר מריו. כדי שהמחשב ישחק במשחק, אנו צריכים שהוא ינבא איזו פעולה לבצע בכל אחד ממצבי המשחק. למרות שזה עשוי להיראות כמו בעיית סיווג, זה לא - מכיוון שאין לנו מערך נתונים עם מצבים ופעולות תואמות. למרות שאולי יש לנו נתונים כמו משחקי שחמט קיימים או הקלטות של שחקנים משחקים סופר מריו, סביר להניח שהנתונים הללו לא יכסו מספיק מצבים אפשריים.

במקום לחפש נתוני משחק קיימים, למידת חיזוק (RL) מבוססת על הרעיון של לגרום למחשב לשחק פעמים רבות ולצפות בתוצאה. לכן, כדי ליישם למידת חיזוק, אנו צריכים שני דברים:

  • סביבה וסימולטור שמאפשרים לנו לשחק במשחק פעמים רבות. הסימולטור יגדיר את כללי המשחק, כמו גם את המצבים והפעולות האפשריים.

  • פונקציית תגמול, שתספר לנו עד כמה הצלחנו במהלך כל מהלך או משחק.

ההבדל העיקרי בין סוגי למידת מכונה אחרים לבין RL הוא שב-RL בדרך כלל איננו יודעים אם ניצחנו או הפסדנו עד לסיום המשחק. לכן, איננו יכולים לומר אם מהלך מסוים לבדו הוא טוב או לא - אנו מקבלים תגמול רק בסוף המשחק. והמטרה שלנו היא לעצב אלגוריתמים שיאפשרו לנו לאמן מודל בתנאים של אי ודאות. נלמד על אלגוריתם RL אחד שנקרא Q-learning.

שיעורים

  1. מבוא ללמידת חיזוק ו-Q-Learning
  2. שימוש בסביבת סימולציה של Gym

קרדיטים

"מבוא ללמידת חיזוק" נכתב באהבה על ידי Dmitry Soshnikov


כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור סמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי אדם. איננו נושאים באחריות לאי הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה.