You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/cs/8-Reinforcement
leestott e4050807fb
🌐 Update translations via Co-op Translator
2 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 2 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago

README.md

Úvod do posilovaného učení

Posilované učení, RL, je považováno za jeden ze základních paradigmat strojového učení, vedle učení s učitelem a učení bez učitele. RL se zaměřuje na rozhodování: poskytování správných rozhodnutí nebo alespoň učení se z nich.

Představte si, že máte simulované prostředí, například akciový trh. Co se stane, pokud zavedete určitou regulaci? Má to pozitivní nebo negativní dopad? Pokud se stane něco negativního, musíte vzít tento negativní posilovací podnět, poučit se z něj a změnit směr. Pokud je výsledek pozitivní, musíte na tomto pozitivním posilovacím podnětu stavět.

peter a vlk

Petr a jeho přátelé musí utéct hladovému vlkovi! Obrázek od Jen Looper

Regionální téma: Petr a vlk (Rusko)

Petr a vlk je hudební pohádka napsaná ruským skladatelem Sergejem Prokofjevem. Je to příběh o mladém pionýrovi Petrovi, který odvážně vyjde z domu na lesní mýtinu, aby pronásledoval vlka. V této části budeme trénovat algoritmy strojového učení, které Petrovi pomohou:

  • Prozkoumat okolní oblast a vytvořit optimální navigační mapu
  • Naučit se jezdit na skateboardu a udržovat rovnováhu, aby se mohl pohybovat rychleji.

Petr a vlk

🎥 Klikněte na obrázek výše a poslechněte si Petra a vlka od Prokofjeva

Posilované učení

V předchozích částech jste viděli dva příklady problémů strojového učení:

  • S učitelem, kde máme datové sady, které naznačují vzorová řešení problému, který chceme vyřešit. Klasifikace a regrese jsou úkoly učení s učitelem.
  • Bez učitele, kde nemáme označená tréninková data. Hlavním příkladem učení bez učitele je shlukování.

V této části vás seznámíme s novým typem problému učení, který nevyžaduje označená tréninková data. Existuje několik typů takových problémů:

  • Poloučení s učitelem, kde máme velké množství neoznačených dat, která mohou být použita k předtrénování modelu.
  • Posilované učení, při kterém se agent učí, jak se chovat, prováděním experimentů v nějakém simulovaném prostředí.

Příklad - počítačová hra

Představte si, že chcete naučit počítač hrát hru, například šachy nebo Super Mario. Aby počítač mohl hrát hru, potřebujeme, aby předpověděl, jaký tah udělat v každém herním stavu. I když se to může zdát jako problém klasifikace, není tomu tak - protože nemáme datovou sadu se stavy a odpovídajícími akcemi. I když můžeme mít nějaká data, jako jsou existující šachové partie nebo záznamy hráčů hrajících Super Mario, je pravděpodobné, že tato data nebudou dostatečně pokrývat velké množství možných stavů.

Místo hledání existujících herních dat je posilované učení (RL) založeno na myšlence nechat počítač hrát mnohokrát a pozorovat výsledek. Abychom mohli aplikovat posilované učení, potřebujeme dvě věci:

  • Prostředí a simulátor, které nám umožní hru hrát mnohokrát. Tento simulátor by definoval všechna pravidla hry, stejně jako možné stavy a akce.

  • Funkci odměny, která nám řekne, jak dobře jsme si vedli během každého tahu nebo hry.

Hlavní rozdíl mezi ostatními typy strojového učení a RL je ten, že v RL obvykle nevíme, zda vyhrajeme nebo prohrajeme, dokud nedokončíme hru. Nemůžeme tedy říci, zda je určitý tah sám o sobě dobrý nebo ne - odměnu dostáváme až na konci hry. Naším cílem je navrhnout algoritmy, které nám umožní trénovat model za nejistých podmínek. Naučíme se o jednom RL algoritmu nazvaném Q-learning.

Lekce

  1. Úvod do posilovaného učení a Q-Learningu
  2. Použití simulovaného prostředí Gym

Poděkování

"Úvod do posilovaného učení" byl napsán s ♥️ od Dmitry Soshnikov


Prohlášení:
Tento dokument byl přeložen pomocí služby pro automatický překlad Co-op Translator. Ačkoli se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.