|
2 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 2 weeks ago | |
2-Gym | 2 weeks ago | |
README.md | 3 weeks ago |
README.md
Įvadas į stiprinamąjį mokymąsi
Stiprinamasis mokymasis (RL) laikomas vienu iš pagrindinių mašininio mokymosi paradigmų, greta prižiūrimo mokymosi ir neprižiūrimo mokymosi. RL yra susijęs su sprendimais: priimti tinkamus sprendimus arba bent jau mokytis iš jų.
Įsivaizduokite, kad turite simuliuotą aplinką, pavyzdžiui, akcijų rinką. Kas nutiks, jei įvesite tam tikrą reguliavimą? Ar tai turės teigiamą ar neigiamą poveikį? Jei nutiks kažkas neigiamo, turite priimti šį neigiamą stiprinimą, pasimokyti iš jo ir pakeisti kryptį. Jei rezultatas yra teigiamas, turite remtis tuo teigiamu stiprinimu.
Petras ir jo draugai turi pabėgti nuo alkano vilko! Vaizdas sukurtas Jen Looper
Regioninė tema: Petras ir Vilkas (Rusija)
Petras ir Vilkas yra muzikinė pasaka, kurią parašė rusų kompozitorius Sergejus Prokofjevas. Tai pasakojimas apie jauną pionierių Petrą, kuris drąsiai išeina iš namų į miško laukymę, kad sugautų vilką. Šioje dalyje mes treniruosime mašininio mokymosi algoritmus, kurie padės Petrui:
- Tyrinėti aplinką ir sukurti optimizuotą navigacijos žemėlapį
- Išmokti naudotis riedlente ir išlaikyti pusiausvyrą, kad galėtų greičiau judėti.
🎥 Spustelėkite aukščiau esantį vaizdą, kad išklausytumėte Prokofjevo kūrinį „Petras ir Vilkas“
Stiprinamasis mokymasis
Ankstesnėse dalyse matėte du mašininio mokymosi problemų pavyzdžius:
- Prižiūrimas mokymasis, kai turime duomenų rinkinius, kurie siūlo pavyzdinius sprendimus problemai, kurią norime išspręsti. Klasifikacija ir regresija yra prižiūrimo mokymosi užduotys.
- Neprižiūrimas mokymasis, kai neturime pažymėtų mokymo duomenų. Pagrindinis neprižiūrimo mokymosi pavyzdys yra Grupavimas.
Šioje dalyje mes supažindinsime jus su naujo tipo mokymosi problema, kuriai nereikia pažymėtų mokymo duomenų. Yra keletas tokių problemų tipų:
- Pusiau prižiūrimas mokymasis, kai turime daug nepažymėtų duomenų, kuriuos galima naudoti modelio išankstiniam mokymui.
- Stiprinamasis mokymasis, kai agentas mokosi elgtis atlikdamas eksperimentus tam tikroje simuliuotoje aplinkoje.
Pavyzdys - kompiuterinis žaidimas
Tarkime, norite išmokyti kompiuterį žaisti žaidimą, pavyzdžiui, šachmatus ar Super Mario. Kad kompiuteris galėtų žaisti žaidimą, reikia, kad jis numatytų, kokį ėjimą atlikti kiekvienoje žaidimo būsenoje. Nors tai gali atrodyti kaip klasifikacijos problema, taip nėra - nes neturime duomenų rinkinio su būsenomis ir atitinkamais veiksmais. Nors galime turėti duomenų, tokių kaip esamos šachmatų partijos ar žaidėjų „Super Mario“ žaidimo įrašai, tikėtina, kad tie duomenys nepakankamai apims didelį galimų būsenų skaičių.
Užuot ieškoję esamų žaidimo duomenų, Stiprinamasis mokymasis (RL) remiasi idėja, kad kompiuteris žaistų daug kartų ir stebėtų rezultatą. Taigi, norint taikyti stiprinamąjį mokymąsi, mums reikia dviejų dalykų:
-
Aplinkos ir simuliatoriaus, kurie leistų mums žaisti žaidimą daug kartų. Šis simuliatorius apibrėžtų visas žaidimo taisykles, galimas būsenas ir veiksmus.
-
Atlygio funkcijos, kuri nurodytų, kaip gerai pasirodėme kiekvieno ėjimo ar žaidimo metu.
Pagrindinis skirtumas tarp kitų mašininio mokymosi tipų ir RL yra tas, kad RL dažniausiai nežinome, ar laimime, ar pralaimime, kol nebaigiame žaidimo. Taigi, negalime pasakyti, ar tam tikras ėjimas vienas pats yra geras, ar ne - atlygio gauname tik žaidimo pabaigoje. Mūsų tikslas yra sukurti algoritmus, kurie leistų mums treniruoti modelį esant neapibrėžtoms sąlygoms. Mes išmoksime apie vieną RL algoritmą, vadinamą Q-mokymusi.
Pamokos
Kreditas
„Įvadas į stiprinamąjį mokymąsi“ buvo parašytas su ♥️ Dmitrijaus Sošnikovo
Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.