You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/lt/8-Reinforcement
leestott 3773c80b49
🌐 Update translations via Co-op Translator
2 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 2 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Įvadas į stiprinamąjį mokymąsi

Stiprinamasis mokymasis (RL) laikomas vienu iš pagrindinių mašininio mokymosi paradigmų, greta prižiūrimo mokymosi ir neprižiūrimo mokymosi. RL yra susijęs su sprendimais: priimti tinkamus sprendimus arba bent jau mokytis iš jų.

Įsivaizduokite, kad turite simuliuotą aplinką, pavyzdžiui, akcijų rinką. Kas nutiks, jei įvesite tam tikrą reguliavimą? Ar tai turės teigiamą ar neigiamą poveikį? Jei nutiks kažkas neigiamo, turite priimti šį neigiamą stiprinimą, pasimokyti iš jo ir pakeisti kryptį. Jei rezultatas yra teigiamas, turite remtis tuo teigiamu stiprinimu.

peter ir vilkas

Petras ir jo draugai turi pabėgti nuo alkano vilko! Vaizdas sukurtas Jen Looper

Regioninė tema: Petras ir Vilkas (Rusija)

Petras ir Vilkas yra muzikinė pasaka, kurią parašė rusų kompozitorius Sergejus Prokofjevas. Tai pasakojimas apie jauną pionierių Petrą, kuris drąsiai išeina iš namų į miško laukymę, kad sugautų vilką. Šioje dalyje mes treniruosime mašininio mokymosi algoritmus, kurie padės Petrui:

  • Tyrinėti aplinką ir sukurti optimizuotą navigacijos žemėlapį
  • Išmokti naudotis riedlente ir išlaikyti pusiausvyrą, kad galėtų greičiau judėti.

Petras ir Vilkas

🎥 Spustelėkite aukščiau esantį vaizdą, kad išklausytumėte Prokofjevo kūrinį „Petras ir Vilkas“

Stiprinamasis mokymasis

Ankstesnėse dalyse matėte du mašininio mokymosi problemų pavyzdžius:

  • Prižiūrimas mokymasis, kai turime duomenų rinkinius, kurie siūlo pavyzdinius sprendimus problemai, kurią norime išspręsti. Klasifikacija ir regresija yra prižiūrimo mokymosi užduotys.
  • Neprižiūrimas mokymasis, kai neturime pažymėtų mokymo duomenų. Pagrindinis neprižiūrimo mokymosi pavyzdys yra Grupavimas.

Šioje dalyje mes supažindinsime jus su naujo tipo mokymosi problema, kuriai nereikia pažymėtų mokymo duomenų. Yra keletas tokių problemų tipų:

Pavyzdys - kompiuterinis žaidimas

Tarkime, norite išmokyti kompiuterį žaisti žaidimą, pavyzdžiui, šachmatus ar Super Mario. Kad kompiuteris galėtų žaisti žaidimą, reikia, kad jis numatytų, kokį ėjimą atlikti kiekvienoje žaidimo būsenoje. Nors tai gali atrodyti kaip klasifikacijos problema, taip nėra - nes neturime duomenų rinkinio su būsenomis ir atitinkamais veiksmais. Nors galime turėti duomenų, tokių kaip esamos šachmatų partijos ar žaidėjų „Super Mario“ žaidimo įrašai, tikėtina, kad tie duomenys nepakankamai apims didelį galimų būsenų skaičių.

Užuot ieškoję esamų žaidimo duomenų, Stiprinamasis mokymasis (RL) remiasi idėja, kad kompiuteris žaistų daug kartų ir stebėtų rezultatą. Taigi, norint taikyti stiprinamąjį mokymąsi, mums reikia dviejų dalykų:

  • Aplinkos ir simuliatoriaus, kurie leistų mums žaisti žaidimą daug kartų. Šis simuliatorius apibrėžtų visas žaidimo taisykles, galimas būsenas ir veiksmus.

  • Atlygio funkcijos, kuri nurodytų, kaip gerai pasirodėme kiekvieno ėjimo ar žaidimo metu.

Pagrindinis skirtumas tarp kitų mašininio mokymosi tipų ir RL yra tas, kad RL dažniausiai nežinome, ar laimime, ar pralaimime, kol nebaigiame žaidimo. Taigi, negalime pasakyti, ar tam tikras ėjimas vienas pats yra geras, ar ne - atlygio gauname tik žaidimo pabaigoje. Mūsų tikslas yra sukurti algoritmus, kurie leistų mums treniruoti modelį esant neapibrėžtoms sąlygoms. Mes išmoksime apie vieną RL algoritmą, vadinamą Q-mokymusi.

Pamokos

  1. Įvadas į stiprinamąjį mokymąsi ir Q-mokymąsi
  2. Simuliacinės aplinkos naudojimas su „Gym“

Kreditas

„Įvadas į stiprinamąjį mokymąsi“ buvo parašytas su ♥️ Dmitrijaus Sošnikovo


Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.