You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/sl/8-Reinforcement
leestott c796f3dda8
🌐 Update translations via Co-op Translator
2 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 2 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Uvod v učenje z okrepitvami

Učenje z okrepitvami, RL, velja za enega osnovnih paradigm strojnega učenja, poleg nadzorovanega in nenadzorovanega učenja. RL se osredotoča na sprejemanje odločitev: sprejemanje pravih odločitev ali vsaj učenje iz njih.

Predstavljajte si simulirano okolje, kot je borza. Kaj se zgodi, če uvedete določeno regulacijo? Ali ima pozitiven ali negativen učinek? Če se zgodi nekaj negativnega, morate to negativno okrepitev uporabiti, se iz nje naučiti in spremeniti smer. Če je rezultat pozitiven, morate graditi na tej pozitivni okrepitvi.

Peter in volk

Peter in njegovi prijatelji morajo pobegniti lačnemu volku! Slika: Jen Looper

Regionalna tema: Peter in volk (Rusija)

Peter in volk je glasbena pravljica, ki jo je napisal ruski skladatelj Sergej Prokofjev. Gre za zgodbo o mladem pionirju Petru, ki pogumno zapusti svojo hišo in se odpravi na gozdno jaso, da bi ujel volka. V tem poglavju bomo trenirali algoritme strojnega učenja, ki bodo Petru pomagali:

  • Raziskovati okolico in zgraditi optimalen navigacijski zemljevid
  • Naučiti se uporabljati rolko in ohranjati ravnotežje, da se bo lahko hitreje premikal.

Peter in volk

🎥 Kliknite zgornjo sliko, da poslušate Peter in volk, skladbo Prokofjeva

Učenje z okrepitvami

V prejšnjih poglavjih ste videli dva primera problemov strojnega učenja:

  • Nadzorovano učenje, kjer imamo podatkovne nabore, ki predlagajo vzorčne rešitve za problem, ki ga želimo rešiti. Klasifikacija in regresija sta nalogi nadzorovanega učenja.
  • Nenadzorovano učenje, pri katerem nimamo označenih podatkov za učenje. Glavni primer nenadzorovanega učenja je Gručenje.

V tem poglavju vam bomo predstavili nov tip problema učenja, ki ne zahteva označenih podatkov za učenje. Obstaja več vrst takšnih problemov:

  • Polnadzorovano učenje, kjer imamo veliko neoznačenih podatkov, ki jih lahko uporabimo za predhodno treniranje modela.
  • Učenje z okrepitvami, pri katerem agent uči, kako se obnašati, z izvajanjem eksperimentov v simuliranem okolju.

Primer - računalniška igra

Recimo, da želite naučiti računalnik igrati igro, kot sta šah ali Super Mario. Da bi računalnik igral igro, mora napovedati, katero potezo naj izvede v vsakem stanju igre. Čeprav se to morda zdi kot problem klasifikacije, ni - ker nimamo podatkovnega nabora s stanji in ustreznimi akcijami. Čeprav imamo morda nekaj podatkov, kot so obstoječe šahovske partije ali posnetki igralcev, ki igrajo Super Mario, je verjetno, da ti podatki ne bodo zadostno pokrili velikega števila možnih stanj.

Namesto iskanja obstoječih podatkov o igri se učenje z okrepitvami (RL) opira na idejo, da računalnik večkrat igra igro in opazuje rezultate. Tako za uporabo učenja z okrepitvami potrebujemo dve stvari:

  • Okolje in simulator, ki nam omogočata, da igro večkrat igramo. Ta simulator bi določal vsa pravila igre ter možna stanja in akcije.

  • Funkcijo nagrajevanja, ki nam pove, kako dobro smo se odrezali med posamezno potezo ali igro.

Glavna razlika med drugimi vrstami strojnega učenja in RL je, da pri RL običajno ne vemo, ali zmagamo ali izgubimo, dokler ne končamo igre. Tako ne moremo reči, ali je določena poteza sama po sebi dobra ali ne - nagrado prejmemo šele na koncu igre. Naš cilj je oblikovati algoritme, ki nam omogočajo treniranje modela v negotovih razmerah. Spoznali bomo en RL-algoritem, imenovan Q-učenje.

Lekcije

  1. Uvod v učenje z okrepitvami in Q-učenje
  2. Uporaba simulacijskega okolja Gym

Zasluge

"Uvod v učenje z okrepitvami" je bilo napisano z ♥️ avtorja Dmitry Soshnikov


Omejitev odgovornosti:
Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco Co-op Translator. Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitna napačna razumevanja ali napačne interpretacije, ki bi nastale zaradi uporabe tega prevoda.