|
|
3 weeks ago | |
|---|---|---|
| .. | ||
| 1-QLearning | 3 weeks ago | |
| 2-Gym | 3 weeks ago | |
| README.md | 3 weeks ago | |
README.md
Sissejuhatus tugevdusõppesse
Tugevdusõpe, RL, on üks põhilisi masinõppe paradigmasid, kõrvuti juhendatud ja juhendamata õppega. RL keskendub otsustele: õigete otsuste tegemisele või vähemalt nende õppimisele.
Kujutlege, et teil on simuleeritud keskkond, näiteks aktsiaturg. Mis juhtub, kui kehtestate teatud regulatsiooni? Kas sellel on positiivne või negatiivne mõju? Kui juhtub midagi negatiivset, peate võtma selle negatiivse tugevduse, sellest õppima ja suunda muutma. Kui tulemus on positiivne, peate sellele positiivsele tugevdusele tuginedes edasi liikuma.
Peeter ja tema sõbrad peavad põgenema näljase hundi eest! Pildi autor Jen Looper
Regionaalne teema: Peeter ja hunt (Venemaa)
Peeter ja hunt on muinasjutt, mille kirjutas vene helilooja Sergei Prokofjev. See on lugu noorest pioneerist Peetrist, kes julgesti lahkub oma kodust, et metsas hundiga silmitsi seista. Selles osas treenime masinõppe algoritme, mis aitavad Peetril:
- Avastada ümbritsevat ala ja koostada optimaalne navigeerimiskaart
- Õppida kasutama rulaga tasakaalu hoidmist, et kiiremini liikuda.
🎥 Klõpsake ülaloleval pildil, et kuulata Prokofjevi "Peeter ja hunt"
Tugevdusõpe
Eelnevates osades olete näinud kahte masinõppe probleemi näidet:
- Juhendatud õpe, kus meil on andmekogumid, mis pakuvad näidislahendusi probleemile, mida soovime lahendada. Klassifikatsioon ja regressioon on juhendatud õppe ülesanded.
- Juhendamata õpe, kus meil ei ole märgistatud treeningandmeid. Juhendamata õppe peamine näide on klasterdamine.
Selles osas tutvustame teile uut tüüpi õppeprobleemi, mis ei vaja märgistatud treeningandmeid. Selliseid probleeme on mitut tüüpi:
- Pooljuhendatud õpe, kus meil on palju märgistamata andmeid, mida saab kasutada mudeli eeltreenimiseks.
- Tugevdusõpe, kus agent õpib käitumist, tehes katseid mingis simuleeritud keskkonnas.
Näide - arvutimäng
Oletame, et soovite õpetada arvutit mängima mängu, näiteks malet või Super Mario. Selleks, et arvuti mängu mängiks, peame õpetama seda ennustama, millist käiku teha igas mängu seisus. Kuigi see võib tunduda klassifikatsiooniprobleemina, ei ole see nii - sest meil ei ole andmekogumit, mis sisaldaks seisusid ja vastavaid tegevusi. Kuigi meil võib olla mõningaid andmeid, nagu olemasolevad malemängud või Super Mario mängijate salvestused, ei kata need andmed tõenäoliselt piisavalt suurt hulka võimalikke seisusid.
Selle asemel, et otsida olemasolevaid mänguandmeid, põhineb Tugevdusõpe (RL) ideel lasta arvutil mängida mitu korda ja jälgida tulemust. Seega, et rakendada tugevdusõpet, vajame kahte asja:
-
Keskkonda ja simulaatorit, mis võimaldavad meil mängu mitu korda mängida. See simulaator määratleks kõik mängureeglid, samuti võimalikud seisud ja tegevused.
-
Tasu funktsiooni, mis ütleks meile, kui hästi meil iga käigu või mängu ajal läks.
Peamine erinevus teiste masinõppe tüüpide ja RL vahel on see, et RL-is me tavaliselt ei tea, kas võidame või kaotame, kuni mäng on lõppenud. Seega ei saa me öelda, kas teatud käik iseenesest on hea või mitte - me saame tasu alles mängu lõpus. Meie eesmärk on kujundada algoritme, mis võimaldavad meil treenida mudelit ebakindlates tingimustes. Õpime tundma ühte RL algoritmi, mida nimetatakse Q-õppeks.
Õppetunnid
Autorid
"Sissejuhatus tugevdusõppesse" on kirjutatud ♥️ poolt Dmitry Soshnikov
Lahtiütlus:
See dokument on tõlgitud AI tõlketeenuse Co-op Translator abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.

