|
3 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 3 weeks ago | |
2-Gym | 3 weeks ago | |
README.md | 3 weeks ago |
README.md
Utangulizi wa kujifunza kwa kuimarisha
Kujifunza kwa kuimarisha, RL, huchukuliwa kama mojawapo ya mifumo ya msingi ya kujifunza kwa mashine, sambamba na kujifunza kwa kusimamiwa na kujifunza bila kusimamiwa. RL inahusu maamuzi: kufanya maamuzi sahihi au angalau kujifunza kutoka kwa maamuzi hayo.
Fikiria una mazingira yaliyosimuliwa kama soko la hisa. Nini hutokea ikiwa utaweka kanuni fulani? Je, ina athari chanya au hasi? Ikiwa kitu hasi kinatokea, unahitaji kuchukua kuimarisha hasi, kujifunza kutoka kwayo, na kubadilisha mwelekeo. Ikiwa ni matokeo chanya, unahitaji kujenga juu ya kuimarisha chanya.
Peter na marafiki zake wanahitaji kutoroka mbwa mwitu mwenye njaa! Picha na Jen Looper
Mada ya Kieneo: Peter na Mbwa Mwitu (Urusi)
Peter na Mbwa Mwitu ni hadithi ya muziki iliyoandikwa na mtunzi wa Kirusi Sergei Prokofiev. Ni hadithi kuhusu kijana shupavu Peter, ambaye kwa ujasiri anatoka nyumbani kwake kwenda uwanda wa msitu kumfukuza mbwa mwitu. Katika sehemu hii, tutafundisha algoriti za kujifunza kwa mashine zitakazomsaidia Peter:
- Kuchunguza eneo linalomzunguka na kujenga ramani bora ya urambazaji.
- Kujifunza jinsi ya kutumia skateboard na kudumisha usawa wake, ili kuzunguka kwa kasi zaidi.
🎥 Bofya picha hapo juu kusikiliza Peter na Mbwa Mwitu na Prokofiev
Kujifunza kwa kuimarisha
Katika sehemu zilizopita, umeona mifano miwili ya matatizo ya kujifunza kwa mashine:
- Kusimamiwa, ambapo tuna seti za data zinazopendekeza suluhisho za mfano kwa tatizo tunalotaka kutatua. Uainishaji na urekebishaji ni kazi za kujifunza kwa kusimamiwa.
- Bila kusimamiwa, ambapo hatuna data ya mafunzo yenye lebo. Mfano mkuu wa kujifunza bila kusimamiwa ni Kugawanya makundi.
Katika sehemu hii, tutakutambulisha aina mpya ya tatizo la kujifunza ambalo halihitaji data ya mafunzo yenye lebo. Kuna aina kadhaa za matatizo kama haya:
- Kujifunza kwa nusu kusimamiwa, ambapo tuna data nyingi isiyo na lebo inayoweza kutumika kufundisha awali mfano.
- Kujifunza kwa kuimarisha, ambapo wakala hujifunza jinsi ya kuendesha mambo kwa kufanya majaribio katika mazingira yaliyosimuliwa.
Mfano - mchezo wa kompyuta
Fikiria unataka kufundisha kompyuta kucheza mchezo, kama vile chess, au Super Mario. Ili kompyuta icheze mchezo, tunahitaji kuitabiria hatua gani ichukue katika kila hali ya mchezo. Ingawa hili linaweza kuonekana kama tatizo la uainishaji, si hivyo - kwa sababu hatuna seti ya data yenye hali na hatua zinazolingana. Ingawa tunaweza kuwa na data kama vile mechi zilizopo za chess au rekodi za wachezaji wakicheza Super Mario, kuna uwezekano kwamba data hiyo haitatosheleza kufunika idadi kubwa ya hali zinazowezekana.
Badala ya kutafuta data ya mchezo iliyopo, Kujifunza kwa Kuimarisha (RL) kunategemea wazo la kuifanya kompyuta icheze mara nyingi na kuchunguza matokeo. Hivyo basi, ili kutumia Kujifunza kwa Kuimarisha, tunahitaji vitu viwili:
-
Mazingira na kisimulizi kinachoturuhusu kucheza mchezo mara nyingi. Kisimulizi hiki kingeeleza sheria zote za mchezo pamoja na hali na hatua zinazowezekana.
-
Kazi ya malipo, ambayo ingetueleza jinsi tulivyofanya vizuri katika kila hatua au mchezo.
Tofauti kuu kati ya aina nyingine za kujifunza kwa mashine na RL ni kwamba katika RL kwa kawaida hatujui kama tumeshinda au tumeshindwa hadi tumalize mchezo. Hivyo basi, hatuwezi kusema kama hatua fulani pekee ni nzuri au la - tunapokea tu malipo mwishoni mwa mchezo. Na lengo letu ni kubuni algoriti zitakazotuwezesha kufundisha mfano chini ya hali zisizo na uhakika. Tutajifunza kuhusu algoriti moja ya RL inayoitwa Q-learning.
Masomo
Shukrani
"Utangulizi wa Kujifunza kwa Kuimarisha" uliandikwa kwa ♥️ na Dmitry Soshnikov
Kanusho:
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI Co-op Translator. Ingawa tunajitahidi kuhakikisha usahihi, tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuchukuliwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.