You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/sw/8-Reinforcement/1-QLearning/assignment.md

4.0 KiB

Ulimwengu Halisi Zaidi

Katika hali yetu, Peter aliweza kusafiri karibu bila kuchoka au kuwa na njaa. Katika ulimwengu halisi zaidi, tunahitaji kukaa chini na kupumzika mara kwa mara, na pia kujilisha. Hebu tufanye ulimwengu wetu uwe halisi zaidi, kwa kutekeleza sheria zifuatazo:

  1. Kwa kusafiri kutoka sehemu moja hadi nyingine, Peter hupoteza nguvu na kupata uchovu.
  2. Peter anaweza kupata nguvu zaidi kwa kula maapulo.
  3. Peter anaweza kuondoa uchovu kwa kupumzika chini ya mti au kwenye nyasi (yaani kutembea kwenye eneo la ubao lenye mti au nyasi - uwanja wa kijani)
  4. Peter anahitaji kupata na kumuua mbwa mwitu
  5. Ili kumuua mbwa mwitu, Peter anahitaji kuwa na viwango fulani vya nguvu na uchovu, vinginevyo atapoteza vita.

Maelekezo

Tumia notebook.ipynb ya awali kama sehemu ya kuanzia kwa suluhisho lako.

Badilisha kazi ya zawadi hapo juu kulingana na sheria za mchezo, endesha algorithimu ya kujifunza kwa kuimarisha ili kujifunza mkakati bora wa kushinda mchezo, na linganisha matokeo ya matembezi ya nasibu na algorithimu yako kwa suala la idadi ya michezo iliyoshinda na kupoteza.

Note: Katika ulimwengu wako mpya, hali ni ngumu zaidi, na kando na nafasi ya binadamu pia inajumuisha viwango vya uchovu na nguvu. Unaweza kuchagua kuwakilisha hali kama tuple (Board, energy, fatigue), au kufafanua darasa kwa hali (unaweza pia kutaka kulitoa kutoka Board), au hata kurekebisha darasa la awali la Board ndani ya rlboard.py.

Katika suluhisho lako, tafadhali weka msimbo unaohusika na mkakati wa matembezi ya nasibu, na linganisha matokeo ya algorithimu yako na matembezi ya nasibu mwishoni.

Note: Unaweza kuhitaji kurekebisha hyperparameters ili ifanye kazi, hasa idadi ya epochs. Kwa sababu mafanikio ya mchezo (kupigana na mbwa mwitu) ni tukio nadra, unaweza kutarajia muda mrefu zaidi wa mafunzo.

Rubric

Kigezo Bora Zaidi Inayokubalika Inahitaji Kuboresha
Daftari linawasilishwa na ufafanuzi wa sheria mpya za ulimwengu, algorithimu ya Q-Learning na maelezo fulani ya maandishi. Q-Learning ina uwezo wa kuboresha matokeo kwa kiasi kikubwa ikilinganishwa na matembezi ya nasibu. Daftari linawasilishwa, Q-Learning inatekelezwa na inaboresha matokeo ikilinganishwa na matembezi ya nasibu, lakini sio kwa kiasi kikubwa; au daftari limeandikwa vibaya na msimbo haujapangwa vizuri Jaribio fulani la kufafanua upya sheria za ulimwengu limefanywa, lakini algorithimu ya Q-Learning haifanyi kazi, au kazi ya zawadi haijafafanuliwa kikamilifu

Kanusho: Hati hii imetafsiriwa kwa kutumia huduma za tafsiri za AI za mashine. Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwepo kwa usahihi. Hati ya asili katika lugha yake ya asili inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri potofu zinazotokana na matumizi ya tafsiri hii.