You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/pa/8-Reinforcement/2-Gym/assignment.md

6.9 KiB

ਮਾਊਂਟੇਨ ਕਾਰ ਨੂੰ ਟ੍ਰੇਨ ਕਰੋ

OpenAI Gym ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਸਾਰੇ ਇਨਵਾਇਰਮੈਂਟ ਇੱਕੋ API ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ - ਜਿਵੇਂ ਕਿ ਇੱਕੋ ਮੈਥਡ reset, step ਅਤੇ render, ਅਤੇ ਐਕਸ਼ਨ ਸਪੇਸ ਅਤੇ ਅਬਜ਼ਰਵੇਸ਼ਨ ਸਪੇਸ ਦੇ ਇੱਕੋ ਅਬਸਟਰੈਕਸ਼ਨ। ਇਸ ਲਈ ਇਹ ਸੰਭਵ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇੱਕੋ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ ਨੂੰ ਘੱਟ ਕੋਡ ਬਦਲਾਅ ਨਾਲ ਵੱਖ-ਵੱਖ ਇਨਵਾਇਰਮੈਂਟ ਲਈ ਅਡਾਪਟ ਕੀਤਾ ਜਾ ਸਕੇ।

ਮਾਊਂਟੇਨ ਕਾਰ ਇਨਵਾਇਰਮੈਂਟ

ਮਾਊਂਟੇਨ ਕਾਰ ਇਨਵਾਇਰਮੈਂਟ ਵਿੱਚ ਇੱਕ ਕਾਰ ਹੈ ਜੋ ਇੱਕ ਵਾਦੀ ਵਿੱਚ ਫਸ ਗਈ ਹੈ:

ਮਕਸਦ ਵਾਦੀ ਤੋਂ ਬਾਹਰ ਨਿਕਲਣਾ ਅਤੇ ਝੰਡੇ ਨੂੰ ਪਕੜਨਾ ਹੈ, ਹਰ ਕਦਮ 'ਤੇ ਹੇਠਾਂ ਦਿੱਤੇ ਕਾਰਵਾਈਆਂ ਵਿੱਚੋਂ ਇੱਕ ਕਰਨ ਦੁਆਰਾ:

ਮੁੱਲ ਅਰਥ
0 ਖੱਬੇ ਵੱਲ ਤੇਜ਼ੀ ਲਾਓ
1 ਤੇਜ਼ੀ ਨਾ ਲਗਾਓ
2 ਸੱਜੇ ਵੱਲ ਤੇਜ਼ੀ ਲਾਓ

ਇਸ ਸਮੱਸਿਆ ਦਾ ਮੁੱਖ ਚਾਲਾਕੀ ਇਹ ਹੈ ਕਿ ਕਾਰ ਦਾ ਇੰਜਨ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਪਹਾੜ ਨੂੰ ਚੜ੍ਹਨ ਲਈ ਕਾਫ਼ੀ ਤਾਕਤਵਰ ਨਹੀਂ ਹੈ। ਇਸ ਲਈ, ਸਫਲ ਹੋਣ ਦਾ ਇੱਕੋ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਕਾਰ ਨੂੰ ਵਾਪਸ ਅਤੇ ਅੱਗੇ ਚਲਾਇਆ ਜਾਵੇ ਤਾਂ ਜੋ ਮੋਮੈਂਟਮ ਬਣ ਸਕੇ।

ਅਬਜ਼ਰਵੇਸ਼ਨ ਸਪੇਸ ਸਿਰਫ ਦੋ ਮੁੱਲਾਂ 'ਤੇ ਆਧਾਰਿਤ ਹੈ:

ਨੰਬਰ ਅਬਜ਼ਰਵੇਸ਼ਨ ਘੱਟੋ-ਘੱਟ ਵੱਧ ਤੋਂ ਵੱਧ
0 ਕਾਰ ਦੀ ਪੋਜ਼ੀਸ਼ਨ -1.2 0.6
1 ਕਾਰ ਦੀ ਗਤੀ -0.07 0.07

ਮਾਊਂਟੇਨ ਕਾਰ ਲਈ ਇਨਾਮ ਸਿਸਟਮ ਕਾਫ਼ੀ ਚਾਲਾਕ ਹੈ:

  • ਜੇ ਏਜੰਟ ਨੇ ਪਹਾੜ ਦੇ ਉੱਪਰ ਝੰਡੇ (ਪੋਜ਼ੀਸ਼ਨ = 0.5) ਨੂੰ ਪਹੁੰਚਾ ਲਿਆ, ਤਾਂ 0 ਦਾ ਇਨਾਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।
  • ਜੇ ਏਜੰਟ ਦੀ ਪੋਜ਼ੀਸ਼ਨ 0.5 ਤੋਂ ਘੱਟ ਹੈ, ਤਾਂ -1 ਦਾ ਇਨਾਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।

ਐਪੀਸੋਡ ਖਤਮ ਹੁੰਦਾ ਹੈ ਜੇ ਕਾਰ ਦੀ ਪੋਜ਼ੀਸ਼ਨ 0.5 ਤੋਂ ਵੱਧ ਹੋ ਜਾਂਦੀ ਹੈ, ਜਾਂ ਐਪੀਸੋਡ ਦੀ ਲੰਬਾਈ 200 ਤੋਂ ਵੱਧ ਹੋ ਜਾਂਦੀ ਹੈ।

ਹਦਾਇਤਾਂ

ਸਾਡੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ ਨੂੰ ਮਾਊਂਟੇਨ ਕਾਰ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਅਡਾਪਟ ਕਰੋ। ਮੌਜੂਦਾ notebook.ipynb ਕੋਡ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ, ਨਵਾਂ ਇਨਵਾਇਰਮੈਂਟ ਸਬਸਟੀਚਿਊਟ ਕਰੋ, ਸਟੇਟ ਡਿਸਕ੍ਰੀਟਾਈਜ਼ੇਸ਼ਨ ਫੰਕਸ਼ਨ ਬਦਲੋ, ਅਤੇ ਮੌਜੂਦਾ ਐਲਗੋਰਿਥਮ ਨੂੰ ਘੱਟ ਕੋਡ ਬਦਲਾਅ ਨਾਲ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ। ਹਾਈਪਰਪੈਰਾਮੀਟਰਸ ਨੂੰ ਅਨੁਕੂਲ ਕਰਕੇ ਨਤੀਜੇ ਨੂੰ ਬਿਹਤਰ ਬਣਾਓ।

Note: ਐਲਗੋਰਿਥਮ ਨੂੰ ਕਨਵਰਜ ਕਰਨ ਲਈ ਹਾਈਪਰਪੈਰਾਮੀਟਰਸ ਦੀ ਸਹੀ ਸੈਟਿੰਗ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ।

ਰੂਬ੍ਰਿਕ

ਮਾਪਦੰਡ ਸ਼ਾਨਦਾਰ ਯੋਗ ਸੁਧਾਰ ਦੀ ਲੋੜ
Q-Learning ਐਲਗੋਰਿਥਮ ਨੂੰ CartPole ਉਦਾਹਰਨ ਤੋਂ ਸਫਲਤਾਪੂਰਵਕ ਅਡਾਪਟ ਕੀਤਾ ਗਿਆ ਹੈ, ਘੱਟ ਕੋਡ ਬਦਲਾਅ ਨਾਲ, ਜੋ 200 ਕਦਮਾਂ ਦੇ ਅੰਦਰ ਝੰਡੇ ਨੂੰ ਪਕੜਨ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਦੇ ਯੋਗ ਹੈ। ਇੰਟਰਨੈਟ ਤੋਂ ਨਵਾਂ Q-Learning ਐਲਗੋਰਿਥਮ ਅਪਨਾਇਆ ਗਿਆ ਹੈ, ਪਰ ਇਹ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਸਤਾਵੇਜ਼ਬੱਧ ਹੈ; ਜਾਂ ਮੌਜੂਦਾ ਐਲਗੋਰਿਥਮ ਅਪਨਾਇਆ ਗਿਆ ਹੈ, ਪਰ ਚਾਹੇ ਨਤੀਜੇ ਨਹੀਂ ਪਹੁੰਚਦਾ। ਵਿਦਿਆਰਥੀ ਕੋਈ ਐਲਗੋਰਿਥਮ ਸਫਲਤਾਪੂਰਵਕ ਅਪਨਾਉਣ ਵਿੱਚ ਸਫਲ ਨਹੀਂ ਹੋਇਆ, ਪਰ ਹੱਲ ਵੱਲ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਚੁੱਕੇ ਹਨ (ਸਟੇਟ ਡਿਸਕ੍ਰੀਟਾਈਜ਼ੇਸ਼ਨ, Q-Table ਡਾਟਾ ਸਟ੍ਰਕਚਰ, ਆਦਿ ਨੂੰ ਲਾਗੂ ਕੀਤਾ ਹੈ)।

ਅਸਵੀਕਾਰਨਾ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੀਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।