6.9 KiB
ਮਾਊਂਟੇਨ ਕਾਰ ਨੂੰ ਟ੍ਰੇਨ ਕਰੋ
OpenAI Gym ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਸਾਰੇ ਇਨਵਾਇਰਮੈਂਟ ਇੱਕੋ API ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ - ਜਿਵੇਂ ਕਿ ਇੱਕੋ ਮੈਥਡ reset
, step
ਅਤੇ render
, ਅਤੇ ਐਕਸ਼ਨ ਸਪੇਸ ਅਤੇ ਅਬਜ਼ਰਵੇਸ਼ਨ ਸਪੇਸ ਦੇ ਇੱਕੋ ਅਬਸਟਰੈਕਸ਼ਨ। ਇਸ ਲਈ ਇਹ ਸੰਭਵ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇੱਕੋ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ ਨੂੰ ਘੱਟ ਕੋਡ ਬਦਲਾਅ ਨਾਲ ਵੱਖ-ਵੱਖ ਇਨਵਾਇਰਮੈਂਟ ਲਈ ਅਡਾਪਟ ਕੀਤਾ ਜਾ ਸਕੇ।
ਮਾਊਂਟੇਨ ਕਾਰ ਇਨਵਾਇਰਮੈਂਟ
ਮਾਊਂਟੇਨ ਕਾਰ ਇਨਵਾਇਰਮੈਂਟ ਵਿੱਚ ਇੱਕ ਕਾਰ ਹੈ ਜੋ ਇੱਕ ਵਾਦੀ ਵਿੱਚ ਫਸ ਗਈ ਹੈ:
ਮਕਸਦ ਵਾਦੀ ਤੋਂ ਬਾਹਰ ਨਿਕਲਣਾ ਅਤੇ ਝੰਡੇ ਨੂੰ ਪਕੜਨਾ ਹੈ, ਹਰ ਕਦਮ 'ਤੇ ਹੇਠਾਂ ਦਿੱਤੇ ਕਾਰਵਾਈਆਂ ਵਿੱਚੋਂ ਇੱਕ ਕਰਨ ਦੁਆਰਾ:
ਮੁੱਲ | ਅਰਥ |
---|---|
0 | ਖੱਬੇ ਵੱਲ ਤੇਜ਼ੀ ਲਾਓ |
1 | ਤੇਜ਼ੀ ਨਾ ਲਗਾਓ |
2 | ਸੱਜੇ ਵੱਲ ਤੇਜ਼ੀ ਲਾਓ |
ਇਸ ਸਮੱਸਿਆ ਦਾ ਮੁੱਖ ਚਾਲਾਕੀ ਇਹ ਹੈ ਕਿ ਕਾਰ ਦਾ ਇੰਜਨ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਪਹਾੜ ਨੂੰ ਚੜ੍ਹਨ ਲਈ ਕਾਫ਼ੀ ਤਾਕਤਵਰ ਨਹੀਂ ਹੈ। ਇਸ ਲਈ, ਸਫਲ ਹੋਣ ਦਾ ਇੱਕੋ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਕਾਰ ਨੂੰ ਵਾਪਸ ਅਤੇ ਅੱਗੇ ਚਲਾਇਆ ਜਾਵੇ ਤਾਂ ਜੋ ਮੋਮੈਂਟਮ ਬਣ ਸਕੇ।
ਅਬਜ਼ਰਵੇਸ਼ਨ ਸਪੇਸ ਸਿਰਫ ਦੋ ਮੁੱਲਾਂ 'ਤੇ ਆਧਾਰਿਤ ਹੈ:
ਨੰਬਰ | ਅਬਜ਼ਰਵੇਸ਼ਨ | ਘੱਟੋ-ਘੱਟ | ਵੱਧ ਤੋਂ ਵੱਧ |
---|---|---|---|
0 | ਕਾਰ ਦੀ ਪੋਜ਼ੀਸ਼ਨ | -1.2 | 0.6 |
1 | ਕਾਰ ਦੀ ਗਤੀ | -0.07 | 0.07 |
ਮਾਊਂਟੇਨ ਕਾਰ ਲਈ ਇਨਾਮ ਸਿਸਟਮ ਕਾਫ਼ੀ ਚਾਲਾਕ ਹੈ:
- ਜੇ ਏਜੰਟ ਨੇ ਪਹਾੜ ਦੇ ਉੱਪਰ ਝੰਡੇ (ਪੋਜ਼ੀਸ਼ਨ = 0.5) ਨੂੰ ਪਹੁੰਚਾ ਲਿਆ, ਤਾਂ 0 ਦਾ ਇਨਾਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।
- ਜੇ ਏਜੰਟ ਦੀ ਪੋਜ਼ੀਸ਼ਨ 0.5 ਤੋਂ ਘੱਟ ਹੈ, ਤਾਂ -1 ਦਾ ਇਨਾਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।
ਐਪੀਸੋਡ ਖਤਮ ਹੁੰਦਾ ਹੈ ਜੇ ਕਾਰ ਦੀ ਪੋਜ਼ੀਸ਼ਨ 0.5 ਤੋਂ ਵੱਧ ਹੋ ਜਾਂਦੀ ਹੈ, ਜਾਂ ਐਪੀਸੋਡ ਦੀ ਲੰਬਾਈ 200 ਤੋਂ ਵੱਧ ਹੋ ਜਾਂਦੀ ਹੈ।
ਹਦਾਇਤਾਂ
ਸਾਡੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ ਨੂੰ ਮਾਊਂਟੇਨ ਕਾਰ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਅਡਾਪਟ ਕਰੋ। ਮੌਜੂਦਾ notebook.ipynb ਕੋਡ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ, ਨਵਾਂ ਇਨਵਾਇਰਮੈਂਟ ਸਬਸਟੀਚਿਊਟ ਕਰੋ, ਸਟੇਟ ਡਿਸਕ੍ਰੀਟਾਈਜ਼ੇਸ਼ਨ ਫੰਕਸ਼ਨ ਬਦਲੋ, ਅਤੇ ਮੌਜੂਦਾ ਐਲਗੋਰਿਥਮ ਨੂੰ ਘੱਟ ਕੋਡ ਬਦਲਾਅ ਨਾਲ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ। ਹਾਈਪਰਪੈਰਾਮੀਟਰਸ ਨੂੰ ਅਨੁਕੂਲ ਕਰਕੇ ਨਤੀਜੇ ਨੂੰ ਬਿਹਤਰ ਬਣਾਓ।
Note: ਐਲਗੋਰਿਥਮ ਨੂੰ ਕਨਵਰਜ ਕਰਨ ਲਈ ਹਾਈਪਰਪੈਰਾਮੀਟਰਸ ਦੀ ਸਹੀ ਸੈਟਿੰਗ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ।
ਰੂਬ੍ਰਿਕ
ਮਾਪਦੰਡ | ਸ਼ਾਨਦਾਰ | ਯੋਗ | ਸੁਧਾਰ ਦੀ ਲੋੜ |
---|---|---|---|
Q-Learning ਐਲਗੋਰਿਥਮ ਨੂੰ CartPole ਉਦਾਹਰਨ ਤੋਂ ਸਫਲਤਾਪੂਰਵਕ ਅਡਾਪਟ ਕੀਤਾ ਗਿਆ ਹੈ, ਘੱਟ ਕੋਡ ਬਦਲਾਅ ਨਾਲ, ਜੋ 200 ਕਦਮਾਂ ਦੇ ਅੰਦਰ ਝੰਡੇ ਨੂੰ ਪਕੜਨ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਦੇ ਯੋਗ ਹੈ। | ਇੰਟਰਨੈਟ ਤੋਂ ਨਵਾਂ Q-Learning ਐਲਗੋਰਿਥਮ ਅਪਨਾਇਆ ਗਿਆ ਹੈ, ਪਰ ਇਹ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਸਤਾਵੇਜ਼ਬੱਧ ਹੈ; ਜਾਂ ਮੌਜੂਦਾ ਐਲਗੋਰਿਥਮ ਅਪਨਾਇਆ ਗਿਆ ਹੈ, ਪਰ ਚਾਹੇ ਨਤੀਜੇ ਨਹੀਂ ਪਹੁੰਚਦਾ। | ਵਿਦਿਆਰਥੀ ਕੋਈ ਐਲਗੋਰਿਥਮ ਸਫਲਤਾਪੂਰਵਕ ਅਪਨਾਉਣ ਵਿੱਚ ਸਫਲ ਨਹੀਂ ਹੋਇਆ, ਪਰ ਹੱਲ ਵੱਲ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਚੁੱਕੇ ਹਨ (ਸਟੇਟ ਡਿਸਕ੍ਰੀਟਾਈਜ਼ੇਸ਼ਨ, Q-Table ਡਾਟਾ ਸਟ੍ਰਕਚਰ, ਆਦਿ ਨੂੰ ਲਾਗੂ ਕੀਤਾ ਹੈ)। |
ਅਸਵੀਕਾਰਨਾ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੀਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।