11 KiB
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਜਾਂ RL, ਨੂੰ ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਅਤੇ ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਦੇ ਨਾਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਮੁੱਖ ਪੈਰਾਡਾਈਮਾਂ ਵਿੱਚੋਂ ਇੱਕ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। RL ਫੈਸਲਿਆਂ ਬਾਰੇ ਹੈ: ਸਹੀ ਫੈਸਲੇ ਲੈਣਾ ਜਾਂ ਘੱਟੋ-ਘੱਟ ਉਹਨਾਂ ਤੋਂ ਸਿੱਖਣਾ।
ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਨਕਲੀ ਵਾਤਾਵਰਣ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਟਾਕ ਮਾਰਕੀਟ। ਜੇ ਤੁਸੀਂ ਕੋਈ ਨਿਯਮ ਲਾਗੂ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ? ਕੀ ਇਸਦਾ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਕਾਰਾਤਮਕ ਪ੍ਰਭਾਵ ਹੁੰਦਾ ਹੈ? ਜੇ ਕੁਝ ਨਕਾਰਾਤਮਕ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸ ਨਕਾਰਾਤਮਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਨੂੰ ਸਵੀਕਾਰ ਕਰਨਾ ਪਵੇਗਾ, ਇਸ ਤੋਂ ਸਿੱਖਣਾ ਪਵੇਗਾ ਅਤੇ ਦਿਸ਼ਾ ਬਦਲਣੀ ਪਵੇਗੀ। ਜੇ ਇਹ ਸਕਾਰਾਤਮਕ ਨਤੀਜਾ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸ ਸਕਾਰਾਤਮਕ ਰੀਇਨਫੋਰਸਮੈਂਟ 'ਤੇ ਅੱਗੇ ਵਧਣਾ ਪਵੇਗਾ।
ਪੀਟਰ ਅਤੇ ਉਸਦੇ ਦੋਸਤਾਂ ਨੂੰ ਭੁੱਖੇ ਭੇੜੀਏ ਤੋਂ ਬਚਣਾ ਹੈ! ਚਿੱਤਰ ਜੈਨ ਲੂਪਰ ਵੱਲੋਂ।
ਖੇਤਰੀ ਵਿਸ਼ਾ: ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ (ਰੂਸ)
ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ ਇੱਕ ਸੰਗੀਤਮਈ ਪਰੀਆਂ ਦੀ ਕਹਾਣੀ ਹੈ, ਜਿਸਨੂੰ ਰੂਸੀ ਸੰਗੀਤਕਾਰ ਸਰਗੇਈ ਪ੍ਰੋਕੋਫੀਏਵ ਨੇ ਲਿਖਿਆ ਸੀ। ਇਹ ਕਹਾਣੀ ਇੱਕ ਨੌਜਵਾਨ ਪਾਈਨੀਅਰ ਪੀਟਰ ਦੀ ਹੈ, ਜੋ ਹਿੰਮਤ ਕਰਕੇ ਆਪਣੇ ਘਰ ਤੋਂ ਬਾਹਰ ਜੰਗਲ ਵਿੱਚ ਭੇੜੀਏ ਦਾ ਪਿੱਛਾ ਕਰਨ ਲਈ ਜਾਂਦਾ ਹੈ। ਇਸ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ ਨੂੰ ਟ੍ਰੇਨ ਕਰਾਂਗੇ ਜੋ ਪੀਟਰ ਦੀ ਮਦਦ ਕਰਨਗੇ:
- ਖੋਜ: ਆਲੇ-ਦੁਆਲੇ ਦੇ ਖੇਤਰ ਦੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਇੱਕ ਉਤਕ੍ਰਿਸ਼ਟ ਨੈਵੀਗੇਸ਼ਨ ਨਕਸ਼ਾ ਬਣਾਉਣਾ।
- ਸਿੱਖਣਾ: ਸਕੇਟਬੋਰਡ ਵਰਤਣਾ ਅਤੇ ਇਸ 'ਤੇ ਸੰਤੁਲਨ ਬਣਾਉਣਾ, ਤਾਂ ਜੋ ਤੇਜ਼ੀ ਨਾਲ ਹਿਲ ਸਕੀਏ।
🎥 ਉੱਪਰ ਦਿੱਤੇ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਅਤੇ ਪ੍ਰੋਕੋਫੀਏਵ ਦੁਆਰਾ ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ ਸੁਣੋ।
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ
ਪਿਛਲੇ ਭਾਗਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਮੱਸਿਆਵਾਂ ਦੇ ਦੋ ਉਦਾਹਰਣ ਵੇਖੇ:
- ਸੁਪਰਵਾਈਜ਼ਡ, ਜਿੱਥੇ ਸਾਡੇ ਕੋਲ ਡੇਟਾਸੈਟ ਹੁੰਦੇ ਹਨ ਜੋ ਉਸ ਸਮੱਸਿਆ ਦੇ ਹੱਲਾਂ ਦੇ ਨਮੂਨੇ ਦਿੰਦੇ ਹਨ, ਜਿਸਨੂੰ ਅਸੀਂ ਹੱਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਅਤੇ ਰਿਗ੍ਰੈਸ਼ਨ ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਕਾਰਜ ਹਨ।
- ਅਨਸੁਪਰਵਾਈਜ਼ਡ, ਜਿਸ ਵਿੱਚ ਸਾਡੇ ਕੋਲ ਲੇਬਲ ਕੀਤੇ ਹੋਏ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਨਹੀਂ ਹੁੰਦੇ। ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਦਾ ਮੁੱਖ ਉਦਾਹਰਣ ਕਲੱਸਟਰਿੰਗ ਹੈ।
ਇਸ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਤੁਹਾਨੂੰ ਇੱਕ ਨਵੀਂ ਲਰਨਿੰਗ ਸਮੱਸਿਆ ਨਾਲ ਜਾਣੂ ਕਰਵਾਵਾਂਗੇ, ਜਿਸ ਲਈ ਲੇਬਲ ਕੀਤੇ ਹੋਏ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ। ਇਸ ਤਰ੍ਹਾਂ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦੇ ਕਈ ਪ੍ਰਕਾਰ ਹਨ:
- ਸੈਮੀ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ, ਜਿਸ ਵਿੱਚ ਸਾਡੇ ਕੋਲ ਬਹੁਤ ਸਾਰਾ ਅਨਲੇਬਲਡ ਡੇਟਾ ਹੁੰਦਾ ਹੈ, ਜਿਸਨੂੰ ਮਾਡਲ ਨੂੰ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
- ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਏਜੰਟ ਨਕਲੀ ਵਾਤਾਵਰਣ ਵਿੱਚ ਪ੍ਰਯੋਗ ਕਰਕੇ ਵਿਵਹਾਰ ਸਿੱਖਦਾ ਹੈ।
ਉਦਾਹਰਣ - ਕੰਪਿਊਟਰ ਗੇਮ
ਮੰਨੋ ਤੁਸੀਂ ਇੱਕ ਕੰਪਿਊਟਰ ਨੂੰ ਗੇਮ ਖੇਡਣਾ ਸਿਖਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਜਿਵੇਂ ਕਿ ਚੈਸ ਜਾਂ ਸੁਪਰ ਮਾਰਿਓ। ਕੰਪਿਊਟਰ ਨੂੰ ਗੇਮ ਖੇਡਣ ਲਈ, ਸਾਨੂੰ ਇਹ ਪੇਸ਼ਗੋਈ ਕਰਨੀ ਪਵੇਗੀ ਕਿ ਹਰ ਗੇਮ ਸਥਿਤੀ ਵਿੱਚ ਕਿਹੜੀ ਚਾਲ ਚਲਣੀ ਹੈ। ਜਦੋਂ ਕਿ ਇਹ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਸਮੱਸਿਆ ਵਰਗਾ ਲੱਗ ਸਕਦਾ ਹੈ, ਇਹ ਨਹੀਂ ਹੈ - ਕਿਉਂਕਿ ਸਾਡੇ ਕੋਲ ਸਥਿਤੀਆਂ ਅਤੇ ਸੰਬੰਧਿਤ ਕਾਰਵਾਈਆਂ ਵਾਲਾ ਡੇਟਾਸੈਟ ਨਹੀਂ ਹੈ। ਜਦੋਂ ਕਿ ਸਾਡੇ ਕੋਲ ਕੁਝ ਡੇਟਾ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਮੌਜੂਦਾ ਚੈਸ ਮੈਚਾਂ ਜਾਂ ਸੁਪਰ ਮਾਰਿਓ ਖੇਡਦੇ ਖਿਡਾਰੀਆਂ ਦੀ ਰਿਕਾਰਡਿੰਗ, ਇਹ ਸੰਭਾਵਨਾ ਹੈ ਕਿ ਇਹ ਡੇਟਾ ਸੰਭਾਵਿਤ ਸਥਿਤੀਆਂ ਦੀ ਵੱਡੀ ਗਿਣਤੀ ਨੂੰ ਕਵਰ ਨਹੀਂ ਕਰੇਗਾ।
ਮੌਜੂਦਾ ਗੇਮ ਡੇਟਾ ਦੀ ਭਾਲ ਕਰਨ ਦੀ ਬਜਾਏ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦਾ ਆਧਾਰ ਇਹ ਵਿਚਾਰ ਹੈ ਕਿ ਕੰਪਿਊਟਰ ਨੂੰ ਬਹੁਤ ਵਾਰ ਗੇਮ ਖੇਡਣ ਦਿਓ ਅਤੇ ਨਤੀਜਾ ਵੇਖੋ। ਇਸ ਤਰ੍ਹਾਂ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਾਗੂ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਦੋ ਚੀਜ਼ਾਂ ਦੀ ਲੋੜ ਹੈ:
-
ਇੱਕ ਵਾਤਾਵਰਣ ਅਤੇ ਇੱਕ ਸਿਮੂਲੇਟਰ, ਜੋ ਸਾਨੂੰ ਗੇਮ ਬਹੁਤ ਵਾਰ ਖੇਡਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਸਿਮੂਲੇਟਰ ਸਾਰੇ ਗੇਮ ਨਿਯਮਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਸੰਭਾਵਿਤ ਸਥਿਤੀਆਂ ਅਤੇ ਕਾਰਵਾਈਆਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੇਗਾ।
-
ਇੱਕ ਇਨਾਮ ਫੰਕਸ਼ਨ, ਜੋ ਸਾਨੂੰ ਦੱਸੇਗਾ ਕਿ ਹਰ ਚਾਲ ਜਾਂ ਗੇਮ ਦੌਰਾਨ ਅਸੀਂ ਕਿੰਨਾ ਚੰਗਾ ਕੀਤਾ।
ਦੂਸਰੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰਕਾਰਾਂ ਅਤੇ RL ਵਿੱਚ ਮੁੱਖ ਫਰਕ ਇਹ ਹੈ ਕਿ RL ਵਿੱਚ ਅਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਨਹੀਂ ਜਾਣਦੇ ਕਿ ਅਸੀਂ ਜਿੱਤਦੇ ਹਾਂ ਜਾਂ ਹਾਰਦੇ ਹਾਂ ਜਦ ਤੱਕ ਗੇਮ ਖਤਮ ਨਹੀਂ ਹੁੰਦੀ। ਇਸ ਲਈ, ਅਸੀਂ ਇਹ ਨਹੀਂ ਕਹਿ ਸਕਦੇ ਕਿ ਕੋਈ ਖਾਸ ਚਾਲ ਚੰਗੀ ਹੈ ਜਾਂ ਨਹੀਂ - ਸਾਨੂੰ ਸਿਰਫ ਗੇਮ ਦੇ ਅੰਤ ਵਿੱਚ ਇਨਾਮ ਮਿਲਦਾ ਹੈ। ਅਤੇ ਸਾਡਾ ਲਕਸ਼ ਹੈ ਅਜਿਹੇ ਐਲਗੋਰਿਥਮ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਜੋ ਅਸਪਸ਼ਟ ਸਥਿਤੀਆਂ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਣ। ਅਸੀਂ ਇੱਕ RL ਐਲਗੋਰਿਥਮ ਬਾਰੇ ਸਿੱਖਾਂਗੇ ਜਿਸਨੂੰ Q-ਲਰਨਿੰਗ ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਪਾਠ
ਸ਼੍ਰੇਯ
"ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ" ਨੂੰ ਦਿਮਿਤਰੀ ਸੋਸ਼ਨਿਕੋਵ ਦੁਆਰਾ ♥️ ਨਾਲ ਲਿਖਿਆ ਗਿਆ।
ਅਸਵੀਕਰਤਾ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੀਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।