You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/pa/8-Reinforcement
leestott f915efe2b4
🌐 Update translations via Co-op Translator
2 weeks ago
..
1-QLearning 🌐 Update translations via Co-op Translator 2 weeks ago
2-Gym 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਜਾਂ RL, ਨੂੰ ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਅਤੇ ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਦੇ ਨਾਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਮੁੱਖ ਪੈਰਾਡਾਈਮਾਂ ਵਿੱਚੋਂ ਇੱਕ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। RL ਫੈਸਲਿਆਂ ਬਾਰੇ ਹੈ: ਸਹੀ ਫੈਸਲੇ ਲੈਣਾ ਜਾਂ ਘੱਟੋ-ਘੱਟ ਉਹਨਾਂ ਤੋਂ ਸਿੱਖਣਾ।

ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਨਕਲੀ ਵਾਤਾਵਰਣ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਟਾਕ ਮਾਰਕੀਟ। ਜੇ ਤੁਸੀਂ ਕੋਈ ਨਿਯਮ ਲਾਗੂ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ? ਕੀ ਇਸਦਾ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਕਾਰਾਤਮਕ ਪ੍ਰਭਾਵ ਹੁੰਦਾ ਹੈ? ਜੇ ਕੁਝ ਨਕਾਰਾਤਮਕ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸ ਨਕਾਰਾਤਮਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਨੂੰ ਸਵੀਕਾਰ ਕਰਨਾ ਪਵੇਗਾ, ਇਸ ਤੋਂ ਸਿੱਖਣਾ ਪਵੇਗਾ ਅਤੇ ਦਿਸ਼ਾ ਬਦਲਣੀ ਪਵੇਗੀ। ਜੇ ਇਹ ਸਕਾਰਾਤਮਕ ਨਤੀਜਾ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸ ਸਕਾਰਾਤਮਕ ਰੀਇਨਫੋਰਸਮੈਂਟ 'ਤੇ ਅੱਗੇ ਵਧਣਾ ਪਵੇਗਾ।

ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ

ਪੀਟਰ ਅਤੇ ਉਸਦੇ ਦੋਸਤਾਂ ਨੂੰ ਭੁੱਖੇ ਭੇੜੀਏ ਤੋਂ ਬਚਣਾ ਹੈ! ਚਿੱਤਰ ਜੈਨ ਲੂਪਰ ਵੱਲੋਂ।

ਖੇਤਰੀ ਵਿਸ਼ਾ: ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ (ਰੂਸ)

ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ ਇੱਕ ਸੰਗੀਤਮਈ ਪਰੀਆਂ ਦੀ ਕਹਾਣੀ ਹੈ, ਜਿਸਨੂੰ ਰੂਸੀ ਸੰਗੀਤਕਾਰ ਸਰਗੇਈ ਪ੍ਰੋਕੋਫੀਏਵ ਨੇ ਲਿਖਿਆ ਸੀ। ਇਹ ਕਹਾਣੀ ਇੱਕ ਨੌਜਵਾਨ ਪਾਈਨੀਅਰ ਪੀਟਰ ਦੀ ਹੈ, ਜੋ ਹਿੰਮਤ ਕਰਕੇ ਆਪਣੇ ਘਰ ਤੋਂ ਬਾਹਰ ਜੰਗਲ ਵਿੱਚ ਭੇੜੀਏ ਦਾ ਪਿੱਛਾ ਕਰਨ ਲਈ ਜਾਂਦਾ ਹੈ। ਇਸ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ ਨੂੰ ਟ੍ਰੇਨ ਕਰਾਂਗੇ ਜੋ ਪੀਟਰ ਦੀ ਮਦਦ ਕਰਨਗੇ:

  • ਖੋਜ: ਆਲੇ-ਦੁਆਲੇ ਦੇ ਖੇਤਰ ਦੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਇੱਕ ਉਤਕ੍ਰਿਸ਼ਟ ਨੈਵੀਗੇਸ਼ਨ ਨਕਸ਼ਾ ਬਣਾਉਣਾ।
  • ਸਿੱਖਣਾ: ਸਕੇਟਬੋਰਡ ਵਰਤਣਾ ਅਤੇ ਇਸ 'ਤੇ ਸੰਤੁਲਨ ਬਣਾਉਣਾ, ਤਾਂ ਜੋ ਤੇਜ਼ੀ ਨਾਲ ਹਿਲ ਸਕੀਏ।

ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ

🎥 ਉੱਪਰ ਦਿੱਤੇ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਅਤੇ ਪ੍ਰੋਕੋਫੀਏਵ ਦੁਆਰਾ ਪੀਟਰ ਅਤੇ ਭੇੜੀਆ ਸੁਣੋ।

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ

ਪਿਛਲੇ ਭਾਗਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਮੱਸਿਆਵਾਂ ਦੇ ਦੋ ਉਦਾਹਰਣ ਵੇਖੇ:

  • ਸੁਪਰਵਾਈਜ਼ਡ, ਜਿੱਥੇ ਸਾਡੇ ਕੋਲ ਡੇਟਾਸੈਟ ਹੁੰਦੇ ਹਨ ਜੋ ਉਸ ਸਮੱਸਿਆ ਦੇ ਹੱਲਾਂ ਦੇ ਨਮੂਨੇ ਦਿੰਦੇ ਹਨ, ਜਿਸਨੂੰ ਅਸੀਂ ਹੱਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਅਤੇ ਰਿਗ੍ਰੈਸ਼ਨ ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਕਾਰਜ ਹਨ।
  • ਅਨਸੁਪਰਵਾਈਜ਼ਡ, ਜਿਸ ਵਿੱਚ ਸਾਡੇ ਕੋਲ ਲੇਬਲ ਕੀਤੇ ਹੋਏ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਨਹੀਂ ਹੁੰਦੇ। ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਦਾ ਮੁੱਖ ਉਦਾਹਰਣ ਕਲੱਸਟਰਿੰਗ ਹੈ।

ਇਸ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਤੁਹਾਨੂੰ ਇੱਕ ਨਵੀਂ ਲਰਨਿੰਗ ਸਮੱਸਿਆ ਨਾਲ ਜਾਣੂ ਕਰਵਾਵਾਂਗੇ, ਜਿਸ ਲਈ ਲੇਬਲ ਕੀਤੇ ਹੋਏ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ। ਇਸ ਤਰ੍ਹਾਂ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦੇ ਕਈ ਪ੍ਰਕਾਰ ਹਨ:

ਉਦਾਹਰਣ - ਕੰਪਿਊਟਰ ਗੇਮ

ਮੰਨੋ ਤੁਸੀਂ ਇੱਕ ਕੰਪਿਊਟਰ ਨੂੰ ਗੇਮ ਖੇਡਣਾ ਸਿਖਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਜਿਵੇਂ ਕਿ ਚੈਸ ਜਾਂ ਸੁਪਰ ਮਾਰਿਓ। ਕੰਪਿਊਟਰ ਨੂੰ ਗੇਮ ਖੇਡਣ ਲਈ, ਸਾਨੂੰ ਇਹ ਪੇਸ਼ਗੋਈ ਕਰਨੀ ਪਵੇਗੀ ਕਿ ਹਰ ਗੇਮ ਸਥਿਤੀ ਵਿੱਚ ਕਿਹੜੀ ਚਾਲ ਚਲਣੀ ਹੈ। ਜਦੋਂ ਕਿ ਇਹ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਸਮੱਸਿਆ ਵਰਗਾ ਲੱਗ ਸਕਦਾ ਹੈ, ਇਹ ਨਹੀਂ ਹੈ - ਕਿਉਂਕਿ ਸਾਡੇ ਕੋਲ ਸਥਿਤੀਆਂ ਅਤੇ ਸੰਬੰਧਿਤ ਕਾਰਵਾਈਆਂ ਵਾਲਾ ਡੇਟਾਸੈਟ ਨਹੀਂ ਹੈ। ਜਦੋਂ ਕਿ ਸਾਡੇ ਕੋਲ ਕੁਝ ਡੇਟਾ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਮੌਜੂਦਾ ਚੈਸ ਮੈਚਾਂ ਜਾਂ ਸੁਪਰ ਮਾਰਿਓ ਖੇਡਦੇ ਖਿਡਾਰੀਆਂ ਦੀ ਰਿਕਾਰਡਿੰਗ, ਇਹ ਸੰਭਾਵਨਾ ਹੈ ਕਿ ਇਹ ਡੇਟਾ ਸੰਭਾਵਿਤ ਸਥਿਤੀਆਂ ਦੀ ਵੱਡੀ ਗਿਣਤੀ ਨੂੰ ਕਵਰ ਨਹੀਂ ਕਰੇਗਾ।

ਮੌਜੂਦਾ ਗੇਮ ਡੇਟਾ ਦੀ ਭਾਲ ਕਰਨ ਦੀ ਬਜਾਏ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦਾ ਆਧਾਰ ਇਹ ਵਿਚਾਰ ਹੈ ਕਿ ਕੰਪਿਊਟਰ ਨੂੰ ਬਹੁਤ ਵਾਰ ਗੇਮ ਖੇਡਣ ਦਿਓ ਅਤੇ ਨਤੀਜਾ ਵੇਖੋ। ਇਸ ਤਰ੍ਹਾਂ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਾਗੂ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਦੋ ਚੀਜ਼ਾਂ ਦੀ ਲੋੜ ਹੈ:

  • ਇੱਕ ਵਾਤਾਵਰਣ ਅਤੇ ਇੱਕ ਸਿਮੂਲੇਟਰ, ਜੋ ਸਾਨੂੰ ਗੇਮ ਬਹੁਤ ਵਾਰ ਖੇਡਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਸਿਮੂਲੇਟਰ ਸਾਰੇ ਗੇਮ ਨਿਯਮਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਸੰਭਾਵਿਤ ਸਥਿਤੀਆਂ ਅਤੇ ਕਾਰਵਾਈਆਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੇਗਾ।

  • ਇੱਕ ਇਨਾਮ ਫੰਕਸ਼ਨ, ਜੋ ਸਾਨੂੰ ਦੱਸੇਗਾ ਕਿ ਹਰ ਚਾਲ ਜਾਂ ਗੇਮ ਦੌਰਾਨ ਅਸੀਂ ਕਿੰਨਾ ਚੰਗਾ ਕੀਤਾ।

ਦੂਸਰੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰਕਾਰਾਂ ਅਤੇ RL ਵਿੱਚ ਮੁੱਖ ਫਰਕ ਇਹ ਹੈ ਕਿ RL ਵਿੱਚ ਅਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਨਹੀਂ ਜਾਣਦੇ ਕਿ ਅਸੀਂ ਜਿੱਤਦੇ ਹਾਂ ਜਾਂ ਹਾਰਦੇ ਹਾਂ ਜਦ ਤੱਕ ਗੇਮ ਖਤਮ ਨਹੀਂ ਹੁੰਦੀ। ਇਸ ਲਈ, ਅਸੀਂ ਇਹ ਨਹੀਂ ਕਹਿ ਸਕਦੇ ਕਿ ਕੋਈ ਖਾਸ ਚਾਲ ਚੰਗੀ ਹੈ ਜਾਂ ਨਹੀਂ - ਸਾਨੂੰ ਸਿਰਫ ਗੇਮ ਦੇ ਅੰਤ ਵਿੱਚ ਇਨਾਮ ਮਿਲਦਾ ਹੈ। ਅਤੇ ਸਾਡਾ ਲਕਸ਼ ਹੈ ਅਜਿਹੇ ਐਲਗੋਰਿਥਮ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਜੋ ਅਸਪਸ਼ਟ ਸਥਿਤੀਆਂ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਣ। ਅਸੀਂ ਇੱਕ RL ਐਲਗੋਰਿਥਮ ਬਾਰੇ ਸਿੱਖਾਂਗੇ ਜਿਸਨੂੰ Q-ਲਰਨਿੰਗ ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

ਪਾਠ

  1. ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਤੇ Q-ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ
  2. ਜਿਮ ਸਿਮੂਲੇਸ਼ਨ ਵਾਤਾਵਰਣ ਦੀ ਵਰਤੋਂ

ਸ਼੍ਰੇਯ

"ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ" ਨੂੰ ਦਿਮਿਤਰੀ ਸੋਸ਼ਨਿਕੋਵ ਦੁਆਰਾ ♥️ ਨਾਲ ਲਿਖਿਆ ਗਿਆ।


ਅਸਵੀਕਰਤਾ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੀਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।