You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/pa/2-Regression/3-Linear
localizeflow[bot] 7cb481c5ce
chore(i18n): sync translations with latest source changes (chunk 1/1, 21 changes)
3 months ago
..
solution chore(i18n): sync translations with latest source changes (chunk 1/4, 822 changes) 4 months ago
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 21 changes) 3 months ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/4, 822 changes) 4 months ago
notebook.ipynb 🌐 Update translations via Co-op Translator 9 months ago

README.md

ਸਕਾਈਕਿਟ-ਲੈਕਰਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਬਣਾਓ: ਰਿਗ੍ਰੈਸ਼ਨ ਦੇ ਚਾਰ ਤਰੀਕੇ

ਸ਼ੁਰੂਆਤੀ ਨੋਟ

ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਨੂੰ ਉਦੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਜਦੋਂ ਅਸੀਂ ਇੱਕ ਸੰਖਿਆਤਮਕ ਮੁੱਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨੀ ਹੋਵੇ (ਜਿਵੇਂ ਕਿ, ਘਰ ਦੀ ਕੀਮਤ, ਤਾਪਮਾਨ, ਜਾਂ ਵਿਕਰੀ)। ਇਹ ਓਦੋਂ ਕੰਮ ਕਰਦਾ ਹੈ ਜਦੋਂ ਇੱਕ ਸਿੱਧੀ ਲਾਈਨ ਲੱਭੀ ਜਾਏ ਜੋ ਇਨਪੁਟ ਫੀਚਰਾਂ ਅਤੇ ਆਉਟਪੁੱਟ ਦੇ ਰਿਸ਼ਤੇ ਨੂੰ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਦਰਸਾਵੇ।

ਇਸ ਪਾਠ ਵਿੱਚ, ਸਾਨੂੰ ਪਹੁੰਚ ਪਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਕੰਸੈਪਟ ਨੂੰ ਸਮਝਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਾਂਗੇ, ਫਿਰ ਅਗਲੇ ਪੱਧਰ ਦੇ ਰਿਗ੍ਰੈਸ਼ਨ ਤਕਨੀਕਾਂ ਨੂੰ ਵੇਖਾਂਗੇ। ਲਾਈਨਰ ਅਤੇ ਪੋਲਿਨੋਮਿਆਲ ਰਿਗ੍ਰੈਸ਼ਨ ਇੰਫੋਗ੍ਰਾਫਿਕ

ਇੰਫੋਗ੍ਰਾਫਿਕ ਦੁਆਰਾ ਦਸਾਨੀ ਮਦਿਪੱਲੀ

ਪ੍ਰੀ-ਲੈਕਚਰ ਕੀਤਾ

ਇਹ ਪਾਠ R ਵਿੱਚ ਉਪਲਬਧ ਹੈ!

ਜਾਣ-ਪਛਾਣ

ਹਾਲ ਤੱਕ ਤੁਸੀਂ ਪੰਪਕਿਨ ਦੀ ਕੀਮਤ ਦੇ ਡਾਟਾ ਸੈੱਟ ਵਿਚੋਂ ਕੁਝ ਨਮੂਨਾ ਡਾਟਾ ਨਾਲ ਰਿਗ੍ਰੈਸ਼ਨ ਕੀਹ ਹੈ ਦਾ ਅਨੁਸੰਦਾਨ ਕੀਤਾ ਹੈ। ਤੁਸੀਂ ਇਹ ਮੈਟਪਲਾਟਲਿਬ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵੀ ਵਿਜੁਆਲਾਈਜ਼ ਕਰ ਚੁੱਕੇ ਹੋ।

ਹੁਣ ਤੁਸੀਂ ML ਲਈ ਰਿਗ੍ਰੈਸ਼ਨ ਵਿੱਚ ਹੋਰ ਗਹਿਰਾਈ ਨਾਲ ਜਾਣ ਦੇ ਲਈ ਤਿਆਰ ਹੋ। ਜਦੋਂਕਿ ਵਿਜੁਆਲਾਈਜ਼ੇਸ਼ਨ ਤੁਹਾਨੂੰ ਡਾਟਾ ਦੇ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਅਸਲੀ ਤਾਕਤ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਵਿੱਚ ਹੈ। ਮਾਡਲ ਇਤਿਹਾਸਕ ਡਾਟਾ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਡਾਟਾ ਦੀ dependency ਨੂੰ ਆਪਣੇ ਆਪ ਸਮਝ ਸਕਣ, ਅਤੇ ਇਹ ਤੁਹਾਨੂੰ ਨਵੇਂ ਡਾਟਾ ਲਈ ਨਤੀਜੇ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ, ਜਿਸਨੂੰ ਮਾਡਲ ਪਹਿਲਾਂ ਨਹੀਂ ਦੇਖਿਆ ਹੁੰਦਾ।

ਇਸ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਰਿਗ੍ਰੈਸ਼ਨ ਦੇ ਦੋ ਪ੍ਰਕਾਰਾਂ ਬਾਰੇ ਜ਼ਿਆਦਾ ਜਾਣੋਗੇ: ਮੁਲਭੂਤ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਅਤੇ ਪੋਲਿਨੋਮਿਆਲ ਰਿਗ੍ਰੈਸ਼ਨ, ਨਾਲ ਹੀ ਇਹ ਤਕਨੀਕਾਂ ਦੇ ਮੈਥਮੈਟਿਕਲ ਅਧਾਰ ਨੂੰ ਸਮਝੋਗੇ। ਉਹ ਮਾਡਲ ਪੰਪਕਿਨਾਂ ਦੀਆਂ ਕੀਮਤਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਇਨਪੁਟ ਡਾਟਾ ਦੇ ਅਧਾਰ 'ਤੇ ਅਨੁਮਾਨ ਲਗਾਉਣਗੇ।

ਬੱਚਿਆਂ ਲਈ ML - ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਸਮਝਣਾ

🎥 ਉਪਰੋਕਤ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਬ ਕਰੋ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਦਾ ਛੋਟਾ ਵੀਡੀਓ ਵੇਰਵਾ ਦੇਖਣ ਲਈ।

ਇਸ ਸਿਲੇਬਸ ਵਿੱਚ, ਅਸੀਂ ਘੱਟੋ-ਘੱਟ ਗਣਿਤ ਗਿਆਨ ਮੰਨਦੇ ਹਾਂ, ਅਤੇ ਇਹ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਤੋਂ ਆਏ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਜਾਣਣਾ ਆਸਾਨ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਇਸ ਲਈ ਨੋਟਾਂ, 🧮 ਕਾਲਆਊਟ, ਡਾਇਗ੍ਰਾਮ ਅਤੇ ਹੋਰ ਸਿੱਖਣ ਵਾਲੇ ਉਪਕਾਰਨਾਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਵੇਖੋ।

ਲੋੜੀਂਦੀ ਤਿਆਰੀ

ਤੁਸੀਂ ਹੁਣ ਤੱਕ ਪੰਪਕਿਨ ਡਾਟਾ ਦੀ ਸਰਚਨਾ ਨੂੰ ਸਮਝ ਚੁੱਕੇ ਹੋ ਜੋ ਅਸੀਂ ਇਸ ਪਾਠ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਰਹੇ ਹਾਂ। ਤੁਹਾਡੇ ਕੋਲ ਇਹ ਇਸ ਪਾਠ ਦੀ notebook.ipynb ਫਾਈਲ ਵਿੱਚ ਪਹਿਲਾਂ ਹੀ ਲੋਡ ਅਤੇ ਸਾਫ ਕੀਤਾ ਹੋਇਆ ਹੈ। ਉਸ ਫਾਈਲ ਵਿੱਚ, ਪੰਪਕਿਨ ਦੀ ਕੀਮਤ ਨੂੰ ਪ੍ਰਤੀ ਬਸ਼ਲ ਵਿਆਪਕ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਤੁਸੀਂ ਵਿਜ਼ੂਅਲ ਸਟੂਡੀਓ ਕੋਡ ਚੈਣਲਾਂ ਵਿੱਚ ਇਹ ਨੋਟਬੁੱਕ ਚਲਾ ਸਕਦੇ ਹੋ।

ਤਿਆਰੀ

ਸਮਝ ਲਈ, ਤੁਸੀਂ ਇਹ ਡਾਟਾ ਲੋਡ ਕਰ ਰਹੇ ਹੋ ਤਾਂ ਜੋ ਤੁਸੀਂ ਉਸ ਤੋਂ ਸਵਾਲ ਪੁੱਛ ਸਕੋ।

  • ਪੰਪਕਿਨ ਖਰੀਦਣ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਸਮਾਂ ਕਦੋਂ ਹੈ?
  • ਮਿਨੀਏਚਰ ਪੰਪਕਿਨਾਂ ਦੇ ਇੱਕ ਕੇਸ ਦੀ ਕੀਮਤ ਕੀ ਉਮੀਦ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ?
  • ਕੀ ਮੈਂ ਅੱਧਾ-ਬਸ਼ਲ ਟੋਕਰੀਵਾਲੇ ਖਰੀਦਾਂ ਜਾਂ 1 1/9 ਬਸ਼ਲ ਬਾਕਸ ਦੁਆਰਾ? ਆਓ ਇਸ ਡਾਟਾ ਵਿੱਚ ਹੋਰ ਖੋਜ ਕਰੀਏ।

ਪਿਛਲੇ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਇੱਕ ਪੈਂਡਾਸ ਡਾਟਾ ਫਰੇਮ ਬਣਾਇਆ ਅਤੇ ਅਸਲ ਡਾਟਾ ਸੈੱਟ ਦੇ ਹਿੱਸੇ ਨਾਲ ਭਰਿਆ, ਮੁੱਲ ਦੀ ਸਟੈਂਡਰਡਾਈਜ਼ਿੰਗ ਬਸ਼ਲ ਦੇ ਮੁਤਾਬਕ ਕੀਤੀ। ਪਰ ਇਹ ਕਰਨ ਨਾਲ, ਤੁਸੀਂ ਸਿਰਫ ਲਗਭਗ 400 ਡਾਟਾਪੋਇੰਟ ਅਰਜਾ ਕਰ ਸਕੇ ਅਤੇ ਸਿਰਫ ਪਤਝੜ ਮਹੀਨਿਆਂ ਲਈ।

ਇਸ ਪਾਠ ਦੇ ਨਾਲ ਜੁੜੇ ਨੋਟਬੁੱਕ ਵਿੱਚ ਪਹਿਲਾਂ ਹੀ ਲੋਡ ਕੀਤਾ ਡਾਟਾ ਦੇਖੋ। ਡਾਟਾ ਪਹਿਲਾਂ ਹੀ ਲੋਡ ਹੈ ਅਤੇ ਇੱਕ ਬੁਨਿਆਦੀ scatterplot ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਹੀਨੇ ਦਾ ਡਾਟਾ ਕਿਵੇਂ ਹੈ। ਸਾਡੀ ਕੋਸ਼ਿਸ਼ ਹੋ ਸਕਦੀ ਹੈ ਕਿ ਇਸ ਡਾਟਾ ਦੀ ਕੁਦਰਤ ਨੂੰ ਹੋਰ ਸਾਫ ਕਰਕੇ ਭਲਕੇ ਜਾਣਕਾਰੀ ਮਿਲੇ।

ਇੱਕ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਲਾਈਨ

ਜਿਵੇਂ ਤੁਸੀਂ ਪਾਠ 1 ਵਿੱਚ ਸਿੱਖਿਆ ਸੀ, ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਦਾ ਮੁੱਖ ਉਦੇਸ਼ ਇੱਕ ਅਜਿਹੀ ਲਾਈਨ ਦੁਆਰਾ:

  • ਵিৱਰਣਾਤਮਕ ਸੰਬੰਧ ਦਿਖਾਉਣਾ। ਵਿਆਪਕ ਸੰਬੰਧ ਦਰਸਾਉਣਾ
  • ਭਵਿੱਖਬਾਣੀ ਕਰਨੀ। ਇਹ ਠੀਕ ਭਵਿੱਖਬਾਣੀ ਕਰਨੀ ਕਿ ਨਵਾਂ ਡਾਟਾਪੋਇੰਟ ਕਿਹੜੇ ਸਥਾਨ ਤੇ ਆਵੇਗਾ।

ਇਹ ਆਮ ਤੌਰ ਤੇ ਲੀਸਟ-ਸਕਵੈਅਰਜ਼ ਰਿਗ੍ਰੈਸ਼ਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੁੰਦੀ ਹੈ। "ਲੀਸਟ-ਸਕਵੈਅਰਜ਼" ਸ਼ਬਦ ਮਾਡਲ ਵਿੱਚ ਕੁੱਲ ਗਲਤੀ ਨੂੰ ਘਟਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਹਰ ਡਾਟਾਪੋਇੰਟ ਲਈ ਅਸੀਂ ਲਕੀਰ ਅਤੇ ਅਸਲ ਨੁਕਤੇ ਵਿਚਕਾਰ ਖੜ੍ਹੇ ਦੇ ਉਚਾਈ ਮੂਲ ਨੂੰ ਮਾਪਦੇ ਹਾਂ (ਜਿਸ ਨੂੰ ਰੇਜ਼ਿਡੂਅਲ ਕਹਿੰਦੇ ਹਨ)।

ਅਸੀਂ ਦੁੱਧਰ ਮੂਲਾਂ ਨੂੰ ਦੋ ਮੁੱਖ ਕਾਰਨਾਂ ਕਰਕੇ ਵਰਗ ਕਰਦੇ ਹਾਂ:

  1. ਦਿਸ਼ਾ ਤੋਂ ਵੱਧ ਮਹੱਤਵ: ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ -5 ਵੱਲੀ ਗਲਤੀ +5 ਵਾਂਗੋਂ ਸਮਾਨ ਦਾ ਮੂਲ ਰੱਖੇ। ਵਰਗ ਕਰਨ ਨਾਲ ਸਾਰੇ ਮੁੱਲ ਸਕਾਰਾਤਮਕ ਹੋ ਜਾਂਦੇ ਹਨ।

  2. ਆਉਟਲਾਇਅਰਜ਼ ਨੂੰ ਸਜ਼ਾ ਦੇਣਾ: ਵਰਗ ਕਰਨ ਨਾਲ ਵੱਡੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਵੱਧ ਭਾਰ ਮਿਲਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਲਾਈਨ ਉਹਨਾਂ ਨੁਕਤਿਆਂ ਤੋਂ ਨੇੜੇ ਰਹਿੰਦੀ ਹੈ ਜੋ ਦੂਰ ਹਨ।

ਫਿਰ ਅਸੀਂ ਇਹ ਸਾਰੇ ਵਰਗ ਮੁੱਲ ਜੋੜਦੇ ਹਾਂ। ਸਾਡੀ ਕੋਸ਼ਿਸ਼ ਹੈ ਕਿ ਉਹ ਖਾਸ ਲਾਈਨ ਲੱਭੀਏ ਜਿੱਥੇ ਇਹ ਜੋੜ ਸਭ ਤੋਂ ਘੱਟ ਹੋਵੇ — ਇਸ ਲਈ ਇਸਨੂੰ "ਲੀਸਟ-ਸਕਵੈਅਰਜ਼" ਕਹਿੰਦੇ ਹਨ।

🧮 ਮੈਨੂੰ ਗਣਿਤ ਦਿਖਾਓ

ਇਹ ਲਾਈਨ, ਜਿਸਨੂੰ ਬਿਹਤਰ ਫਿੱਟ ਲਾਈਨ ਕਹਿੰਦੇ ਹਨ, ਇੱਕ ਸਮੀਕਰਨ ਨਾਲ ਦਰਸਾਈ ਜਾਂਦੀ ਹੈ:

Y = a + bX

X ਨੂੰ 'ਵਿਆਖਿਆਤਮਕ ਚਰ' ਕਹਿੰਦੇ ਹਨ। Y ਨੂੰ 'ਨਲੀ ਚਰ' ਕਹਿੰਦੇ ਹਨ। ਲਾਈਨ ਦਾ ਢਲਾਨ b ਹੈ ਅਤੇ a y-ਇੰਟਰਸੈਪਟ ਹੈ, ਜੋ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਜਦੋਂ X = 0 ਹੋਵੇ ਤਾਂ Y ਦੀ ਕੀਮਤ ਕੀ ਹੈ।

ਢਲਾਨ ਦੀ ਗਣਨਾ ਕਰੋ

ਪਹਿਲਾਂ ਢਲਾਨ b ਦੀ ਗਣਨਾ ਕਰੋ। ਇੰਫੋਗ੍ਰਾਫਿਕ ਦੁਆਰਾ ਜੈਨ ਲੂਪਰ

ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਸਾਡੇ ਪੰਪਕਿਨ ਡਾਟਾ ਦੇ ਮੁੱਖ ਸਵਾਲ: "ਮਹੀਨੇ ਦੇ ਅਨੁਸਾਰ ਪ੍ਰਤੀ ਬਸ਼ਲ ਪੰਪਕਿਨ ਦੀ ਕੀਮਤ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰੋ", ਵਿੱਚ X ਕੀਮਤ ਨੂੰ ਦਰਸਾਏਗਾ ਅਤੇ Y ਮਾਹ ਉਦੇਸ਼ ਸਮਝਾਏਗਾ।

ਸਮੀਕਰਨ ਪੂਰਾ ਕਰੋ

Y ਦੀ ਕੀਮਤ ਦੀ ਗਣਨਾ ਕਰੋ। ਜੇ ਤੁਸੀਂ ਲੱਗਭਗ $4 ਦੇ ਕਦਰ ਦੇ ਰਹੇ ਹੋ, ਤਾਂ ਇਹ ਜ਼ਰੂਰ ਅਪ੍ਰੈਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ! ਇੰਫੋਗ੍ਰਾਫਿਕ ਦੁਆਰਾ ਜੈਨ ਲੂਪਰ

ਸਮੀਕਰਨ ਜੋ ਲਾਈਨ ਦੀ ਗਣਨਾ ਕਰਦਾ ਹੈ ਉਸਨੂੰ ਢਲਾਨ ਨੂੰ ਦਰਸਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਇਸਸ਼ਨਾਲ ਇੰਟਰਸੈਪਟ ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਾਂ ਜਿੱਥੇ X = 0 ਹੋਵੇ ਤਾਂ Y ਕਿੱਥੇ ਹੈ।

ਤੁਸੀਂ ਇਹ ਮੁਲ್ಯਾਂ ਦੀ ਗਣਨਾ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨੂੰ Math is Fun ਵੈੱਬਸਾਈਟ 'ਤੇ ਵੇਖ ਸਕਦੇ ਹੋ। ਇਸ ਨਾਲ ਨਾਲ ਇਸ Least-squares ਕੈਲਕੂਲੇਟਰ ਨੂੰ ਵੀ ਵੇਖੋ ਜੋ ਨੰਬਰਾਂ ਦੀਆਂ ਕਦਰਾ ਲਾਈਨ ਉੱਤੇ ਕਿਵੇਂ ਅਸਰ ਪਾਂਦੀਆਂ ਹਨ।

ਸਹ ਸਬੰਧ

ਇਕ ਹੋਰ ਸ਼ਬਦ ਜਾਣਣਾ ਹੈ ਜੋ ਹੈ ਸਹ ਸਬੰਧ ਗੁਣਕ ਜੋ ਦਿੱਤੇ ਗਏ X ਅਤੇ Y ਚਰਾਂ ਵਿਚਕਾਰ ਹੁੰਦਾ ਹੈ। scatterplot ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਸੀਂ ਇਸ ਗੁਣਕ ਨੂੰ ਜਲਦੀ ਵੇਖ ਸਕਦੇ ਹੋ। ਜੇ ਡਾਟਾਪੋਇੰਟ ਇੱਕ ਸੁਸਮਤ ਲਾਈਨ ਵਿੱਚ ਵੰਡੇ ਹੋਏ ਹਨ ਤਾਂ ਉਹ ਉੱਚ ਸਹ ਸਬੰਧ ਦਰਸਾਉਂਦਾ ਹੈ, ਪਰ ਜੇ ਡਾਟਾਪੋਇੰਟ ਹਰ ਜਗ੍ਹਾ ਫੈਲੇ ਹੋਏ ਹਨ ਤਾਂ ਇਹ ਘੱਟ ਸਹ ਸਬੰਧ ਹੈ।

ਇੱਕ ਵਧੀਆ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਉਹ ਹੋਵੇਗਾ ਜਿਸ ਦਾ ਸਹ ਸਬੰਧ ਗੁਣਕ ਵਧੀਆ (1 ਦੇ ਨੇੜੇ 0 ਨਾਲੋਂ) ਹੋਵੇ ਅਤੇ Least-Squares Regression ਤਰੀਕੇ ਨਾਲ ਲਾਈਨ ਰਿਗ੍ਰੈਸ਼ਨ ਨਾਲ ਬਣਾਇਆ ਗਿਆ ਹੋਵੇ।

ਇਸ ਪਾਠ ਨਾਲ ਜੁੜੇ ਨੋਟਬੁੱਕ ਨੂੰ ਚਲਾਓ ਅਤੇ ਮਹੀਨੇ ਤੋਂ ਕੀਮਤ scatterplot ਵੇਖੋ। ਕੀ ਪੰਪਕਿਨ ਵਿਕਰੀ ਲਈ ਮਹੀਨੇ ਅਤੇ ਕੀਮਤ ਦਾ ਡਾਟਾ ਤੇਰੇ ਵਿਜੁਅਲ ਵਿਵੇਚਨਾ ਮੁਤਾਬਕ ਉੱਚ ਜਾਂ ਘੱਟ ਸਹ ਸਬੰਧ ਦਿਖਾਉਂਦਾ ਹੈ? ਕੀ ਇਹ ਬਦਲਦਾ ਹੈ ਜੇ ਤੁਸੀਂ Month ਦੇ ਬਜਾਏ ਵੱਧ ਸਾਹੀ ਮਾਪ ਵਰਤੋਂ, ਜਿਵੇਂ ਕਿ ਸਾਲ ਦਾ ਦਿਨ (ਜਿਵੇਂ ਕਿ ਸਾਲ ਦੀ ਸ਼ੁਰੂਆਤ ਤੋਂ ਲੰਘੇ ਦਿਨਾਂ ਦੀ ਗਿਣਤੀ)?

ਹੇਠਾਂ ਦਿੱਤੇ ਕੋਡ ਵਿੱਚ ਅਸੀਂ ਮੰਨ ਰਹੇ ਹਾਂ ਕਿ ਸਾਡੇ ਕੋਲ ਸਾਫ ਕੀਤਾ ਹੋਇਆ ਡਾਟਾ ਹੈ ਅਤੇ ਇੱਕ ਡਾਟਾ ਫਰੇਮ ਹੈ ਜਿਸ ਦਾ ਨਾਮ new_pumpkins ਹੈ, ਜਿਸ ਵਿੱਚ ਇਹ ਜਾਣਕਾਰੀ ਹੋ ਸਕਦੀ ਹੈ:

ID Month DayOfYear Variety City Package Low Price High Price Price
70 9 267 PIE TYPE BALTIMORE 1 1/9 bushel cartons 15.0 15.0 13.636364
71 9 267 PIE TYPE BALTIMORE 1 1/9 bushel cartons 18.0 18.0 16.363636
72 10 274 PIE TYPE BALTIMORE 1 1/9 bushel cartons 18.0 18.0 16.363636
73 10 274 PIE TYPE BALTIMORE 1 1/9 bushel cartons 17.0 17.0 15.454545
74 10 281 PIE TYPE BALTIMORE 1 1/9 bushel cartons 15.0 15.0 13.636364

ਡਾਟਾ ਨੂੰ ਸਾਫ ਕਰਨ ਲਈ ਕੋਡ notebook.ipynb ਵਿੱਚ ਉਪਲਬਧ ਹੈ। ਅਸੀਂ ਪਿਛਲੇ ਪਾਠ ਵਾਂਗ ਸਾਫ ਸਫਾਈ ਦੇ ਕਦਮ ਕੀਤੇ ਹਨ ਅਤੇ DayOfYear ਕਾਲਮ ਨੰਬਰ ਦੀ ਗਣਨਾ ਹੇਠ ਦਿੱਤੇ ਅਭਿਵ્યਕਤੀ ਨਾਲ ਕੀਤੀ ਹੈ:

day_of_year = pd.to_datetime(pumpkins['Date']).apply(lambda dt: (dt-datetime(dt.year,1,1)).days)

ਹੁਣ ਜਦੋਂ ਕਿ ਤੁਹਾਨੂੰ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਦੇ ਮੈਥਮੈਟਿਕ ਦਾ ਬੂਝ ਹੋ ਗਿਆ ਹੈ, ਆਓ ਇਕ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਬਣਾਈਏ ਤਾਂ ਜੋ ਵੇਖੀਏ ਕਿ ਅਸੀਂ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦੇ ਹਾਂ ਕਿ ਕਿਹੜਾ ਪੰਪਕਿਨ ਪੈਕੇਜ ਸਭ ਤੋਂ ਚੰਗੀ ਕੀਮਤ ਲਈ ਹੋਵੇਗਾ। ਕੈਸੀਨੂੰ ਛੁੱਟੀ ਵਾਲੀ ਪੁੱਛ ਲਈ ਪੰਪਕਿਨ ਖਰੀਦਣ ਵਾਲਾ ਇਹ ਜਾਣਕਾਰੀ ਚਾਹੀਦੀ ਹੋ ਸਕਦੀ ਹੈ ਤਾਂ ਜੋ ਉਹ ਆਪਣੀ ਖਰੀਦ ਦੀ ਯੋਜਨਾ ਨੂੰ ਵਧੀਆ ਬਣਾ ਸਕੇ।

ਸਹ ਸਬੰਧ ਚਾਂਹਣਾ

ਬੱਚਿਆਂ ਲਈ ML - ਸਹ ਸਬੰਧ ਲੱਭਣਾ: ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਦੀ ਚਾਬੀ

🎥 ਉਪਰੋਕਤ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਬ ਕਰੋ correlation ਦਾ ਛੋਟਾ ਵੀਡੀਓ ਵੇਰਵਾ ਵੇਖਣ ਲਈ।

ਪਿਛਲੇ ਪਾਠ ਵਿੱਚ ਤੁਸੀਂ ਸ਼ਾਇਦ ਵੇਖਿਆ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ ਮਹੀਨਿਆਂ ਵਾਸਤੇ ਔਸਤ ਕੀਮਤ ਇਸ ਤਰ੍ਹਾਂ ਦਿੱਸਦੀ ਹੈ:

ਮਹੀਨੇ ਅਨੁਸਾਰ ਔਸਤ ਕੀਮਤ

ਇਸ ਤੋਂ ਇਤਲਾ ਮਿਲਦਾ ਹੈ ਕਿ ਕੁਝ ਸਹ ਸਬੰਧ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਲਰ ਕੇ Month ਅਤੇ Price, ਜਾਂ DayOfYear ਅਤੇ Price ਦਰਮਿਆਨ ਰਿਸ਼ਤੇ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਇੱਥੇ scatterplot ਹੈ ਜੋ ਦੂਜਾ ਸੰਬੰਧ ਦਰਸਾਉਂਦਾ ਹੈ:

ਕੀਮਤ ਵੱਖ-ਵੱਖ ਦਿਨ scatterplot

ਆਓ ਦੇਖੀਏ ਕਿ corr ਫੰਕਸ਼ਨ ਨਾਲ ਕੋਈ correlation ਹੈ ਜਾਂ ਨਹੀਂ:

print(new_pumpkins['Month'].corr(new_pumpkins['Price']))
print(new_pumpkins['DayOfYear'].corr(new_pumpkins['Price']))

ਲੱਗਦਾ ਹੈ correlation ਕਾਫੀ ਛੋਟਾ ਹੈ, -0.15 Month ਨਾਲ ਅਤੇ -0.17 DayOfMonth ਨਾਲ, ਪਰ ਹੋ ਸਕਦਾ ਹੈ ਕੋਈ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਸੰਬੰਧ ਹੋਵੇ। ਲੱਗਦਾ ਹੈ ਕਿ ਕੀਮਤਾਂ ਦੇ ਵੱਖ-ਵੱਖ ਕੁਲੱਸਟਰ ਵੱਖਰੇ ਪੰਪਕਿਨ ਕਿਸਮਾਂ ਨਾਲ ਜੁੜੇ ਹੋਏ ਹਨ। ਇਸ ਸਿਧਾਂਤ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ, ਆਓ ਹਰ ਪੰਪਕਿਨ ਸ਼੍ਰੇਣੀ ਨੂੰ ਵੱਖਰੀ ਰੰਗ ਨਾਲ ਪਲਾਟ ਕਰੀਏ। scatter ਪਲਾਟਿੰਗ ਫੰਕਸ਼ਨ ਨੂੰ ax ਪੈਰਾਮੀਟਰ ਦੇ ਕੇ ਸਾਰੇ ਨੁਕਤੇ ਇੱਕੋ ਗ੍ਰਾਫ ‘ਤੇ ਪਲਾਟ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ:

ax=None
colors = ['red','blue','green','yellow']
for i,var in enumerate(new_pumpkins['Variety'].unique()):
    df = new_pumpkins[new_pumpkins['Variety']==var]
    ax = df.plot.scatter('DayOfYear','Price',ax=ax,c=colors[i],label=var)
ਕੀਮਤ ਵੱਖ-ਵੱਖ ਦਿਨ scatterplot ਰੰਗ ਨਾਲ

ਸਾਡੇ ਖੋਜ ਨਾਲ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਕਿਸਮ ਦਾ ਕੁੱਲ ਕੀਮਤ 'ਤੇ ਮਹੱਤਵ ਵੱਧ ਹੈ ਬਜਾਏ ਕਿ ਵਿਕਰੀ ਦੀ ਅਸਲੀ ਤਾਰੀਖ ਦਾ। ਅਸੀਂ ਇਹ ਬਾਰ ਗ੍ਰਾਫ ਨਾਲ ਵੇਖ ਸਕਦੇ ਹਾਂ:

new_pumpkins.groupby('Variety')['Price'].mean().plot(kind='bar')
ਕੀਮਤ ਵੱਖ ਕੇਸ ਬ੍ਹਿੰਨਤਾ ਦਾ ਬਾਰ ਗ੍ਰਾਫ

ਆਓ ਇੱਕ ਪੰਪਕਿਨ ਕਿਸਮ 'pie type' 'ਤੇ ਫੋਕਸ ਕਰੀਏ, ਅਤੇ ਵੇਖੀਏ ਕਿ ਕਿਵੇਂ ਮਿਤੀ ਦਾ ਕੀਮਤ ‘ਤੇ ਅਸਰ ਹੈ:

pie_pumpkins = new_pumpkins[new_pumpkins['Variety']=='PIE TYPE']
pie_pumpkins.plot.scatter('DayOfYear','Price') 
ਕੀਮਤ ਵੱਖ ਸਾਲ ਦੇ ਦਿਨ scatterplot

ਜੇ ਅਸੀਂ ਹੁਣ Price ਅਤੇ DayOfYear ਵਿਚਕਾਰ correlation corr ਫੰਕਸ਼ਨ ਨਾਲ ਕੈਲਕੁਲੇਟ ਕਰੀਏ ਤਾਂ ਲਗਭਗ -0.27 ਆਵੇਗਾ - ਜੋ ਦੱਸਦਾ ਹੈ ਕਿ ਭਵਿੱਖਬਾਣੀ ਮਾਡਲ ਸਿੱਖਾਉਣਾ ਮਾਨਯੋਗ ਹੈ।

ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਸਿੱਖਾਉਣ ਤੋਂ ਪਹਿਲਾਂ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਸਾਡਾ ਡਾਟਾ ਸਾਫ ਹੈ। ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਖਾਲੀ ਮੁੱਲਾਂ ਨਾਲ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਨਹੀਂ ਕਰਦਾ, ਇਸ ਲਈ ਸਾਰੇ ਖਾਲੀ ਸੈੱਲ ਹਟਾਉਣਾ ਸਹੀ ਹੈ:

pie_pumpkins.dropna(inplace=True)
pie_pumpkins.info()

ਦੂਜਾ ਤਰੀਕਾ ਇਹ ਹੋਵੇਗਾ ਕਿ ਖਾਲੀ ਮੁੱਲਾਂ ਨੂੰ ਉਸੇ ਕਾਲਮ ਦੇ ਔਸਤ ਮੁੱਲ ਨਾਲ ਭਰ ਦਿੱਤਾ ਜਾਵੇ।

ਸਧਾਰਣ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ

ਬੱਚਿਆਂ ਲਈ ML - ਲਾਈਨਰ ਅਤੇ ਪੋਲਿਨੋਮਿਆਲ ਰਿਗ੍ਰੈਸ਼ਨ ਸਕਾਈਕਿਟ-ਲੈਕਰਨ ਦੀ ਵਰਤੋਂ ਨਾਲ

🎥 ਉਪਰ ਦੀ ਤਸਵੀਰ ਤੇ ਕਲਿੱਬ ਕਰੋ ਲਾਈਨਰ ਅਤੇ ਪੋਲਿਨੋਮਿਆਲ ਰਿਗ੍ਰੈਸ਼ਨ ਦਾ ਛੋਟਾ ਵੀਡੀਓ ਵੇਰਵਾ ਵੇਖਣ ਲਈ।

ਸਾਡਾ ਲਾਈਨਰ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਸਿੱਖਾਉਣ ਲਈ, ਅਸੀਂ Scikit-learn ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ।

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

ਅਸੀਂ ਪਹਿਲਾਂ ਇਨਪੁਟ ਮੁੱਲ (ਫੀਚਰ) ਅਤੇ ਉਮੀਦ ਕੀਤੀ ਆਉਟਪੁੱਟ (ਲੇਬਲ) ਨੂੰ ਵੱਖਰੇ numpy arrays ਵਿੱਚ ਵੰਡਦੇ ਹਾਂ:

X = pie_pumpkins['DayOfYear'].to_numpy().reshape(-1,1)
y = pie_pumpkins['Price']

ਧਿਆਨ ਦਿਓ ਕਿ ਅਸੀਂ ਇਨਪੁਟ ਡਾਟਾ ਵਿੱਚ reshape ਕਰਨਾ ਪਿਆ ਤਾਂ ਜੋ Linear Regression ਪੈਕੇਜ ਇਸ ਨੂੰ ਸਹੀ ਸਮਝ ਸਕੇ। Linear Regression ਨੂੰ 2D-arrayExpectedInput ਜਾਂ input ਦੀ ਲੋੜ ਹੋਂਦੀ ਹੈ, ਜਿੱਥੇ ਆਰੇ ਦੇ ਹਰ ਰੋ ਵਿੱਚ ਫੀਚਰਾਂ ਦਾ ਵੈਕਟਰ ਹੁੰਦਾ ਹੈ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ ਚੂੰਕਿ ਸਿਰਫ ਇੱਕ ਇਨਪੁਟ ਹੈ - ਸਾਨੂੰ ਐਨੀ ਰੇਸ਼ਪ N×1 ਦੀ ਲੋੜ ਹੈ, ਜਿੱਥੇ N ਡਾਟਾ ਸੈੱਟ ਦਾ ਆਕਾਰ ਹੈ।

ਫਿਰ, ਅਸੀਂ ਡਾਟਾ ਨੂੰ ਟ੍ਰੇਨ ਅਤੇ ਟੈਸਟ ਸੈੱਟਾਂ ਵਿੱਚ ਵੰਡਦੇ ਹਾਂ ਤਾਂ ਜੋ ਟ੍ਰੇਨਿੰਗ ਬਾਅਦ ਮਾਡਲ ਜਾਚਿਆ ਜਾ ਸਕੇ:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

ਆਖਿਰ ਵਿੱਚ, Linear Regression ਮਾਡਲ ਨੂੰ ਸਿੱਖਾਉਣਾ ਸਿਰਫ ਦੋ ਕੋਡ ਲਾਈਨਾਂ ਲੈਂਦਾ ਹੈ। ਅਸੀਂ LinearRegression ਉਬਜੈਕਟ ਬਣਾਉਂਦੇ ਹਾਂ, ਅਤੇ fit ਵਿਧੀ ਨਾਲ ਇਸ ਨੂੰ ਡਾਟਾ 'ਤੇ ਫਿੱਟ ਕਰਦੇ ਹਾਂ:

lin_reg = LinearRegression()
lin_reg.fit(X_train,y_train)

LinearRegression ਔਬਜੈਕਟ fit ਕਰਨ ਤੋਂ ਬਾਅਦ ਰਿਗ੍ਰੈਸ਼ਨ ਦੇ ਸਾਰੇ ਕੋਐਫੀਸ਼ਿਅੰਟ ਰੱਖਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਸੀਂ .coef_ ਪ੍ਰਾਪਰਟੀ ਰਾਹੀਂ ਪਹੁੰਚ ਸਕਦੇ ਹੋ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਸਿਰਫ਼ ਇੱਕ ਕੋਐਫੀਸ਼ਿਅੰਟ ਹੈ, ਜੋ ਲੱਗਭਗ -0.017 ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸਦਾ ਅਰਥ ਹੈ ਕਿ ਕੀਮਤਾਂ ਸਮੇਂ ਦੇ ਨਾਲ ਥੋੜ੍ਹ੍ਹਾ ਘਟਦੀਆਂ ਹਨ, ਪਰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਹੀਂ, ਲਗਭਗ 2 ਸੈਂਟ ਪ੍ਰਤੀ ਦਿਨ। ਅਸੀਂ ਰਿਗ੍ਰੈਸ਼ਨ ਦੇ Y-ਅਕਸ਼ ਨਾਲ ਟਕਰਾਉਣ ਵਾਲਾ ਬਿੰਦੂ lin_reg.intercept_ ਰਾਹੀਂ ਵੀ ਵੇਖ ਸਕਦੇ ਹਾਂ - ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ ਇਹ ਲਗਭਗ 21 ਹੋਵੇਗਾ, ਜੋ ਸਾਲ ਦੀ ਸ਼ੁਰੂਆਤ ਉੱਤੇ ਕੀਮਤ ਦਰਸਾਉਂਦਾ ਹੈ।

ਸਾਡੇ ਮਾਡਲ ਦੀ ਸਹੀ ਤülਾ ਕਰਨ ਲਈ, ਅਸੀਂ ਟੈਸਟ ਡੈਟਾ ਸੈਟ 'ਤੇ ਕੀਮਤਾਂ ਦੀ ਭਵਿੱਖਵਾਣੀ ਕਰ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਫਿਰ ਵੇਖ ਸਕਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਅਨੁਮਾਨ ਨੇ ਉਮੀਦ ਕੀਤੀ ਕੀਮਤਾਂ ਨਾਲ ਕਿੰਨਾ ਨੇੜੇ ਹਨ। ਇਹ ਦਰੁਸਤੀਆਂ ਨੂੰ ਮੀਨ ਸਕਵੇਅਰ ਏਰਰ (MSE) ਮੈਟ੍ਰਿਕਸ ਰਾਹੀਂ ਮਾਪਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਉਮੀਦ ਕੀਤੇ ਅਤੇ ਅਨੁਮਾਨ ਕੀਤੇ ਮੁੱਲਾਂ ਵਿਚਕਾਰ ਸਾਰੇ ਵਰਗਾਂ ਦੇ ਅੰਤਰਾਂ ਦਾ ਮੀਨ ਹੁੰਦਾ ਹੈ।

pred = lin_reg.predict(X_test)

mse = np.sqrt(mean_squared_error(y_test,pred))
print(f'Mean error: {mse:3.3} ({mse/np.mean(pred)*100:3.3}%)')

ਸਾਡੀ ਗਲਤੀ ਲਗਭਗ 2 ਪੌਇੰਟ ਹੈ, ਜੋ ~17% ਹੈ। ਬਹੁਤ ਚੰਗਾ ਨਹੀਂ। ਮਾਡਲ ਦੀ ਗੁਣਵੱਤਾ ਦਾ ਇਕ ਹੋਰ ਸੰਕੇਤਕ ਹੈ ਕੋਐਫੀਸ਼ਿਅੰਟ ਆਫ ਡਿਟਰਮੀਨੇਸ਼ਨ, ਜਿਸ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ:

score = lin_reg.score(X_train,y_train)
print('Model determination: ', score)

ਜੇ ਇਸਦੀ ਕੀਮਤ 0 ਹੋਵੇ, ਤਾਂ ਇਸਦਾ ਅਰਥ ਹੈ ਕਿ ਮਾਡਲ ਇਨਪੁਟ ਡਾਟਾ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਨਹੀਂ ਲੈਂਦਾ, ਅਤੇ ਇਹ ਸਭ ਤੋਂ ਖਰਾਬ ਲੀਨੀਅਰ ਪੈਸ਼ਗੋ'ਈ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਨਤੀਜੇ ਦਾ ਸਿਰਫ਼ ਮੀਨ ਮੁੱਲ ਹੁੰਦਾ ਹੈ। 1 ਦੀ ਕੀਮਤ ਦਾ ਅਰਥ ਹੈ ਕਿ ਅਸੀਂ ਸਾਰੇ ਉਮੀਦ ਕੀਤੇ ਨਤੀਜੇ ਬਿਲਕੁਲ ਸਹੀ ਤੌਰ 'ਤੇ ਭਵਿੱਖਵਾਣੀ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਕੋਐਫੀਸ਼ਿਅੰਟ ਲਗਭਗ 0.06 ਹੈ, ਜੋ ਕਾਫੀ ਘੱਟ ਹੈ।

ਅਸੀਂ ਟੈਸਟ ਡਾਟਾ ਨੂੰ ਰਿਗ੍ਰੈਸ਼ਨ ਲਾਈਨ ਦੇ ਨਾਲ ਮਿਲਾ ਕੇ ਵੀ ਪਲਾਟ ਕਰ ਸਕਦੇ ਹਾਂ ਤਾਂ ਜੋ ਵੇਖ ਸਕੀਏ ਕਿ ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ ਰਿਗ੍ਰੈਸ਼ਨ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ:

plt.scatter(X_test,y_test)
plt.plot(X_test,pred)
Linear regression

ਪੋਲੀਨੋਮਿਯਲ ਰਿਗ੍ਰੈਸ਼ਨ

ਲੀਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ ਦਾ ਇੱਕ ਹੋਰ ਪ੍ਰਕਾਰ ਪੋਲੀਨੋਮਿਯਲ ਰਿਗ੍ਰੈਸ਼ਨ ਹੈ। ਜਦ ਕਦੇ ਕਈ ਵਾਰੀ ਇਨਪੁਟ ਵੈਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਲੀਨੀਅਰ ਸੰਬੰਧ ਹੁੰਦੇ ਹਨ - ਜਿਵੇਂ ਕਿ ਵਾਲੀ ਭਰੀ ਵੱਡੀ ਹੁੰਦੀ ਹੈ, ਕੀਮਤ ਵਧਦੀ ਹੈ - ਪਰ ਕਈ ਵਾਰੀ ਉਹ ਸੰਬੰਧ ਸਿੱਧੀ ਲਾਈਨ ਜਾਂ ਸਮਤਲ 'ਤੇ ਤਿਆਰ ਨਹੀਂ ਕੀਤੇ ਜਾ ਸਕਦੇ।

ਇਹਾਂ ਕੁਝ ਹੋਰ ਉਦਾਹਰਨਾਂ ਹਨ ਜੋ Polynomial Regression ਵਰਤ ਸਕਦੀਆਂ ਹਨ

ਦਿਨ ਅਤੇ ਕੀਮਤ ਵਿਚਕਾਰ ਦੇ ਸੰਬੰਧ ਨੂੰ ਫਿਰ ਤੋਂ ਵੇਖੋ। ਕੀ ਇਹ ਸਕੈਟਰਪਲੌਟ ਐਸਾ ਲੱਗਦਾ ਹੈ ਕਿ ਇਸਨੂੰ ਜ਼ਰੂਰੀ ਤੌਰ 'ਤੇ ਸਿੱਧੀ ਲਾਈਨ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ? ਕੀ ਕੀਮਤਾਂ ਫਲਕਟੂਏਟ ਨਹੀਂ ਹੋ ਸਕਦੀਆਂ? ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਤੁਸੀਂ ਪੋਲੀਨੋਮਿਯਲ ਰਿਗ੍ਰੈਸ਼ਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ।

ਪੋਲੀਨੋਮਿਯਲਜ਼ ਗਣਿਤਕ ਬਿਆਨ ਹੁੰਦੇ ਹਨ ਜੋ ਇੱਕ ਜਾਂ ਵਧੇਰੇ ਵੈਰੀਏਬਲਾਂ ਅਤੇ ਕੋਐਫੀਸ਼ਿਅੰਟਾਂ ਤੋਂ ਬਣੇ ਹੁੰਦੇ ਹਨ।

ਪੋਲੀਨੋਮਿਯਲ ਰਿਗ੍ਰੈਸ਼ਨ ਇੱਕ ਵੱਕਰੀ ਲਾਈਨ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਗੈਰ-ਲੀਨੀਅਰ ਡਾਟਾ ਨੂੰ ਵਧੀਆ ਫਿੱਟ ਕਰਦਾ ਹੈ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਜੇ ਅਸੀਂ DayOfYear ਦਾ ਵਰਗਾ (ਸਕੁਏਰਡ) ਵੈਰੀਏਬਲ ਇਨਪੁਟ ਡਾਟਾ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰੀਏ, ਤਾਂ ਅਸੀਂ ਆਪਣਾ ਡਾਟਾ ਪੈਰਾਾਬੋਲਿਕ ਕਰਵ ਨਾਲ ਫਿੱਟ ਕਰ ਸਕਦੇ ਹਾਂ, ਜੋ ਸਾਲ ਦੇ ਇੱਕ ਨਿਰਧਾਰਿਤ ਬਿੰਦੂ ਉੱਤੇ ਘੱਟੋ-ਘੱਟ ਹੋਵੇਗਾ।

Scikit-learn ਵਿੱਚ ਇੱਕ ਸਹਾਇਕ pipeline API ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਕਦਮਾਂ ਨੂੰ ਇੱਕਠਾ ਕਰਦਾ ਹੈ। ਇੱਕ ਪਾਈਪਲਾਈਨ estimators ਦੀ ਇੱਕ ਕੜੀ ਹੁੰਦੀ ਹੈ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਪਾਈਪਲਾਈਨ ਬਣਾਵਾਂਗੇ ਜੋ ਪਹਿਲਾਂ ਪੋਲੀਨੋਮਿਯਲ ਫੀਚਰਾਂ ਨੂੰ ਮਾਡਲ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਫਿਰ ਰਿਗ੍ਰੈਸ਼ਨ ਨੂੰ ਸਿਖਾਉਂਦਾ ਹੈ:

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

pipeline = make_pipeline(PolynomialFeatures(2), LinearRegression())

pipeline.fit(X_train,y_train)

PolynomialFeatures(2) ਵਰਤਣਾ ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅਸੀਂ ਇਨਪੁਟ ਡਾਟਾ ਤੋਂ ਸਾਰੇ ਦੂਜੇ ਡਿਗਰੀ ਦੇ ਪੋਲੀਨੋਮਿਯਲ ਸ਼ਾਮਲ ਕਰਾਂਗੇ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ ਇਹ ਕেবল DayOfYear2 ਦਾ ਇਹ ਮਤਲਬ ਹੋਵੇਗਾ, ਪਰ ਜੇ ਦੋ ਇਨਪੁਟ ਵੈਰੀਏਬਲ X ਅਤੇ Y ਹਨ, ਤਾਂ ਇਹ X2, XY ਅਤੇ Y2 ਸ਼ਾਮਲ ਕਰੇਗਾ। ਅਸੀਂ ਜੇ ਚਾਹੀਏ ਤਾਂ ਵੱਧ ਡਿਗਰੀ ਵਾਲੇ ਪੋਲੀਨੋਮਿਯਲ ਵੀ ਵਰਤ ਸਕਦੇ ਹਾਂ।

ਪਾਈਪਲਾਈਨਜ਼ ਨੂੰ ਅਸਲ LinearRegression ਔਬਜੈਕਟ ਵਾਂਗ ਹੀ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਮਤਲਬ ਸਾਨੂੰ ਪਾਈਪਲਾਈਨ ਨੂੰ fit ਕਰਨਾ ਹੈ, ਅਤੇ ਫਿਰ predict ਨਾਲ ਅਨੁਮਾਨ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ। ਇਹ ਰਹੀ ਗ੍ਰਾਫ ਜੋ ਟੈਸਟ ਡਾਟਾ ਅਤੇ ਅਨੁਮਾਨਿਤ ਕਰਵ ਦਿਖਾਉਂਦੀ ਹੈ:

Polynomial regression

ਪੋਲੀਨੋਮਿਯਲ ਰਿਗ੍ਰੈਸ਼ਨ ਵਰਤ ਕੇ, ਅਸੀਂ ਥੋੜ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹ੍ਹੀ MSE ਅਤੇ ਉੱਚਾ ਕੋਐਫੀਸ਼ਿਅੰਟ ਆਫ ਡਿਟਰਮੀਨੇਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਾਂ, ਪਰ ਇਹ ਜ਼ਿਆਦਾ ਮਹੱਤਵਪੂਰਣ ਨਹੀਂ ਹੁੰਦਾ। ਸਾਨੂੰ ਹੋਰ ਫੀਚਰਾਂ ਦਾ ਖਿਆਲ ਰੱਖਣਾ ਹੋਵੇਗਾ!

ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਪੰਪਕਿਨ ਕੀਮਤਾਂ ਦਾ ਘੱਟੋ-ਘੱਟ ਦਰ ਹਾਲੋਵੀਨ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਹੁੰਦੀ ਹੈ। ਤੁਸੀਂ ਇਸ ਨੂੰ ਕਿਵੇਂ ਸਮਝਾ ਸਕਦੇ ਹੋ?

🎃 ਵਧਾਈ ਹੋ! ਤੁਸੀਂ ਹਾਲ ਹੀ ਵਿੱਚ ਇਕ ਮਾਡਲ ਬਨਾਇਆ ਹੈ ਜੋ ਪਾਈ ਪੰਪਕਿਨਾਂ ਦੀ ਕੀਮਤ ਭਵਿੱਖਵਾਣੀ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਸੰਭਵਤ: ਸਾਰੇ ਪੰਪਕਿਨ ਕਿਸਮਾਂ ਲਈ ਇਹੀ ਪ੍ਰਕਿਰਿਆ ਦੁਹਰਾ ਸਕਦੇ ਹੋ, ਪਰ ਇਹ ਥੋੜ੍ਹਾ ਥਕਾਵਟ ਭਰਿਆ ਹੋਵੇਗਾ। ਚੱਲੋ ਹੁਣ ਸਿੱਖਦੇ ਹਾਂ ਕਿ ਆਪਣੇ ਮਾਡਲ ਵਿੱਚ ਪੰਪਕਿਨ ਕਿਸਮ ਨੂੰ ਕਿਵੇਂ ਸ਼ਾਮਲ ਕਰਨਾ ਹੈ!

ਸ਼੍ਰੇਣੀਬੱਧ ਫੀਚਰ (Categorical Features)

ਆਦਰਸ਼ ਸੰਸਾਰ ਵਿੱਚ, ਅਸੀਂ ਇੱਕੋ ਮਾਡਲ ਵਰਤ ਕੇ ਵੱਖ-ਵੱਖ ਪੰਪਕਿਨ ਕਿਸਮਾਂ ਦੀਆਂ ਕੀਮਤਾਂ ਦੀ ਭਵਿੱਖਵਾਣੀ ਕਰ ਸਕਣਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਪਰ Variety ਕਾਲਮ Month ਵਰਗੇ ਕਾਲਮਾਂ ਤੋਂ ਕੁਝ ਵੱਖਰਾ ਹੈ, ਕਿਉਂਕਿ ਇਸ ਵਿੱਚ ਗੈਰ-ਸੰਖਿਆਤਮਕ ਮੁੱਲ ਹੁੰਦੇ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਕਾਲਮਾਂ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

ML for beginners - Categorical Feature Predictions with Linear Regression

🎥 ਉਪਰ ਦਿੱਤੀ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਕੈਟੇਗੋਰੀਕਲ ਫੀਚਰ ਵਰਤਣ ਦੇ ਸੂਚਨਾ ਵਾਲੇ ਛੋਟੇ ਵੀਡੀਓ ਲਈ।

ਇੱਥੇ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਵਰਾਇਟੀ 'ਤੇ ਆਧਾਰਿਤ ਔਸਤ ਕੀਮਤ ਕਿਵੇਂ ਹੈ:

Average price by variety

ਵਰਾਇਟੀ ਨੂੰ ਵਿਚਾਰ ਵਿੱਚ ਲੈਣ ਲਈ, ਪਹਿਲਾਂ ਘੱਟੋ-ਘੱਟ ਇਸ ਨੂੰ ਸੰਖਿਆਤਮਕ ਰੂਪ ਵਿੱਚ ਬਦਲਣਾ ਪਵੇਗਾ, ਜਾਂ ਇੰਕੋਡ ਕਰਨਾ ਪਵੇਗਾ। ਅਸੀਂ ਇਸਦਾ ਕੁਝ ਤਰੀਕੇ ਨਾਲ ਕਰ ਸਕਦੇ ਹਾਂ:

  • ਸਰਲ ਨੰਬਰਾਤਮਕ ਇੰਕੋਡਿੰਗ ਇੱਕ ਟੇਬਲ ਬਣਾਉਂਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਵਰਾਇਟੀ ਹੁੰਦੀਆਂ ਹਨ, ਅਤੇ ਫਿਰ ਟੇਬਲ ਵਿੱਚ ਉਸ ਵਰਾਇਟੀ ਨਾਮ ਦੇ ਅਨੁਕੂਲ ਇੰਡੈਕਸ ਨਾਲ ਸਥਾਨ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਪਰ ਇਹ ਲੀਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਚਾਰ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਲੀਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ ਇੰਡੈਕਸ ਦਾ ਅਸਲੀ ਸੰਖਿਆਤਮਕ ਮੁੱਲ ਲੈਂਦਾ ਹੈ ਅਤੇ ਕੁਝ ਕੋਐਫੀਸ਼ਿਅੰਟ ਨਾਲ ਗੁਣਾ ਕਰਦਾ ਹੈ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਇੰਡੈਕਸ ਨੰਬਰ ਅਤੇ ਕੀਮਤ ਵਿਚਕਾਰ ਸੰਬੰਧ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਗੈਰ-ਲੀਨੀਅਰ ਹੈ, ਭਾਵੇਂ ਅਸੀਂ ਇੰਡੈਕਸ ਨੂੰ ਕਿਸੇ ਖ਼ਾਸ ਤਰਤੀਬ 'ਚ ਰੱਖੀਏ।
  • One-hot encoding Variety ਕਾਲਮ ਦੀ ਥਾਂ 4 ਵੱਖਰੇ ਕਾਲਮ ਬਣਾ ਦੇਵੇਗਾ, ਪ੍ਰਤੀ ਵੱਖਰੀ ਵਰਾਇਟੀ ਇੱਕ। ਹਰ ਕਾਲਮ ਵਿੱਚ 1 ਹੋਵੇਗਾ ਜੇ ਉਸ ਕਤਾਰ ਦੀ ਵਰਾਇਟੀ ਉਹੀ ਹੋਵੇ, ਨਹੀਂ ਤਾਂ 0। ਇਸਦਾ ਅਰਥ ਹੈ ਕਿ ਲੀਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ ਵਿੱਚ 4 ਕੋਐਫੀਸ਼ਿਅੰਟ ਹੋਣਗੇ, ਇਕ-ਇਕ ਹਰ ਕਿਸਮ ਦੇ ਪੰਪਕਿਨ ਲਈ, ਜੋ ਉਸ ਖ਼ਾਸ ਵਰਾਇਟੀ ਲਈ "ਸ਼ੁਰੂਆਤੀ ਕੀਮਤ" (ਜਾਂ ਹੋਰ "ਵਧੀਕ ਕੀਮਤ") ਦਾ ਜ਼ਿੰਮੇਵਾਰ ਹੋਵੇਗਾ।

ਹੇਠ ਲਿਖਿਆ ਕੋਡ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਅਸੀਂ ਕਿਵੇਂ ਵਰਾਇਟੀ ਨੂੰ one-hot encode ਕਰ ਸਕਦੇ ਹਾਂ:

pd.get_dummies(new_pumpkins['Variety'])
ID FAIRYTALE MINIATURE MIXED HEIRLOOM VARIETIES PIE TYPE
70 0 0 0 1
71 0 0 0 1
... ... ... ... ...
1738 0 1 0 0
1739 0 1 0 0
1740 0 1 0 0
1741 0 1 0 0
1742 0 1 0 0

ਲੀਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ ਨੂੰ one-hot encode ਕੀਤੀ ਵਰਾਇਟੀ ਨਾਲ ਸਿਖਾਉਣ ਲਈ, ਸਾਨੂੰ ਸਿਰਫ਼ X ਅਤੇ y ਡਾਟਾ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਤਿਆਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ:

X = pd.get_dummies(new_pumpkins['Variety'])
y = new_pumpkins['Price']

ਬਾਕੀ ਕੋਡ ਸਾਡੇ ਪਹਿਲਾਂ ਵਰਤੇ ਹੋਏ Linear Regression ਵਰਗੀ ਹੀ ਹੈ। ਜੇ ਤੁਸੀਂ ਇਸ ਨੂੰ ਕੋਸ਼ਿਸ਼ ਕਰੋਗੇ, ਤਾਂ ਤੁਸੀਂ ਵੇਖੋਗੇ ਕਿ ਮੀਨ ਸਕਵੇਅਰ ਏਰਰ ਲਗਭਗ ਇਕੋ ਜਿਹਾ ਰਹਿੰਦਾ ਹੈ, ਪਰ ਸਾਨੂੰ ਬਹੁਤ ਉੱਚਾ ਕੋਐਫੀਸ਼ਿਅੰਟ ਆਫ ਡਿਟਰਮੀਨੇਸ਼ਨ (~77%) ਮਿਲਦਾ ਹੈ। ਹੋਰ ਬਹੁਤ ਸਹੀ ਅਨੁਮਾਨਾਂ ਲਈ, ਅਸੀਂ ਹੋਰ ਸ਼੍ਰੇਣੀਬੱਧ ਖਾਸੀਅਤਾਂ ਨਾਲ-ਨਾਲ ਸੰਖਿਆਤਮਕ ਖਾਸੀਅਤਾਂ ਜਿਵੇਂ Month ਜਾਂ DayOfYear ਨੂੰ ਵੀ ਸ਼ਾਮਲ ਕਰ ਸਕਦੇ ਹਾਂ। ਇੱਕ ਵੱਡਾ ਫੀਚਰ ਐਰੇ ਬਣਾਉਣ ਲਈ, ਅਸੀਂ join ਵਰਤ ਸਕਦੇ ਹਾਂ:

X = pd.get_dummies(new_pumpkins['Variety']) \
        .join(new_pumpkins['Month']) \
        .join(pd.get_dummies(new_pumpkins['City'])) \
        .join(pd.get_dummies(new_pumpkins['Package']))
y = new_pumpkins['Price']

ਇੱਥੇ ਅਸੀਂ City ਅਤੇ Package ਕਿਸਮ ਨੂੰ ਵੀ ਕਾਰਜ ਵਿੱਚ ਲੈ ਰਹੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਸਾਨੂੰ MSE 2.84 (10%) ਅਤੇ ਡਿਟਰਮੀਨੇਸ਼ਨ 0.94 ਮਿਲਦਾ ਹੈ!

ਸਾਰਾ ਕੁਝ ਇਸਤਰ੍ਹਾਂ ਜੋੜਨਾ

ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਬਣਾਉਣ ਲਈ, ਅਸੀਂ ਉਪਰੋਕਤ ਉਦਾਹਰਨ ਤੋਂ ਮਿਲੇ ਗਏ ਮਿਲੇ-ਜੁਲੇ (one-hot encode ਕੀਤੇ ਸ਼੍ਰੇਣੀਬੱਧ + ਸੰਖਿਆਤਮਕ) ਡਾਟਾ ਨਾਲ Polynomial Regression ਵਰਤ ਸਕਦੇ ਹਾਂ। ਤੁਹਾਡੇ ਸੁਖਦ ਲਈ ਸਾਰਾ ਕੋਡ ਹੇਠਾਂ ਦਿੱਤਾ ਹੈ:

# ਸਿਖਲਾਈ ਡਾਟਾ ਸੈੱਟ ਕਰੋ
X = pd.get_dummies(new_pumpkins['Variety']) \
        .join(new_pumpkins['Month']) \
        .join(pd.get_dummies(new_pumpkins['City'])) \
        .join(pd.get_dummies(new_pumpkins['Package']))
y = new_pumpkins['Price']

# ਟ੍ਰੇਨ-ਟੈਸਟ ਵੰਡ ਬਣਾਓ
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# ਪਾਈਪਲਾਈਨ ਸੈੱਟਅਪ ਅਤੇ ਸਿਖਲਾਈ ਕਰੋ
pipeline = make_pipeline(PolynomialFeatures(2), LinearRegression())
pipeline.fit(X_train,y_train)

# ਟੈਸਟ ਡਾਟਾ ਲਈ ਨਤੀਜੇ ਭਵਿੱਖਵਾਣੀ ਕਰੋ
pred = pipeline.predict(X_test)

# MSE ਅਤੇ ਨਿਧਾਰਨ ਦੀ ਗਣਨਾ ਕਰੋ
mse = np.sqrt(mean_squared_error(y_test,pred))
print(f'Mean error: {mse:3.3} ({mse/np.mean(pred)*100:3.3}%)')

score = pipeline.score(X_train,y_train)
print('Model determination: ', score)

ਇਸ ਨਾਲ ਸਾਨੂੰ ਲਗਭਗ 97% ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਡਿਟਰਮੀਨੇਸ਼ਨ ਕੋਐਫੀਸ਼ਿਅੰਟ ਅਤੇ MSE=2.23 (~8% ਭਵਿੱਖਵਾਣੀ ਗਲਤੀ) ਮਿਲੇਗੀ।

ਮਾਡਲ MSE ਡਿਟਰਮੀਨੇਸ਼ਨ
DayOfYear ਲੀਨੀਅਰ 2.77 (17.2%) 0.07
DayOfYear ਪੋਲੀਨੋਮਿਯਲ 2.73 (17.0%) 0.08
Variety ਲੀਨੀਅਰ 5.24 (19.7%) 0.77
ਸਭ ਫੀਚਰ ਲੀਨੀਅਰ 2.84 (10.5%) 0.94
ਸਭ ਫੀਚਰ ਪੋਲੀਨੋਮਿਯਲ 2.23 (8.25%) 0.97

🏆 ਸ਼ਾਬਾਸ਼! ਤੁਸੀਂ ਇੱਕ ਪਾਠ ਵਿੱਚ ਚਾਰ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਬਣਾਏ ਅਤੇ ਮਾਡਲ ਦੀ ਗੁਣਵੱਤਾ 97% ਤੱਕ ਸੁਧਾਰੀ। ਰিগ੍ਰੈਸ਼ਨ ਦੇ ਅੰਤਿਮ ਹਿੱਸੇ ਵਿੱਚ, ਤੁਸੀਂ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਬਾਰੇ ਸਿੱਖੋਗੇ ਜੋ ਵਰਗਾਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ।


🚀ਚੈਲੰਜ

ਇਸ ਨੋਟਬੁੱਕ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਵੈਰੀਏਬਲਾਂ ਦਾ ਟੈਸਟ ਕਰੋ ਤਾਂ ਜੋ ਦੇਖ ਸਕੋ ਕਿ ਕੋਰਲੇਸ਼ਨ ਮਾਡਲ ਦੀ ਸਹੀਤਾ ਨਾਲ ਕਿਵੇਂ ਮੇਲ ਖਾਂਦੀ ਹੈ।

ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼

ਸਮੀਖਿਆ ਅਤੇ ਖੁਦ ਅਧਿਐਨ

ਇਸ ਪਾਠ ਵਿੱਚ ਅਸੀਂ ਲੀਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ ਬਾਰੇ ਸਿੱਖਿਆ। ਹੋਰ ਮਹੱਤਵਪੂਰਣ ਕਿਸਮਾਂ ਦੀ ਰਿਗ੍ਰੈਸ਼ਨ ਵੀ ਹੁੰਦੀ ਹੈ। Stepwise, Ridge, Lasso ਅਤੇ Elasticnet ਤਕਨੀਕਾਂ ਬਾਰੇ ਪੜ੍ਹੋ। ਹੋਰ ਸਿੱਖਣ ਲਈ ਇੱਕ ਚੰਗਾ ਕੋਰਸ Stanford Statistical Learning course ਹੈ।

ਅਸਾਈਨਮੈਂਟ

ਮਾਡਲ ਬਣਾਓ


ਅਸਵੀਕਾਰੋਪੱਤਰ: ਇਸ ਦਸਤਾਵੇਜ਼ ਨੂੰ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਦੇਖੋ ਕਿ ਸਵੈਚਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੰਤੁਲਨ ਹੋ ਸਕਦੇ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਆਪਣੇ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਿਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਣ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕਾਰਨ ਕਿਸੇ ਵੀ ਗਲਤਫਹਮੀ ਜਾਂ ਗਲਤ ਅਰਥ ਲੱਗਣ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।