History

leestott 5391b4bc5f 🌐 Update translations via Co-op Translator		3 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	3 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ

](../../sketchnotes/15-Analyzing.png)
ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ - @nitya ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸਕੈਚਨੋਟ

ਲੈਕਚਰ ਤੋਂ ਪਹਿਲਾਂ ਕਵਿਜ਼

ਡਾਟਾ ਲਾਈਫਸਾਈਕਲ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਇਹ ਪੱਕਾ ਕਰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਉਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਹਨ ਜਾਂ ਕਿਸੇ ਖਾਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਕਦਮ ਇਹ ਵੀ ਯਕੀਨੀ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਇਨ੍ਹਾਂ ਸਵਾਲਾਂ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਪਾਠ ਵਿੱਚ ਖੋਜਾਤਮਕ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ EDA 'ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜੋ ਡਾਟਾ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਸੰਬੰਧਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਦੇ ਤਰੀਕੇ ਹਨ ਅਤੇ ਮਾਡਲਿੰਗ ਲਈ ਡਾਟਾ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ।

ਅਸੀਂ Kaggle ਤੋਂ ਇੱਕ ਉਦਾਹਰਨ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਾਂ ਇਹ ਦਿਖਾਉਣ ਲਈ ਕਿ ਇਸਨੂੰ Python ਅਤੇ Pandas ਲਾਇਬ੍ਰੇਰੀ ਨਾਲ ਕਿਵੇਂ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਈਮੇਲਾਂ ਵਿੱਚ ਪਾਏ ਗਏ ਕੁਝ ਆਮ ਸ਼ਬਦਾਂ ਦੀ ਗਿਣਤੀ ਸ਼ਾਮਲ ਹੈ, ਅਤੇ ਇਨ੍ਹਾਂ ਈਮੇਲਾਂ ਦੇ ਸਰੋਤ ਗੁਪਤ ਹਨ। ਇਸ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਨੋਟਬੁੱਕ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਵਰਤੋਂ ਕਰੋ।

ਖੋਜਾਤਮਕ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ

ਲਾਈਫਸਾਈਕਲ ਦਾ ਕੈਪਚਰ ਚਰਨ ਉਹ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਅਤੇ ਸਵਾਲਾਂ ਨੂੰ ਹੱਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਅਸੀਂ ਕਿਵੇਂ ਜਾਣ ਸਕਦੇ ਹਾਂ ਕਿ ਡਾਟਾ ਅੰਤਮ ਨਤੀਜੇ ਨੂੰ ਸਹਾਇਤਾ ਦੇ ਸਕਦਾ ਹੈ?
ਯਾਦ ਕਰੋ ਕਿ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਵੇਲੇ ਹੇਠਾਂ ਦਿੱਤੇ ਸਵਾਲ ਪੁੱਛ ਸਕਦਾ ਹੈ:

ਕੀ ਮੇਰੇ ਕੋਲ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕਾਫੀ ਡਾਟਾ ਹੈ?
ਕੀ ਡਾਟਾ ਇਸ ਸਮੱਸਿਆ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦਾ ਹੈ?
ਜੇ ਮੈਂ ਇਸ ਡਾਟਾ ਰਾਹੀਂ ਵਾਧੂ ਜਾਣਕਾਰੀ ਦੀ ਖੋਜ ਕਰਦਾ ਹਾਂ, ਤਾਂ ਕੀ ਸਾਨੂੰ ਲਕਸ਼ਾਂ ਨੂੰ ਬਦਲਣ ਜਾਂ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਬਾਰੇ ਸੋਚਣਾ ਚਾਹੀਦਾ ਹੈ?

ਖੋਜਾਤਮਕ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਡਾਟਾ ਨੂੰ ਜਾਣਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ ਅਤੇ ਇਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਡਾਟਾਸੈੱਟ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਚੁਣੌਤੀਪੂਰਨ ਪਾਸੇ ਦੀ ਪਛਾਣ ਕਰਨਾ। ਆਓ ਕੁਝ ਤਕਨੀਕਾਂ 'ਤੇ ਧਿਆਨ ਦੇਈਏ ਜੋ ਇਸਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।

ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ, ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ, ਅਤੇ Pandas

ਅਸੀਂ ਕਿਵੇਂ ਅੰਕਲਣ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਸਾਡੇ ਕੋਲ ਕਾਫੀ ਡਾਟਾ ਹੈ? ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ ਦੀਆਂ ਤਕਨੀਕਾਂ ਰਾਹੀਂ ਸਾਡੇ ਡਾਟਾਸੈੱਟ ਬਾਰੇ ਕੁਝ ਆਮ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਖੇਪ ਅਤੇ ਇਕੱਠਾ ਕਰ ਸਕਦੀ ਹੈ। ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕੀ ਉਪਲਬਧ ਹੈ, ਅਤੇ ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕਿੰਨੀ ਚੀਜ਼ਾਂ ਉਪਲਬਧ ਹਨ।

ਪਿਛਲੇ ਕੁਝ ਪਾਠਾਂ ਵਿੱਚ, ਅਸੀਂ Pandas ਦੀ describe() ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ। ਇਹ ਗਿਣਤੀ, ਵੱਧ ਤੋਂ ਵੱਧ ਅਤੇ ਘੱਟ ਤੋਂ ਘੱਟ ਮੁੱਲ, ਔਸਤ, ਮਿਆਰੀ ਵਿਸਥਾਪਨ ਅਤੇ ਗਣਾਂਕਾਂ ਨੂੰ ਸੰਖਿਆਤਮਕ ਡਾਟਾ 'ਤੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ ਜਿਵੇਂ ਕਿ describe() ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਸੀਂ ਅੰਕਲਣ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਕਿੰਨਾ ਹੈ ਅਤੇ ਕੀ ਤੁਹਾਨੂੰ ਹੋਰ ਦੀ ਲੋੜ ਹੈ।

ਸੈਂਪਲਿੰਗ ਅਤੇ ਕਵੈਰੀ ਕਰਨਾ

ਵੱਡੇ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਹਰ ਚੀਜ਼ ਦੀ ਖੋਜ ਕਰਨਾ ਬਹੁਤ ਸਮਾਂ ਲੈਣ ਵਾਲਾ ਕੰਮ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਕੰਮ ਕੰਪਿਊਟਰ 'ਤੇ ਛੱਡਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਸੈਂਪਲਿੰਗ ਡਾਟਾ ਦੀ ਸਮਝ ਵਿੱਚ ਮਦਦਗਾਰ ਸਾਧਨ ਹੈ ਅਤੇ ਸਾਨੂੰ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕੀ ਦਰਸਾਉਂਦਾ ਹੈ ਇਸ ਬਾਰੇ ਵਧੇਰੇ ਸਮਝ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਇੱਕ ਸੈਂਪਲ ਨਾਲ, ਤੁਸੀਂ ਸੰਭਾਵਨਾ ਅਤੇ ਸਾਂਖਿਆਕੀ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਆਪਣੇ ਡਾਟਾ ਬਾਰੇ ਕੁਝ ਆਮ ਨਤੀਜੇ ਕੱਢ ਸਕਦੇ ਹੋ। ਜਦੋਂ ਕਿ ਇਹ ਸਪਸ਼ਟ ਨਿਯਮ ਨਹੀਂ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨਾ ਡਾਟਾ ਸੈਂਪਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਡਾਟਾ ਤੁਸੀਂ ਸੈਂਪਲ ਕਰਦੇ ਹੋ, ਉਨ੍ਹਾਂ ਡਾਟਾ ਬਾਰੇ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਉਤਨਾ ਹੀ ਸਹੀ ਹੋਵੇਗਾ।
Pandas ਦੇ ਲਾਇਬ੍ਰੇਰੀ ਵਿੱਚ sample() ਫੰਕਸ਼ਨ ਹੈ ਜਿੱਥੇ ਤੁਸੀਂ ਦੱਸ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨੇ ਰੈਂਡਮ ਸੈਂਪਲ ਚਾਹੀਦੇ ਹਨ।

ਡਾਟਾ ਦੀ ਆਮ ਕਵੈਰੀ ਕਰਨਾ ਤੁਹਾਨੂੰ ਕੁਝ ਆਮ ਸਵਾਲਾਂ ਅਤੇ ਸਿਧਾਂਤਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਸੈਂਪਲਿੰਗ ਦੇ ਵਿਰੁੱਧ, ਕਵੈਰੀਜ਼ ਤੁਹਾਨੂੰ ਆਪਣੇ ਡਾਟਾ ਦੇ ਖਾਸ ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਿੰਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਤੁਹਾਡੇ ਕੋਲ ਸਵਾਲ ਹਨ।
Pandas ਲਾਇਬ੍ਰੇਰੀ ਵਿੱਚ query() ਫੰਕਸ਼ਨ ਤੁਹਾਨੂੰ ਕਾਲਮ ਚੁਣਨ ਅਤੇ ਪੰਗਤਾਂ ਰਾਹੀਂ ਡਾਟਾ ਬਾਰੇ ਸਧਾਰਨ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਿੰਦਾ ਹੈ।

ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਨਾਲ ਖੋਜ ਕਰਨਾ

ਤੁਹਾਨੂੰ ਡਾਟਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਾਫ਼ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ ਤਾਂ ਜੋ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈ ਜਾ ਸਕੇ। ਹਕੀਕਤ ਵਿੱਚ, ਖੋਜ ਦੌਰਾਨ ਵਿਜ਼ੁਅਲ ਪ੍ਰਸਤੁਤੀ ਹੋਣ ਨਾਲ ਡਾਟਾ ਵਿੱਚ ਪੈਟਰਨ, ਸੰਬੰਧਾਂ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਮਿਲ ਸਕਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਉਹਨਾਂ ਲੋਕਾਂ ਨਾਲ ਸੰਚਾਰ ਕਰਨ ਦਾ ਸਾਧਨ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਡਾਟਾ ਦੇ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ ਅਤੇ ਇਹ ਕੈਪਚਰ ਚਰਨ ਵਿੱਚ ਹੱਲ ਨਾ ਕੀਤੇ ਗਏ ਵਾਧੂ ਸਵਾਲਾਂ ਨੂੰ ਸਾਂਝਾ ਕਰਨ ਅਤੇ ਸਪਸ਼ਟ ਕਰਨ ਦਾ ਮੌਕਾ ਹੋ ਸਕਦਾ ਹੈ। ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਕੁਝ ਪ੍ਰਸਿੱਧ ਤਰੀਕਿਆਂ ਬਾਰੇ ਜਾਣਨ ਲਈ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਅਧਿਆਇ ਨੂੰ ਵੇਖੋ।

ਅਸੰਗਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਖੋਜ ਕਰਨਾ

ਇਸ ਪਾਠ ਵਿੱਚ ਦਿੱਤੇ ਗਏ ਸਾਰੇ ਵਿਸ਼ੇ ਗੁੰਮ ਜਾਂ ਅਸੰਗਤ ਮੁੱਲਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ Pandas ਕੁਝ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਫੰਕਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। isna() ਜਾਂ isnull() ਗੁੰਮ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਹਾਡੇ ਡਾਟਾ ਵਿੱਚ ਇਨ੍ਹਾਂ ਮੁੱਲਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਾਸਾ ਇਹ ਹੈ ਕਿ ਇਹ ਪਤਾ ਲਗਾਇਆ ਜਾਵੇ ਕਿ ਇਹ ਮੁੱਲ ਪਹਿਲਾਂ ਇਸ ਤਰ੍ਹਾਂ ਕਿਉਂ ਬਣੇ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕੀ ਕਾਰਵਾਈ ਕੀਤੀ ਜਾਵੇ।

ਲੈਕਚਰ ਤੋਂ ਪਹਿਲਾਂ ਕਵਿਜ਼

ਅਸਾਈਨਮੈਂਟ

ਜਵਾਬਾਂ ਦੀ ਖੋਜ ਕਰਨਾ

ਅਸਵੀਕਰਤੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।