|
3 weeks ago | |
---|---|---|
.. | ||
README.md | 3 weeks ago | |
assignment.md | 3 weeks ago |
README.md
ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ
ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ - @nitya ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸਕੈਚਨੋਟ |
ਲੈਕਚਰ ਤੋਂ ਪਹਿਲਾਂ ਕਵਿਜ਼
ਲੈਕਚਰ ਤੋਂ ਪਹਿਲਾਂ ਕਵਿਜ਼
ਡਾਟਾ ਲਾਈਫਸਾਈਕਲ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਇਹ ਪੱਕਾ ਕਰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਉਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਹਨ ਜਾਂ ਕਿਸੇ ਖਾਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਕਦਮ ਇਹ ਵੀ ਯਕੀਨੀ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਇਨ੍ਹਾਂ ਸਵਾਲਾਂ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਪਾਠ ਵਿੱਚ ਖੋਜਾਤਮਕ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ EDA 'ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜੋ ਡਾਟਾ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਸੰਬੰਧਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਦੇ ਤਰੀਕੇ ਹਨ ਅਤੇ ਮਾਡਲਿੰਗ ਲਈ ਡਾਟਾ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ।
ਅਸੀਂ Kaggle ਤੋਂ ਇੱਕ ਉਦਾਹਰਨ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਾਂ ਇਹ ਦਿਖਾਉਣ ਲਈ ਕਿ ਇਸਨੂੰ Python ਅਤੇ Pandas ਲਾਇਬ੍ਰੇਰੀ ਨਾਲ ਕਿਵੇਂ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਈਮੇਲਾਂ ਵਿੱਚ ਪਾਏ ਗਏ ਕੁਝ ਆਮ ਸ਼ਬਦਾਂ ਦੀ ਗਿਣਤੀ ਸ਼ਾਮਲ ਹੈ, ਅਤੇ ਇਨ੍ਹਾਂ ਈਮੇਲਾਂ ਦੇ ਸਰੋਤ ਗੁਪਤ ਹਨ। ਇਸ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਨੋਟਬੁੱਕ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਵਰਤੋਂ ਕਰੋ।
ਖੋਜਾਤਮਕ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ
ਲਾਈਫਸਾਈਕਲ ਦਾ ਕੈਪਚਰ ਚਰਨ ਉਹ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਅਤੇ ਸਵਾਲਾਂ ਨੂੰ ਹੱਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਅਸੀਂ ਕਿਵੇਂ ਜਾਣ ਸਕਦੇ ਹਾਂ ਕਿ ਡਾਟਾ ਅੰਤਮ ਨਤੀਜੇ ਨੂੰ ਸਹਾਇਤਾ ਦੇ ਸਕਦਾ ਹੈ?
ਯਾਦ ਕਰੋ ਕਿ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਵੇਲੇ ਹੇਠਾਂ ਦਿੱਤੇ ਸਵਾਲ ਪੁੱਛ ਸਕਦਾ ਹੈ:
- ਕੀ ਮੇਰੇ ਕੋਲ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕਾਫੀ ਡਾਟਾ ਹੈ?
- ਕੀ ਡਾਟਾ ਇਸ ਸਮੱਸਿਆ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦਾ ਹੈ?
- ਜੇ ਮੈਂ ਇਸ ਡਾਟਾ ਰਾਹੀਂ ਵਾਧੂ ਜਾਣਕਾਰੀ ਦੀ ਖੋਜ ਕਰਦਾ ਹਾਂ, ਤਾਂ ਕੀ ਸਾਨੂੰ ਲਕਸ਼ਾਂ ਨੂੰ ਬਦਲਣ ਜਾਂ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਬਾਰੇ ਸੋਚਣਾ ਚਾਹੀਦਾ ਹੈ?
ਖੋਜਾਤਮਕ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਡਾਟਾ ਨੂੰ ਜਾਣਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ ਅਤੇ ਇਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਡਾਟਾਸੈੱਟ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਚੁਣੌਤੀਪੂਰਨ ਪਾਸੇ ਦੀ ਪਛਾਣ ਕਰਨਾ। ਆਓ ਕੁਝ ਤਕਨੀਕਾਂ 'ਤੇ ਧਿਆਨ ਦੇਈਏ ਜੋ ਇਸਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ, ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ, ਅਤੇ Pandas
ਅਸੀਂ ਕਿਵੇਂ ਅੰਕਲਣ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਸਾਡੇ ਕੋਲ ਕਾਫੀ ਡਾਟਾ ਹੈ? ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ ਦੀਆਂ ਤਕਨੀਕਾਂ ਰਾਹੀਂ ਸਾਡੇ ਡਾਟਾਸੈੱਟ ਬਾਰੇ ਕੁਝ ਆਮ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਖੇਪ ਅਤੇ ਇਕੱਠਾ ਕਰ ਸਕਦੀ ਹੈ। ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕੀ ਉਪਲਬਧ ਹੈ, ਅਤੇ ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕਿੰਨੀ ਚੀਜ਼ਾਂ ਉਪਲਬਧ ਹਨ।
ਪਿਛਲੇ ਕੁਝ ਪਾਠਾਂ ਵਿੱਚ, ਅਸੀਂ Pandas ਦੀ describe()
ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ। ਇਹ ਗਿਣਤੀ, ਵੱਧ ਤੋਂ ਵੱਧ ਅਤੇ ਘੱਟ ਤੋਂ ਘੱਟ ਮੁੱਲ, ਔਸਤ, ਮਿਆਰੀ ਵਿਸਥਾਪਨ ਅਤੇ ਗਣਾਂਕਾਂ ਨੂੰ ਸੰਖਿਆਤਮਕ ਡਾਟਾ 'ਤੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਵਰਣਨਾਤਮਕ ਸਾਂਖਿਆਕੀ ਜਿਵੇਂ ਕਿ describe()
ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਸੀਂ ਅੰਕਲਣ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਕਿੰਨਾ ਹੈ ਅਤੇ ਕੀ ਤੁਹਾਨੂੰ ਹੋਰ ਦੀ ਲੋੜ ਹੈ।
ਸੈਂਪਲਿੰਗ ਅਤੇ ਕਵੈਰੀ ਕਰਨਾ
ਵੱਡੇ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਹਰ ਚੀਜ਼ ਦੀ ਖੋਜ ਕਰਨਾ ਬਹੁਤ ਸਮਾਂ ਲੈਣ ਵਾਲਾ ਕੰਮ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਕੰਮ ਕੰਪਿਊਟਰ 'ਤੇ ਛੱਡਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਸੈਂਪਲਿੰਗ ਡਾਟਾ ਦੀ ਸਮਝ ਵਿੱਚ ਮਦਦਗਾਰ ਸਾਧਨ ਹੈ ਅਤੇ ਸਾਨੂੰ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕੀ ਦਰਸਾਉਂਦਾ ਹੈ ਇਸ ਬਾਰੇ ਵਧੇਰੇ ਸਮਝ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਇੱਕ ਸੈਂਪਲ ਨਾਲ, ਤੁਸੀਂ ਸੰਭਾਵਨਾ ਅਤੇ ਸਾਂਖਿਆਕੀ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਆਪਣੇ ਡਾਟਾ ਬਾਰੇ ਕੁਝ ਆਮ ਨਤੀਜੇ ਕੱਢ ਸਕਦੇ ਹੋ। ਜਦੋਂ ਕਿ ਇਹ ਸਪਸ਼ਟ ਨਿਯਮ ਨਹੀਂ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨਾ ਡਾਟਾ ਸੈਂਪਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਡਾਟਾ ਤੁਸੀਂ ਸੈਂਪਲ ਕਰਦੇ ਹੋ, ਉਨ੍ਹਾਂ ਡਾਟਾ ਬਾਰੇ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਉਤਨਾ ਹੀ ਸਹੀ ਹੋਵੇਗਾ।
Pandas ਦੇ ਲਾਇਬ੍ਰੇਰੀ ਵਿੱਚ sample()
ਫੰਕਸ਼ਨ ਹੈ ਜਿੱਥੇ ਤੁਸੀਂ ਦੱਸ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨੇ ਰੈਂਡਮ ਸੈਂਪਲ ਚਾਹੀਦੇ ਹਨ।
ਡਾਟਾ ਦੀ ਆਮ ਕਵੈਰੀ ਕਰਨਾ ਤੁਹਾਨੂੰ ਕੁਝ ਆਮ ਸਵਾਲਾਂ ਅਤੇ ਸਿਧਾਂਤਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਸੈਂਪਲਿੰਗ ਦੇ ਵਿਰੁੱਧ, ਕਵੈਰੀਜ਼ ਤੁਹਾਨੂੰ ਆਪਣੇ ਡਾਟਾ ਦੇ ਖਾਸ ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਿੰਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਤੁਹਾਡੇ ਕੋਲ ਸਵਾਲ ਹਨ।
Pandas ਲਾਇਬ੍ਰੇਰੀ ਵਿੱਚ query()
ਫੰਕਸ਼ਨ ਤੁਹਾਨੂੰ ਕਾਲਮ ਚੁਣਨ ਅਤੇ ਪੰਗਤਾਂ ਰਾਹੀਂ ਡਾਟਾ ਬਾਰੇ ਸਧਾਰਨ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਿੰਦਾ ਹੈ।
ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਨਾਲ ਖੋਜ ਕਰਨਾ
ਤੁਹਾਨੂੰ ਡਾਟਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਾਫ਼ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ ਤਾਂ ਜੋ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈ ਜਾ ਸਕੇ। ਹਕੀਕਤ ਵਿੱਚ, ਖੋਜ ਦੌਰਾਨ ਵਿਜ਼ੁਅਲ ਪ੍ਰਸਤੁਤੀ ਹੋਣ ਨਾਲ ਡਾਟਾ ਵਿੱਚ ਪੈਟਰਨ, ਸੰਬੰਧਾਂ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਮਿਲ ਸਕਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਉਹਨਾਂ ਲੋਕਾਂ ਨਾਲ ਸੰਚਾਰ ਕਰਨ ਦਾ ਸਾਧਨ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਡਾਟਾ ਦੇ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ ਅਤੇ ਇਹ ਕੈਪਚਰ ਚਰਨ ਵਿੱਚ ਹੱਲ ਨਾ ਕੀਤੇ ਗਏ ਵਾਧੂ ਸਵਾਲਾਂ ਨੂੰ ਸਾਂਝਾ ਕਰਨ ਅਤੇ ਸਪਸ਼ਟ ਕਰਨ ਦਾ ਮੌਕਾ ਹੋ ਸਕਦਾ ਹੈ। ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਕੁਝ ਪ੍ਰਸਿੱਧ ਤਰੀਕਿਆਂ ਬਾਰੇ ਜਾਣਨ ਲਈ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਅਧਿਆਇ ਨੂੰ ਵੇਖੋ।
ਅਸੰਗਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਖੋਜ ਕਰਨਾ
ਇਸ ਪਾਠ ਵਿੱਚ ਦਿੱਤੇ ਗਏ ਸਾਰੇ ਵਿਸ਼ੇ ਗੁੰਮ ਜਾਂ ਅਸੰਗਤ ਮੁੱਲਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ Pandas ਕੁਝ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਫੰਕਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। isna() ਜਾਂ isnull() ਗੁੰਮ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਹਾਡੇ ਡਾਟਾ ਵਿੱਚ ਇਨ੍ਹਾਂ ਮੁੱਲਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਾਸਾ ਇਹ ਹੈ ਕਿ ਇਹ ਪਤਾ ਲਗਾਇਆ ਜਾਵੇ ਕਿ ਇਹ ਮੁੱਲ ਪਹਿਲਾਂ ਇਸ ਤਰ੍ਹਾਂ ਕਿਉਂ ਬਣੇ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕੀ ਕਾਰਵਾਈ ਕੀਤੀ ਜਾਵੇ।
ਲੈਕਚਰ ਤੋਂ ਪਹਿਲਾਂ ਕਵਿਜ਼
ਅਸਾਈਨਮੈਂਟ
ਅਸਵੀਕਰਤੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।