|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
| notebook.ipynb | 5 months ago | |
README.md
ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪਰਚੇਅ
| ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪਰਚੇਅ - @nitya ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸਕੈਚਨੋਟ |
ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼
ਇਸ ਪੜਾਅ 'ਤੇ ਤੁਸੀਂ ਸ਼ਾਇਦ ਇਹ ਸਮਝ ਲਿਆ ਹੋਵੇਗਾ ਕਿ ਡਾਟਾ ਸਾਇੰਸ ਇੱਕ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ 5 ਪੜਾਅ ਵਿੱਚ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ:
- ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ
- ਪ੍ਰੋਸੈਸਿੰਗ
- ਵਿਸ਼ਲੇਸ਼ਣ
- ਸੰਚਾਰ
- ਰੱਖ-ਰਖਾਵ
ਇਹ ਪਾਠ ਲਾਈਫਸਾਈਕਲ ਦੇ 3 ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ: ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ, ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਰੱਖ-ਰਖਾਵ।
ਬਰਕਲੇ ਸਕੂਲ ਆਫ ਇਨਫਾਰਮੇਸ਼ਨ ਦੁਆਰਾ ਤਸਵੀਰ
ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ
ਲਾਈਫਸਾਈਕਲ ਦਾ ਪਹਿਲਾ ਪੜਾਅ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਅਗਲੇ ਪੜਾਅ ਇਸ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇਹ ਅਸਲ ਵਿੱਚ ਦੋ ਪੜਾਅ ਨੂੰ ਇੱਕ ਵਿੱਚ ਜੋੜਦਾ ਹੈ: ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਅਤੇ ਉਸ ਦੇ ਉਦੇਸ਼ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਜਿਨ੍ਹਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ।
ਪ੍ਰੋਜੈਕਟ ਦੇ ਲਕਸ਼ਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ ਸਮੱਸਿਆ ਜਾਂ ਸਵਾਲ ਦੇ ਗਹਿਰੇ ਸੰਦਰਭ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਪਹਿਲਾਂ, ਸਾਨੂੰ ਉਹਨਾਂ ਦੀ ਪਛਾਣ ਅਤੇ ਪ੍ਰਾਪਤੀ ਕਰਨੀ ਪਵੇਗੀ ਜਿਨ੍ਹਾਂ ਦੀ ਸਮੱਸਿਆ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਇਹ ਕਾਰੋਬਾਰ ਵਿੱਚ ਹਿੱਸੇਦਾਰ ਜਾਂ ਪ੍ਰੋਜੈਕਟ ਦੇ ਸਪਾਂਸਰ ਹੋ ਸਕਦੇ ਹਨ, ਜੋ ਇਹ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਇਸ ਪ੍ਰੋਜੈਕਟ ਤੋਂ ਕੌਣ ਜਾਂ ਕੀ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰੇਗਾ ਅਤੇ ਕਿਉਂ। ਇੱਕ ਚੰਗਾ ਪਰਿਭਾਸ਼ਿਤ ਲਕਸ਼ ਮਾਪਣਯੋਗ ਅਤੇ ਗਣਨਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਇੱਕ ਸਵੀਕਾਰਯੋਗ ਨਤੀਜੇ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕੇ।
ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਪੂਛ ਸਕਦੇ ਹਨ:
- ਕੀ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਪਹਿਲਾਂ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਗਈ ਹੈ? ਕੀ ਪਤਾ ਲੱਗਾ?
- ਕੀ ਉਦੇਸ਼ ਅਤੇ ਲਕਸ਼ ਸਾਰੇ ਸ਼ਾਮਲ ਲੋਕਾਂ ਦੁਆਰਾ ਸਮਝੇ ਗਏ ਹਨ?
- ਕੀ ਕੋਈ ਅਸਪਸ਼ਟਤਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਘਟਾਉਣ ਲਈ ਕੀ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?
- ਪਾਬੰਦੀਆਂ ਕੀ ਹਨ?
- ਅੰਤਮ ਨਤੀਜਾ ਕਿਵੇਂ ਦਿਖ ਸਕਦਾ ਹੈ?
- ਕਿੰਨੇ ਸਰੋਤ (ਸਮਾਂ, ਲੋਕ, ਗਣਨਾਤਮਕ) ਉਪਲਬਧ ਹਨ?
ਅਗਲਾ ਕਦਮ ਹੈ ਡਾਟਾ ਦੀ ਪਛਾਣ ਕਰਨਾ, ਇਕੱਠਾ ਕਰਨਾ ਅਤੇ ਅੰਤ ਵਿੱਚ ਉਸ ਡਾਟਾ ਦੀ ਖੋਜ ਕਰਨੀ ਜੋ ਪਰਿਭਾਸ਼ਿਤ ਲਕਸ਼ਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਲੋੜੀਂਦਾ ਹੈ। ਇਸ ਪ੍ਰਾਪਤੀ ਦੇ ਪੜਾਅ 'ਤੇ, ਡਾਟਾ ਸਾਇੰਟਿਸਟਾਂ ਨੂੰ ਡਾਟਾ ਦੀ ਮਾਤਰਾ ਅਤੇ ਗੁਣਵੱਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਪਵੇਗਾ। ਇਸ ਲਈ ਕੁਝ ਡਾਟਾ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇਗੀ ਤਾਂ ਜੋ ਇਹ ਪੁਸ਼ਟੀ ਕੀਤੀ ਜਾ ਸਕੇ ਕਿ ਜੋ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ ਹੈ ਉਹ ਚਾਹੇ ਨਤੀਜੇ ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਸਹਾਇਕ ਹੋਵੇਗਾ।
ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ ਬਾਰੇ ਪੂਛ ਸਕਦੇ ਹਨ:
- ਮੇਰੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਕਿਹੜਾ ਡਾਟਾ ਉਪਲਬਧ ਹੈ?
- ਇਸ ਡਾਟਾ ਦਾ ਮਾਲਕ ਕੌਣ ਹੈ?
- ਗੋਪਨੀਯਤਾ ਸੰਬੰਧੀ ਚਿੰਤਾਵਾਂ ਕੀ ਹਨ?
- ਕੀ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਮੇਰੇ ਕੋਲ ਕਾਫ਼ੀ ਡਾਟਾ ਹੈ?
- ਕੀ ਇਹ ਡਾਟਾ ਇਸ ਸਮੱਸਿਆ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦਾ ਹੈ?
- ਜੇ ਮੈਂ ਇਸ ਡਾਟਾ ਦੁਆਰਾ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਦੀ ਖੋਜ ਕਰਦਾ ਹਾਂ, ਤਾਂ ਕੀ ਸਾਨੂੰ ਲਕਸ਼ਾਂ ਨੂੰ ਬਦਲਣ ਜਾਂ ਦੁਬਾਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਬਾਰੇ ਸੋਚਣਾ ਚਾਹੀਦਾ ਹੈ?
ਪ੍ਰੋਸੈਸਿੰਗ
ਲਾਈਫਸਾਈਕਲ ਦਾ ਪ੍ਰੋਸੈਸਿੰਗ ਪੜਾਅ ਡਾਟਾ ਵਿੱਚ ਪੈਟਰਨ ਦੀ ਖੋਜ ਕਰਨ ਅਤੇ ਮਾਡਲਿੰਗ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ। ਪ੍ਰੋਸੈਸਿੰਗ ਪੜਾਅ ਵਿੱਚ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਕੁਝ ਤਕਨੀਕਾਂ ਨੂੰ ਪੈਟਰਨ ਦੀ ਖੋਜ ਕਰਨ ਲਈ ਅੰਕਗਣਿਤਕ ਵਿਧੀਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਆਮ ਤੌਰ 'ਤੇ, ਇਹ ਇੱਕ ਵੱਡੇ ਡਾਟਾ ਸੈਟ ਨਾਲ ਮਨੁੱਖ ਲਈ ਬਹੁਤ ਥਕਾਵਟ ਭਰਿਆ ਕੰਮ ਹੋਵੇਗਾ ਅਤੇ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਕੰਪਿਊਟਰਾਂ 'ਤੇ ਨਿਰਭਰ ਕੀਤਾ ਜਾਵੇਗਾ। ਇਹ ਪੜਾਅ ਉਹ ਜਗ੍ਹਾ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਸਾਇੰਸ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੱਕ ਦੂਜੇ ਨਾਲ ਜੁੜਦੇ ਹਨ। ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਪਹਿਲੇ ਪਾਠ ਵਿੱਚ ਸਿੱਖਿਆ ਸੀ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਡਾਟਾ ਨੂੰ ਸਮਝਣ ਲਈ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਮਾਡਲ ਡਾਟਾ ਵਿੱਚ ਵੈਰੀਏਬਲਾਂ ਦੇ ਰਿਸ਼ਤੇ ਦੀ ਪ੍ਰਤੀਨਿਧਤਾ ਹੁੰਦੇ ਹਨ ਜੋ ਨਤੀਜਿਆਂ ਦੀ ਪੇਸ਼ਗੋਈ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ।
ਇਸ ਪੜਾਅ ਵਿੱਚ ਵਰਤੀਆਂ ਜਾਣ ਵਾਲੀਆਂ ਆਮ ਤਕਨੀਕਾਂ ML ਫਾਰ ਬਿਗਿਨਰਜ਼ ਕਰਿਕੁਲਮ ਵਿੱਚ ਕਵਰ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। ਹੇਠਾਂ ਦਿੱਤੇ ਲਿੰਕਾਂ ਨੂੰ ਫਾਲੋ ਕਰਕੇ ਉਨ੍ਹਾਂ ਬਾਰੇ ਹੋਰ ਜਾਣੋ:
- ਕਲਾਸੀਫਿਕੇਸ਼ਨ: ਡਾਟਾ ਨੂੰ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸੰਗਠਿਤ ਕਰਨਾ ਤਾਂ ਜੋ ਇਸਨੂੰ ਜ਼ਿਆਦਾ ਕੁਸ਼ਲਤਾਪੂਰਵਕ ਵਰਤਿਆ ਜਾ ਸਕੇ।
- ਕਲੱਸਟਰਿੰਗ: ਡਾਟਾ ਨੂੰ ਸਮਾਨ ਸਮੂਹਾਂ ਵਿੱਚ ਵੰਡਣਾ।
- ਰਿਗਰੈਸ਼ਨ: ਵੈਰੀਏਬਲਾਂ ਦੇ ਰਿਸ਼ਤਿਆਂ ਨੂੰ ਪਤਾ ਲਗਾਉਣਾ ਤਾਂ ਜੋ ਮੁੱਲਾਂ ਦੀ ਪੇਸ਼ਗੋਈ ਜਾਂ ਅਨੁਮਾਨ ਲਗਾਇਆ ਜਾ ਸਕੇ।
ਰੱਖ-ਰਖਾਵ
ਲਾਈਫਸਾਈਕਲ ਦੇ ਚਿੱਤਰ ਵਿੱਚ, ਤੁਸੀਂ ਸ਼ਾਇਦ ਧਿਆਨ ਦਿੱਤਾ ਹੋਵੇਗਾ ਕਿ ਰੱਖ-ਰਖਾਵ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਅਤੇ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਵਿਚਕਾਰ ਸਥਿਤ ਹੈ। ਰੱਖ-ਰਖਾਵ ਇੱਕ ongoing ਪ੍ਰਕਿਰਿਆ ਹੈ ਜੋ ਪ੍ਰੋਜੈਕਟ ਦੇ ਦੌਰਾਨ ਡਾਟਾ ਦੇ ਪ੍ਰਬੰਧਨ, ਸਟੋਰੇਜ ਅਤੇ ਸੁਰੱਖਿਆ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਪ੍ਰੋਜੈਕਟ ਦੀ ਪੂਰੀ ਮਿਆਦ ਦੌਰਾਨ ਵਿਚਾਰ ਵਿੱਚ ਲਿਆਣਾ ਚਾਹੀਦਾ ਹੈ।
ਡਾਟਾ ਸਟੋਰ ਕਰਨਾ
ਡਾਟਾ ਕਿਵੇਂ ਅਤੇ ਕਿੱਥੇ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਇਸ ਬਾਰੇ ਵਿਚਾਰ ਇਸਦੇ ਸਟੋਰੇਜ ਦੀ ਲਾਗਤ ਅਤੇ ਡਾਟਾ ਨੂੰ ਕਿੰਨੀ ਤੇਜ਼ੀ ਨਾਲ ਐਕਸੈਸ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ 'ਤੇ ਪ੍ਰਭਾਵ ਪਾ ਸਕਦੇ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਫੈਸਲੇ ਸਿਰਫ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਦੁਆਰਾ ਨਹੀਂ ਕੀਤੇ ਜਾਂਦੇ, ਪਰ ਉਹ ਡਾਟਾ ਸਟੋਰੇਜ ਦੇ ਅਧਾਰ 'ਤੇ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਤਰੀਕੇ 'ਤੇ ਚੋਣਾਂ ਕਰਨ ਦੀ ਸਥਿਤੀ ਵਿੱਚ ਹੋ ਸਕਦੇ ਹਨ।
ਇੱਥੇ ਕੁਝ ਆਧੁਨਿਕ ਡਾਟਾ ਸਟੋਰੇਜ ਸਿਸਟਮ ਦੇ ਪਹਲੂ ਹਨ ਜੋ ਇਹ ਚੋਣਾਂ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦੇ ਹਨ:
ਆਨ-ਪ੍ਰੇਮਿਸ ਵਿਰੁੱਧ ਆਫ-ਪ੍ਰੇਮਿਸ ਵਿਰੁੱਧ ਪਬਲਿਕ ਜਾਂ ਪ੍ਰਾਈਵੇਟ ਕਲਾਉਡ
ਆਨ-ਪ੍ਰੇਮਿਸ ਦਾ ਮਤਲਬ ਹੈ ਆਪਣੇ ਸਾਜੋ-ਸਮਾਨ 'ਤੇ ਡਾਟਾ ਦੀ ਹੋਸਟਿੰਗ ਅਤੇ ਪ੍ਰਬੰਧਨ ਕਰਨਾ, ਜਿਵੇਂ ਕਿ ਡਾਟਾ ਸਟੋਰ ਕਰਨ ਵਾਲੇ ਸਰਵਰ ਦੇ ਮਾਲਕ ਹੋਣਾ, ਜਦੋਂ ਕਿ ਆਫ-ਪ੍ਰੇਮਿਸ ਉਹ ਸਾਜੋ-ਸਮਾਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਜੋ ਤੁਸੀਂ ਮਾਲਕ ਨਹੀਂ ਹੋ, ਜਿਵੇਂ ਕਿ ਡਾਟਾ ਸੈਂਟਰ। ਪਬਲਿਕ ਕਲਾਉਡ ਡਾਟਾ ਸਟੋਰ ਕਰਨ ਲਈ ਇੱਕ ਲੋਕਪ੍ਰਿਯ ਚੋਣ ਹੈ ਜਿਸ ਵਿੱਚ ਇਹ ਜਾਣਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ ਕਿ ਡਾਟਾ ਕਿਵੇਂ ਜਾਂ ਕਿੱਥੇ ਸਟੋਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਕੁਝ ਸੰਗਠਨਾਂ ਦੀਆਂ ਸਖਤ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਹੁੰਦੀਆਂ ਹਨ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀਆਂ ਹਨ ਕਿ ਉਹ ਸਾਜੋ-ਸਮਾਨ 'ਤੇ ਪੂਰੀ ਪਹੁੰਚ ਰੱਖਦੇ ਹਨ ਜਿੱਥੇ ਡਾਟਾ ਹੋਸਟ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਉਹ ਪ੍ਰਾਈਵੇਟ ਕਲਾਉਡ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਜੋ ਆਪਣੀਆਂ ਕਲਾਉਡ ਸੇਵਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਅਗਲੇ ਪਾਠਾਂ ਵਿੱਚ ਕਲਾਉਡ ਵਿੱਚ ਡਾਟਾ ਬਾਰੇ ਹੋਰ ਸਿੱਖੋਗੇ।
ਕੋਲਡ ਵਿਰੁੱਧ ਹਾਟ ਡਾਟਾ
ਜਦੋਂ ਤੁਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਹੋਰ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ। ਜੇ ਤੁਸੀਂ ਆਪਣੇ ਮਾਡਲ ਨਾਲ ਸੰਤੁਸ਼ਟ ਹੋ, ਤਾਂ ਮਾਡਲ ਨੂੰ ਇਸਦੇ ਉਦੇਸ਼ ਦੀ ਸੇਵਾ ਕਰਨ ਲਈ ਹੋਰ ਡਾਟਾ ਆਵੇਗਾ। ਕਿਸੇ ਵੀ ਮਾਮਲੇ ਵਿੱਚ, ਜਿਵੇਂ ਜ਼ਿਆਦਾ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਡਾਟਾ ਸਟੋਰੇਜ ਅਤੇ ਐਕਸੈਸ ਕਰਨ ਦੀ ਲਾਗਤ ਵਧੇਗੀ। ਕਦੇ-ਕਦੇ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਡਾਟਾ, ਜਿਸਨੂੰ ਕੋਲਡ ਡਾਟਾ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਨੂੰ ਅਕਸਰ ਐਕਸੈਸ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਹਾਟ ਡਾਟਾ ਤੋਂ ਵੱਖ ਕਰਨਾ ਇੱਕ ਸਸਤਾ ਡਾਟਾ ਸਟੋਰੇਜ ਵਿਕਲਪ ਹੋ ਸਕਦਾ ਹੈ। ਜੇ ਕੋਲਡ ਡਾਟਾ ਨੂੰ ਐਕਸੈਸ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ, ਤਾਂ ਇਸਨੂੰ ਹਾਟ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲੇ ਰੀਟਰੀਵ ਕਰਨ ਵਿੱਚ ਥੋੜਾ ਜ਼ਿਆਦਾ ਸਮਾਂ ਲੱਗ ਸਕਦਾ ਹੈ।
ਡਾਟਾ ਦਾ ਪ੍ਰਬੰਧਨ
ਜਦੋਂ ਤੁਸੀਂ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹੋ ਕਿ ਕੁਝ ਡਾਟਾ ਨੂੰ ਸਾਫ਼ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਇਹ ਤਕਨੀਕਾਂ ਡਾਟਾ ਤਿਆਰੀ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਪਾਠ ਵਿੱਚ ਕਵਰ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। ਜਦੋਂ ਨਵਾਂ ਡਾਟਾ ਆਉਂਦਾ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਗੁਣਵੱਤਾ ਵਿੱਚ ਸਥਿਰਤਾ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਲਈ ਉਹੀ ਤਕਨੀਕਾਂ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਕੁਝ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਡਾਟਾ ਨੂੰ ਇਸਦੇ ਅੰਤਮ ਸਥਾਨ 'ਤੇ ਲਿਜਾਣ ਤੋਂ ਪਹਿਲਾਂ ਸਾਫ਼ ਕਰਨ, ਇਕੱਠਾ ਕਰਨ ਅਤੇ ਕੰਪ੍ਰੈਸ ਕਰਨ ਲਈ ਇੱਕ ਆਟੋਮੈਟਿਕ ਟੂਲ ਦੀ ਵਰਤੋਂ ਸ਼ਾਮਲ ਹੋਵੇਗੀ। Azure Data Factory ਇਸਨੂੰ ਕਰਨ ਵਾਲੇ ਟੂਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਉਦਾਹਰਨ ਹੈ।
ਡਾਟਾ ਦੀ ਸੁਰੱਖਿਆ
ਡਾਟਾ ਦੀ ਸੁਰੱਖਿਆ ਦਾ ਇੱਕ ਮੁੱਖ ਉਦੇਸ਼ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਹੈ ਕਿ ਜੋ ਲੋਕ ਇਸ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਨ ਉਹ ਇਸ 'ਤੇ ਕੰਟਰੋਲ ਰੱਖਦੇ ਹਨ ਕਿ ਕੀ ਇਕੱਠਾ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ ਅਤੇ ਇਹ ਕਿਹੜੇ ਸੰਦਰਭ ਵਿੱਚ ਵਰਤਿਆ ਜਾ ਰਿਹਾ ਹੈ। ਡਾਟਾ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਣ ਵਿੱਚ ਸਿਰਫ਼ ਉਹਨਾਂ ਨੂੰ ਪਹੁੰਚ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਸ ਦੀ ਲੋੜ ਹੈ, ਸਥਾਨਕ ਕਾਨੂੰਨਾਂ ਅਤੇ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨਾ, ਅਤੇ ਨੈਤਿਕ ਮਿਆਰਾਂ ਨੂੰ ਬਣਾਈ ਰੱਖਣਾ, ਜਿਵੇਂ ਕਿ ਨੈਤਿਕਤਾ ਪਾਠ ਵਿੱਚ ਕਵਰ ਕੀਤਾ ਗਿਆ ਹੈ।
ਇੱਥੇ ਕੁਝ ਚੀਜ਼ਾਂ ਹਨ ਜੋ ਟੀਮ ਸੁਰੱਖਿਆ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਕਰ ਸਕਦੀ ਹੈ:
- ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਸਾਰਾ ਡਾਟਾ ਇਨਕ੍ਰਿਪਟ ਕੀਤਾ ਗਿਆ ਹੈ
- ਗਾਹਕਾਂ ਨੂੰ ਇਹ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰੋ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਡਾਟਾ ਕਿਵੇਂ ਵਰਤਿਆ ਜਾ ਰਿਹਾ ਹੈ
- ਉਹਨਾਂ ਤੋਂ ਡਾਟਾ ਪਹੁੰਚ ਹਟਾਓ ਜੋ ਪ੍ਰੋਜੈਕਟ ਨੂੰ ਛੱਡ ਚੁੱਕੇ ਹਨ
- ਸਿਰਫ਼ ਕੁਝ ਪ੍ਰੋਜੈਕਟ ਮੈਂਬਰਾਂ ਨੂੰ ਡਾਟਾ ਨੂੰ ਬਦਲਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿਓ
🚀 ਚੁਣੌਤੀ
ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦੇ ਕਈ ਵਰਜਨ ਹਨ, ਜਿੱਥੇ ਹਰ ਪੜਾਅ ਦੇ ਵੱਖ-ਵੱਖ ਨਾਮ ਅਤੇ ਪੜਾਅ ਦੀ ਗਿਣਤੀ ਹੋ ਸਕਦੀ ਹੈ ਪਰ ਇਸ ਪਾਠ ਵਿੱਚ ਉਲਲੇਖ ਕੀਤੇ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ।
Team Data Science Process lifecycle ਅਤੇ Cross-industry standard process for data mining ਦੀ ਖੋਜ ਕਰੋ। ਦੋਹਾਂ ਵਿੱਚੋਂ 3 ਸਮਾਨਤਾਵਾਂ ਅਤੇ ਅੰਤਰਾਂ ਦਾ ਨਾਮ ਲਓ।
| Team Data Science Process (TDSP) | Cross-industry standard process for data mining (CRISP-DM) |
|---|---|
![]() |
![]() |
| Microsoft ਦੁਆਰਾ ਚਿੱਤਰ | Data Science Process Alliance ਦੁਆਰਾ ਚਿੱਤਰ |
ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼
ਸਮੀਖਿਆ ਅਤੇ ਸਵੈ-ਅਧਿਐਨ
ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਕਈ ਭੂਮਿਕਾਵਾਂ ਅਤੇ ਕੰਮਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਕੁਝ ਹਰ ਪੜਾਅ ਦੇ ਵਿਸ਼ੇਸ਼ ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ। Team Data Science Process ਕੁਝ ਸਰੋਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਇਹ ਸਮਝਾਉਂਦੇ ਹਨ ਕਿ ਕਿਸੇ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਕਿਸੇ ਵਿਅਕਤੀ ਦੀਆਂ ਭੂਮਿਕਾਵਾਂ ਅਤੇ ਕੰਮ ਕੀ ਹੋ ਸਕਦੇ ਹਨ।
- Team Data Science Process roles and tasks
- Execute data science tasks: exploration, modeling, and deployment
ਅਸਾਈਨਮੈਂਟ
ਅਸਵੀਕਤੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਪੂਰੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੱਜੇਪਣ ਹੋ ਸਕਦੇ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।


