You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
85 lines
20 KiB
85 lines
20 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "12339119c0165da569a93ddba05f9339",
|
|
"translation_date": "2025-09-06T08:20:10+00:00",
|
|
"source_file": "1-Introduction/03-defining-data/README.md",
|
|
"language_code": "pa"
|
|
}
|
|
-->
|
|
# ਡਾਟਾ ਦੀ ਪਰਿਭਾਸ਼ਾ
|
|
|
|
| ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸਕੈਚਨੋਟ ](../../sketchnotes/03-DefiningData.png)|
|
|
|:---:|
|
|
|ਡਾਟਾ ਦੀ ਪਰਿਭਾਸ਼ਾ - _[@nitya](https://twitter.com/nitya) ਦੁਆਰਾ ਸਕੈਚਨੋਟ_ |
|
|
|
|
ਡਾਟਾ ਤਥਿਆਂ, ਜਾਣਕਾਰੀ, ਅਵਲੋਕਨ ਅਤੇ ਮਾਪਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਖੋਜਾਂ ਕਰਨ ਅਤੇ ਜਾਣਕਾਰੀ ਦੇ ਆਧਾਰ 'ਤੇ ਫੈਸਲੇ ਲੈਣ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਡਾਟਾ ਪੌਇੰਟ ਡਾਟਾ ਸੈੱਟ ਵਿੱਚ ਇੱਕ ਇਕਾਈ ਹੁੰਦੀ ਹੈ, ਜੋ ਡਾਟਾ ਪੌਇੰਟਸ ਦਾ ਸੰਗ੍ਰਹਿ ਹੁੰਦਾ ਹੈ। ਡਾਟਾ ਸੈੱਟ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟ ਅਤੇ ਬਣਤਰਾਂ ਵਿੱਚ ਆ ਸਕਦੇ ਹਨ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਸਦੇ ਸਰੋਤ ਜਾਂ ਡਾਟਾ ਕਿੱਥੋਂ ਆਇਆ ਹੈ, ਇਸ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਕੰਪਨੀ ਦੀ ਮਹੀਨਾਵਾਰ ਕਮਾਈ ਇੱਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਹੋ ਸਕਦੀ ਹੈ ਪਰ ਇੱਕ ਸਮਾਰਟਵਾਚ ਤੋਂ ਘੰਟਾਵਾਰ ਦਿਲ ਦੀ ਧੜਕਨ ਦਾ ਡਾਟਾ [JSON](https://stackoverflow.com/a/383699) ਫਾਰਮੈਟ ਵਿੱਚ ਹੋ ਸਕਦਾ ਹੈ। ਡਾਟਾ ਵਿਗਿਆਨੀਆਂ ਲਈ ਇੱਕ ਡਾਟਾ ਸੈੱਟ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੇ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ ਆਮ ਗੱਲ ਹੈ।
|
|
|
|
ਇਹ ਪਾਠ ਡਾਟਾ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਇਸਦੇ ਸਰੋਤਾਂ ਦੁਆਰਾ ਡਾਟਾ ਦੀ ਪਛਾਣ ਅਤੇ ਵਰਗੀਕਰਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ।
|
|
|
|
## [ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/4)
|
|
|
|
## ਡਾਟਾ ਕਿਵੇਂ ਵਰਣਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
|
|
|
|
### ਕੱਚਾ ਡਾਟਾ
|
|
ਕੱਚਾ ਡਾਟਾ ਉਹ ਡਾਟਾ ਹੁੰਦਾ ਹੈ ਜੋ ਆਪਣੇ ਸਰੋਤ ਤੋਂ ਆਪਣੇ ਸ਼ੁਰੂਆਤੀ ਰੂਪ ਵਿੱਚ ਆਇਆ ਹੈ ਅਤੇ ਇਸਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ ਸੰਗਠਨ ਨਹੀਂ ਕੀਤਾ ਗਿਆ। ਡਾਟਾ ਸੈੱਟ ਵਿੱਚ ਕੀ ਹੋ ਰਿਹਾ ਹੈ ਇਸਦਾ ਅਰਥ ਸਮਝਣ ਲਈ, ਇਸਨੂੰ ਇੱਕ ਐਸੇ ਫਾਰਮੈਟ ਵਿੱਚ ਸੰਗਠਿਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜੋ ਮਨੁੱਖਾਂ ਅਤੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੀ ਤਕਨਾਲੋਜੀ ਦੁਆਰਾ ਸਮਝਿਆ ਜਾ ਸਕੇ। ਡਾਟਾ ਸੈੱਟ ਦੀ ਬਣਤਰ ਇਸਦੀ ਸੰਗਠਨ ਨੂੰ ਵਰਣਨ ਕਰਦੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸੰਗਠਿਤ, ਅਸੰਗਠਿਤ ਅਤੇ ਅਰਧ-ਸੰਗਠਿਤ ਵਜੋਂ ਵਰਗੀਕਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਬਣਤਰਾਂ ਸਰੋਤ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੀਆਂ ਹਨ ਪਰ ਆਖਿਰਕਾਰ ਇਹ ਤਿੰਨ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਫਿੱਟ ਹੁੰਦੀਆਂ ਹਨ।
|
|
|
|
### ਮਾਤਰਾਤਮਕ ਡਾਟਾ
|
|
ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਡਾਟਾ ਸੈੱਟ ਵਿੱਚ ਗਿਣਤੀ ਵਾਲੇ ਅਵਲੋਕਨ ਹੁੰਦੇ ਹਨ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਵਿਸ਼ਲੇਸ਼ਣ, ਮਾਪ ਅਤੇ ਗਣਿਤੀਕ ਤੌਰ 'ਤੇ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਦੇ ਕੁਝ ਉਦਾਹਰਣ ਹਨ: ਇੱਕ ਦੇਸ਼ ਦੀ ਆਬਾਦੀ, ਇੱਕ ਵਿਅਕਤੀ ਦੀ ਉਚਾਈ ਜਾਂ ਇੱਕ ਕੰਪਨੀ ਦੀ ਤਿਮਾਹੀ ਕਮਾਈ। ਕੁਝ ਵਾਧੂ ਵਿਸ਼ਲੇਸ਼ਣ ਨਾਲ, ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਦਾ ਵਰਤੋਂ ਕਰਕੇ ਹਵਾ ਗੁਣਵੱਤਾ ਸੂਚਕ (AQI) ਦੇ ਮੌਸਮੀ ਰੁਝਾਨਾਂ ਦੀ ਖੋਜ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜਾਂ ਇੱਕ ਆਮ ਕੰਮ ਦੇ ਦਿਨ 'ਤੇ ਰਸ਼ ਅਵਰ ਟ੍ਰੈਫਿਕ ਦੀ ਸੰਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।
|
|
|
|
### ਗੁਣਾਤਮਕ ਡਾਟਾ
|
|
ਗੁਣਾਤਮਕ ਡਾਟਾ, ਜਿਸਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਡਾਟਾ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਉਹ ਡਾਟਾ ਹੁੰਦਾ ਹੈ ਜੋ ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਦੇ ਅਵਲੋਕਨ ਵਾਂਗ ਵਸਤੂਵਾਦੀ ਤੌਰ 'ਤੇ ਮਾਪਿਆ ਨਹੀਂ ਜਾ ਸਕਦਾ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਸਬਜੈਕਟਿਵ ਡਾਟਾ ਹੁੰਦਾ ਹੈ ਜੋ ਕਿਸੇ ਚੀਜ਼ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਉਤਪਾਦ ਜਾਂ ਪ੍ਰਕਿਰਿਆ। ਕਈ ਵਾਰ, ਗੁਣਾਤਮਕ ਡਾਟਾ ਗਿਣਤੀ ਵਾਲਾ ਹੁੰਦਾ ਹੈ ਪਰ ਆਮ ਤੌਰ 'ਤੇ ਗਣਿਤੀਕ ਤੌਰ 'ਤੇ ਵਰਤਿਆ ਨਹੀਂ ਜਾਂਦਾ, ਜਿਵੇਂ ਕਿ ਫੋਨ ਨੰਬਰ ਜਾਂ ਟਾਈਮਸਟੈਂਪ। ਗੁਣਾਤਮਕ ਡਾਟਾ ਦੇ ਕੁਝ ਉਦਾਹਰਣ ਹਨ: ਵੀਡੀਓ ਟਿੱਪਣੀਆਂ, ਕਾਰ ਦਾ ਮਾਡਲ ਅਤੇ ਬਣਾਉਟ ਜਾਂ ਤੁਹਾਡੇ ਸਭ ਤੋਂ ਨੇੜਲੇ ਦੋਸਤਾਂ ਦਾ ਮਨਪਸੰਦ ਰੰਗ। ਗੁਣਾਤਮਕ ਡਾਟਾ ਦਾ ਵਰਤੋਂ ਕਰਕੇ ਇਹ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਕਿਹੜੇ ਉਤਪਾਦਾਂ ਨੂੰ ਸਭ ਤੋਂ ਵਧੀਆ ਪਸੰਦ ਕਰਦੇ ਹਨ ਜਾਂ ਨੌਕਰੀ ਦੇ ਅਰਜ਼ੀ ਰੂਪਾਂ ਵਿੱਚ ਲੋਕਪ੍ਰਿਯ ਕੀਵਰਡਸ ਦੀ ਪਛਾਣ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
|
|
|
|
### ਸੰਗਠਿਤ ਡਾਟਾ
|
|
ਸੰਗਠਿਤ ਡਾਟਾ ਉਹ ਡਾਟਾ ਹੁੰਦਾ ਹੈ ਜੋ ਕਤਾਰਾਂ ਅਤੇ ਕਾਲਮਾਂ ਵਿੱਚ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ, ਜਿੱਥੇ ਹਰ ਕਤਾਰ ਵਿੱਚ ਇੱਕੋ ਜਿਹੇ ਕਾਲਮ ਹੁੰਦੇ ਹਨ। ਕਾਲਮ ਕਿਸੇ ਵਿਸ਼ੇਸ਼ ਕਿਸਮ ਦੇ ਮੁੱਲ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ ਅਤੇ ਇਸਦਾ ਨਾਮ ਇਸ ਗੱਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮੁੱਲ ਕਿਸ ਚੀਜ਼ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਦਕਿ ਕਤਾਰਾਂ ਵਿੱਚ ਅਸਲ ਮੁੱਲ ਹੁੰਦੇ ਹਨ। ਕਾਲਮਾਂ ਵਿੱਚ ਅਕਸਰ ਮੁੱਲਾਂ 'ਤੇ ਵਿਸ਼ੇਸ਼ ਨਿਯਮ ਜਾਂ ਪਾਬੰਦੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਮੁੱਲ ਸਹੀ ਤੌਰ 'ਤੇ ਕਾਲਮ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਗਾਹਕਾਂ ਦੀ ਇੱਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਦੀ ਕਲਪਨਾ ਕਰੋ ਜਿੱਥੇ ਹਰ ਕਤਾਰ ਵਿੱਚ ਇੱਕ ਫੋਨ ਨੰਬਰ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਫੋਨ ਨੰਬਰਾਂ ਵਿੱਚ ਕਦੇ ਵੀ ਅੱਖਰਮਾਲਾ ਦੇ ਅੱਖਰ ਨਹੀਂ ਹੁੰਦੇ। ਫੋਨ ਨੰਬਰ ਕਾਲਮ 'ਤੇ ਨਿਯਮ ਲਾਗੂ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਤਾਂ ਜੋ ਇਹ ਕਦੇ ਵੀ ਖਾਲੀ ਨਾ ਹੋਵੇ ਅਤੇ ਸਿਰਫ ਗਿਣਤੀ ਵਾਲੇ ਅੰਕਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰੇ।
|
|
|
|
ਸੰਗਠਿਤ ਡਾਟਾ ਦਾ ਇੱਕ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਇਸਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸੰਗਠਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਇਸਨੂੰ ਹੋਰ ਸੰਗਠਿਤ ਡਾਟਾ ਨਾਲ ਜੋੜਿਆ ਜਾ ਸਕੇ। ਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਡਾਟਾ ਨੂੰ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਤਰੀਕੇ ਨਾਲ ਸੰਗਠਿਤ ਕਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਸਦੀ ਕੁੱਲ ਬਣਤਰ ਵਿੱਚ ਬਦਲਾਅ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਮਿਹਨਤ ਲੱਗ ਸਕਦੀ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਗਾਹਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਇੱਕ ਈਮੇਲ ਕਾਲਮ ਸ਼ਾਮਲ ਕਰਨਾ ਜੋ ਖਾਲੀ ਨਹੀਂ ਹੋ ਸਕਦਾ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਪਵੇਗਾ ਕਿ ਤੁਸੀਂ ਡਾਟਾ ਸੈੱਟ ਵਿੱਚ ਮੌਜੂਦਾ ਗਾਹਕਾਂ ਦੀਆਂ ਕਤਾਰਾਂ ਵਿੱਚ ਇਹ ਮੁੱਲ ਕਿਵੇਂ ਸ਼ਾਮਲ ਕਰੋਗੇ।
|
|
|
|
ਸੰਗਠਿਤ ਡਾਟਾ ਦੇ ਉਦਾਹਰਣ: ਸਪ੍ਰੈਡਸ਼ੀਟ, ਰਿਲੇਸ਼ਨਲ ਡਾਟਾਬੇਸ, ਫੋਨ ਨੰਬਰ, ਬੈਂਕ ਸਟੇਟਮੈਂਟ
|
|
|
|
### ਅਸੰਗਠਿਤ ਡਾਟਾ
|
|
ਅਸੰਗਠਿਤ ਡਾਟਾ ਆਮ ਤੌਰ 'ਤੇ ਕਤਾਰਾਂ ਜਾਂ ਕਾਲਮਾਂ ਵਿੱਚ ਵਰਗੀਕਰਿਤ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਅਤੇ ਇਸ ਵਿੱਚ ਕੋਈ ਫਾਰਮੈਟ ਜਾਂ ਨਿਯਮਾਂ ਦਾ ਸੈੱਟ ਨਹੀਂ ਹੁੰਦਾ। ਕਿਉਂਕਿ ਅਸੰਗਠਿਤ ਡਾਟਾ ਦੀ ਬਣਤਰ 'ਤੇ ਘੱਟ ਪਾਬੰਦੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਇਸ ਵਿੱਚ ਨਵੀਂ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਕਰਨਾ ਸੰਗਠਿਤ ਡਾਟਾ ਸੈੱਟ ਦੇ ਮੁਕਾਬਲੇ ਆਸਾਨ ਹੁੰਦਾ ਹੈ। ਜੇਕਰ ਇੱਕ ਸੈਂਸਰ ਜੋ ਹਰ 2 ਮਿੰਟ ਵਿੱਚ ਬੈਰੋਮੈਟ੍ਰਿਕ ਦਬਾਅ ਦਾ ਡਾਟਾ ਕੈਪਚਰ ਕਰਦਾ ਹੈ, ਇਸਨੂੰ ਅਪਡੇਟ ਮਿਲਦਾ ਹੈ ਜੋ ਹੁਣ ਇਸਨੂੰ ਤਾਪਮਾਨ ਮਾਪਣ ਅਤੇ ਰਿਕਾਰਡ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਅਸੰਗਠਿਤ ਹੋਣ 'ਤੇ ਮੌਜੂਦਾ ਡਾਟਾ ਨੂੰ ਬਦਲਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ। ਹਾਲਾਂਕਿ, ਇਸ ਕਿਸਮ ਦੇ ਡਾਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ ਜਾਂਚ ਕਰਨ ਵਿੱਚ ਜ਼ਿਆਦਾ ਸਮਾਂ ਲੱਗ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਵਿਗਿਆਨੀ ਜੋ ਪਿਛਲੇ ਮਹੀਨੇ ਦੇ ਸੈਂਸਰ ਡਾਟਾ ਤੋਂ ਔਸਤ ਤਾਪਮਾਨ ਪਤਾ ਲਗਾਉਣਾ ਚਾਹੁੰਦਾ ਹੈ, ਪਰ ਪਤਾ ਲਗਾਉਂਦਾ ਹੈ ਕਿ ਸੈਂਸਰ ਨੇ ਆਪਣੇ ਕੁਝ ਰਿਕਾਰਡ ਕੀਤੇ ਡਾਟਾ ਵਿੱਚ "e" ਦਰਸਾਇਆ ਹੈ ਕਿ ਇਹ ਟੁੱਟਿਆ ਹੋਇਆ ਸੀ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਡਾਟਾ ਅਧੂਰਾ ਹੈ।
|
|
|
|
ਅਸੰਗਠਿਤ ਡਾਟਾ ਦੇ ਉਦਾਹਰਣ: ਟੈਕਸਟ ਫਾਈਲਾਂ, ਟੈਕਸਟ ਮੈਸੇਜ, ਵੀਡੀਓ ਫਾਈਲਾਂ
|
|
|
|
### ਅਰਧ-ਸੰਗਠਿਤ
|
|
ਅਰਧ-ਸੰਗਠਿਤ ਡਾਟਾ ਵਿੱਚ ਉਹ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ ਜੋ ਇਸਨੂੰ ਸੰਗਠਿਤ ਅਤੇ ਅਸੰਗਠਿਤ ਡਾਟਾ ਦੇ ਮਿਲੇ-ਜੁਲੇ ਰੂਪ ਵਜੋਂ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਕਤਾਰਾਂ ਅਤੇ ਕਾਲਮਾਂ ਦੇ ਫਾਰਮੈਟ ਨੂੰ ਪਾਲਣ ਨਹੀਂ ਕਰਦਾ ਪਰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ ਜੋ ਸੰਗਠਿਤ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇੱਕ ਨਿਰਧਾਰਤ ਫਾਰਮੈਟ ਜਾਂ ਨਿਯਮਾਂ ਦੇ ਸੈੱਟ ਨੂੰ ਪਾਲਣ ਕਰ ਸਕਦਾ ਹੈ। ਬਣਤਰ ਸਰੋਤਾਂ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਹੋਵੇਗੀ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪਰਿਭਾਸ਼ਿਤ ਹਾਇਰਾਰਕੀ ਤੋਂ ਕੁਝ ਹੋਰ ਲਚਕਦਾਰ ਚੀਜ਼ ਜੋ ਨਵੀਂ ਜਾਣਕਾਰੀ ਦੇ ਆਸਾਨ ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਮੈਟਾਡਾਟਾ ਸੰਕੇਤਕ ਹੁੰਦੇ ਹਨ ਜੋ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਕਿ ਡਾਟਾ ਕਿਵੇਂ ਸੰਗਠਿਤ ਅਤੇ ਸਟੋਰ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਡਾਟਾ ਦੀ ਕਿਸਮ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਨਾਮ ਹੋਣਗੇ। ਮੈਟਾਡਾਟਾ ਦੇ ਕੁਝ ਆਮ ਨਾਮ ਹਨ: ਟੈਗ, ਐਲਿਮੈਂਟ, ਐਨਟੀਟੀ ਅਤੇ ਐਟ੍ਰਿਬਿਊਟ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਆਮ ਈਮੇਲ ਸੁਨੇਹਾ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ਾ, ਬਾਡੀ ਅਤੇ ਪ੍ਰਾਪਤਕਰਤਾਵਾਂ ਦਾ ਸੈੱਟ ਹੁੰਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਇਸ ਗੱਲ ਦੇ ਆਧਾਰ 'ਤੇ ਸੰਗਠਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਇਹ ਕੌਣ ਭੇਜਦਾ ਹੈ ਜਾਂ ਕਦੋਂ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ।
|
|
|
|
ਅਰਧ-ਸੰਗਠਿਤ ਡਾਟਾ ਦੇ ਉਦਾਹਰਣ: HTML, CSV ਫਾਈਲਾਂ, ਜਾਵਾਸਕ੍ਰਿਪਟ ਓਬਜੈਕਟ ਨੋਟੇਸ਼ਨ (JSON)
|
|
|
|
## ਡਾਟਾ ਦੇ ਸਰੋਤ
|
|
|
|
ਡਾਟਾ ਸਰੋਤ ਉਹ ਸ਼ੁਰੂਆਤੀ ਸਥਾਨ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਬਣਾਇਆ ਗਿਆ ਸੀ ਜਾਂ ਜਿੱਥੇ ਇਹ "ਰਹਿੰਦਾ" ਹੈ ਅਤੇ ਇਹ ਇਸ ਗੱਲ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਹੋਵੇਗਾ ਕਿ ਇਹ ਕਿਵੇਂ ਅਤੇ ਕਦੋਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ। ਵਰਤੋਂਕਾਰਾਂ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਡਾਟਾ ਪ੍ਰਾਇਮਰੀ ਡਾਟਾ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ ਜਦਕਿ ਸੈਕੰਡਰੀ ਡਾਟਾ ਇੱਕ ਸਰੋਤ ਤੋਂ ਆਉਂਦਾ ਹੈ ਜਿਸਨੇ ਆਮ ਵਰਤੋਂ ਲਈ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਗਰਮ ਜੰਗਲ ਵਿੱਚ ਅਵਲੋਕਨ ਇਕੱਠੇ ਕਰਨ ਵਾਲੇ ਵਿਗਿਆਨੀਆਂ ਦੇ ਇੱਕ ਸਮੂਹ ਨੂੰ ਪ੍ਰਾਇਮਰੀ ਮੰਨਿਆ ਜਾਵੇਗਾ ਅਤੇ ਜੇਕਰ ਉਹ ਇਸਨੂੰ ਹੋਰ ਵਿਗਿਆਨੀਆਂ ਨਾਲ ਸਾਂਝਾ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਤਾਂ ਇਹ ਉਹਨਾਂ ਲਈ ਸੈਕੰਡਰੀ ਮੰਨਿਆ ਜਾਵੇਗਾ ਜੋ ਇਸਨੂੰ ਵਰਤਦੇ ਹਨ।
|
|
|
|
ਡਾਟਾਬੇਸ ਇੱਕ ਆਮ ਸਰੋਤ ਹੁੰਦੇ ਹਨ ਅਤੇ ਡਾਟਾ ਨੂੰ ਹੋਸਟ ਅਤੇ ਰੱਖਣ ਲਈ ਡਾਟਾਬੇਸ ਮੈਨੇਜਮੈਂਟ ਸਿਸਟਮ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਜਿੱਥੇ ਵਰਤੋਂਕਾਰ ਕਮਾਂਡਾਂ ਨੂੰ ਕਵੈਰੀਜ਼ ਕਹਿੰਦੇ ਹਨ ਜੋ ਡਾਟਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਫਾਈਲਾਂ ਡਾਟਾ ਸਰੋਤ ਵਜੋਂ ਆਡੀਓ, ਚਿੱਤਰ ਅਤੇ ਵੀਡੀਓ ਫਾਈਲਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜਿਵੇਂ ਕਿ Excel ਵਰਗੀਆਂ ਸਪ੍ਰੈਡਸ਼ੀਟ। ਇੰਟਰਨੈਟ ਸਰੋਤ ਡਾਟਾ ਨੂੰ ਹੋਸਟ ਕਰਨ ਲਈ ਇੱਕ ਆਮ ਸਥਾਨ ਹਨ, ਜਿੱਥੇ ਡਾਟਾਬੇਸਾਂ ਅਤੇ ਫਾਈਲਾਂ ਦੋਵੇਂ ਮਿਲ ਸਕਦੇ ਹਨ। ਐਪਲੀਕੇਸ਼ਨ ਪ੍ਰੋਗਰਾਮਿੰਗ ਇੰਟਰਫੇਸ, ਜਿਸਨੂੰ APIs ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਪ੍ਰੋਗਰਾਮਰਾਂ ਨੂੰ ਇੰਟਰਨੈਟ ਦੁਆਰਾ ਬਾਹਰੀ ਵਰਤੋਂਕਾਰਾਂ ਨਾਲ ਡਾਟਾ ਸਾਂਝਾ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ, ਜਦਕਿ ਵੈੱਬ ਸਕ੍ਰੈਪਿੰਗ ਇੱਕ ਵੈੱਬ ਪੇਜ ਤੋਂ ਡਾਟਾ ਕੱਢਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ। [ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਵਾਲੇ ਪਾਠ](../../../../../../../../../2-Working-With-Data) ਇਸ ਗੱਲ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ ਕਿ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਸਰੋਤਾਂ ਨੂੰ ਕਿਵੇਂ ਵਰਤਿਆ ਜਾਵੇ।
|
|
|
|
## ਨਿਸ਼ਕਰਸ਼
|
|
|
|
ਇਸ ਪਾਠ ਵਿੱਚ ਅਸੀਂ ਸਿੱਖਿਆ:
|
|
|
|
- ਡਾਟਾ ਕੀ ਹੈ
|
|
- ਡਾਟਾ ਕਿਵੇਂ ਵਰਣਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
|
|
- ਡਾਟਾ ਕਿਵੇਂ ਵਰਗੀਕਰਿਤ ਅਤੇ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
|
|
- ਡਾਟਾ ਕਿੱਥੇ ਮਿਲ ਸਕਦਾ ਹੈ
|
|
|
|
## 🚀 ਚੁਣੌਤੀ
|
|
|
|
Kaggle ਖੁੱਲ੍ਹੇ ਡਾਟਾ ਸੈੱਟਾਂ ਦਾ ਇੱਕ ਸ਼ਾਨਦਾਰ ਸਰੋਤ ਹੈ। [ਡਾਟਾ ਸੈੱਟ ਖੋਜ ਟੂਲ](https://www.kaggle.com/datasets) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੁਝ ਦਿਲਚਸਪ ਡਾਟਾ ਸੈੱਟ ਲੱਭੋ ਅਤੇ 3-5 ਡਾਟਾ ਸੈੱਟਾਂ ਨੂੰ ਇਸ ਮਾਪਦੰਡ ਨਾਲ ਵਰਗੀਕਰਿਤ ਕਰੋ:
|
|
|
|
- ਕੀ ਡਾਟਾ ਮਾਤਰਾਤਮਕ ਹੈ ਜਾਂ ਗੁਣਾਤਮਕ?
|
|
- ਕੀ ਡਾਟਾ ਸੰਗਠਿਤ, ਅਸੰਗਠਿਤ ਜਾਂ ਅਰਧ-ਸੰਗਠਿਤ ਹੈ?
|
|
|
|
## [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/5)
|
|
|
|
## ਸਮੀਖਿਆ ਅਤੇ ਸਵੈ-ਅਧਿਐਨ
|
|
|
|
- Microsoft Learn ਦੀ ਇਹ ਯੂਨਿਟ, ਜਿਸਦਾ ਸਿਰਲੇਖ [ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਵਰਗੀਕਰਿਤ ਕਰੋ](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) ਹੈ, ਸੰਗਠਿਤ, ਅਰਧ-ਸੰਗਠਿਤ ਅਤੇ ਅਸੰਗਠਿਤ ਡਾਟਾ ਦਾ ਵਿਸਤ੍ਰਿਤ ਵਿਵਰਣ ਦਿੰਦੀ ਹੈ।
|
|
|
|
## ਅਸਾਈਨਮੈਂਟ
|
|
|
|
[ਡਾਟਾ ਸੈੱਟਾਂ ਦੀ ਵਰਗੀਕਰਨ](assignment.md)
|
|
|
|
---
|
|
|
|
**ਅਸਵੀਕਤੀ**:
|
|
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। |