You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/pa/1-Introduction/03-defining-data/README.md

20 KiB

ਡਾਟਾ ਦੀ ਪਰਿਭਾਸ਼ਾ

 Sketchnote by (@sketchthedocs)
ਡਾਟਾ ਦੀ ਪਰਿਭਾਸ਼ਾ - ਸਕੇਚਨੋਟ ਦੁਆਰਾ @nitya

ਡਾਟਾ ਤੱਥ, ਜਾਣਕਾਰੀ, ਅਧਿਐਨ ਅਤੇ ਮਾਪ ਹਨ ਜੋ ਖੋਜਾਂ ਕਰਨ ਅਤੇ ਜਾਣੂ ਫੈਸਲੇ ਲੈਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ। ਇੱਕ ਡਾਟਾ ਪੌਇੰਟ ਇੱਕ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਡਾਟਾ ਦੀ ਇੱਕ ਇਕਾਈ ਹੁੰਦੀ ਹੈ, ਜੋ ਕਿ ਡਾਟਾ ਪੌਇੰਟਸ ਦਾ ਇਕੱਠ ਹੈ। ਡਾਟਾਸੈੱਟ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟਾਂ ਅਤੇ ਢਾਂਚਿਆਂ ਵਿੱਚ ਆ ਸਕਦੇ ਹਨ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਸਦੇ ਸਰੋਤ ਜਾਂ ਜਿੱਥੋਂ ਡਾਟਾ ਆਇਆ ਹੈ, ਉਸ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਕੰਪਨੀ ਦੀ ਮਹੀਨਾਵਾਰ ਕਮਾਈ ਇੱਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਹੋ ਸਕਦੀ ਹੈ ਪਰ ਇੱਕ ਸਮਾਰਟਵਾਚ ਤੋਂ ਆਉਣ ਵਾਲੇ ਘੰਟਾਵਾਰ ਦਿਲ ਦੀ ਧੜਕਣ ਦੇ ਡਾਟਾ ਨੂੰ JSON ਫਾਰਮੈਟ ਵਿੱਚ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ ਆਮ ਗੱਲ ਹੈ ਕਿ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਇੱਕ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੇ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ।

ਇਹ ਪਾਠ ਡਾਟਾ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਇਸਦੇ ਸਰੋਤਾਂ ਦੁਆਰਾ ਇਸਨੂੰ ਪਛਾਣਨ ਅਤੇ ਵਰਗੀਕ੍ਰਿਤ ਕਰਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ।

ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼

ਡਾਟਾ ਨੂੰ ਕਿਵੇਂ ਵਰਣਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ

ਕੱਚਾ ਡਾਟਾ

ਕੱਚਾ ਡਾਟਾ ਉਹ ਡਾਟਾ ਹੈ ਜੋ ਆਪਣੇ ਸਰੋਤ ਤੋਂ ਆਪਣੇ ਸ਼ੁਰੂਆਤੀ ਰੂਪ ਵਿੱਚ ਆਇਆ ਹੈ ਅਤੇ ਜਿਸਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ ਸੰਗਠਨ ਨਹੀਂ ਕੀਤਾ ਗਿਆ। ਇੱਕ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਕੀ ਹੋ ਰਿਹਾ ਹੈ, ਇਸਨੂੰ ਸਮਝਣ ਲਈ, ਇਸਨੂੰ ਇੱਕ ਅਜਿਹੇ ਫਾਰਮੈਟ ਵਿੱਚ ਸੰਗਠਿਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜੋ ਮਨੁੱਖਾਂ ਅਤੇ ਉਹਨਾਂ ਤਕਨਾਲੋਜੀਆਂ ਦੁਆਰਾ ਸਮਝਿਆ ਜਾ ਸਕੇ ਜੋ ਇਸਦਾ ਅਗਲੇ ਪੜਾਅ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਇੱਕ ਡਾਟਾਸੈੱਟ ਦੀ ਸਟ੍ਰਕਚਰ ਇਸਦੀ ਸੰਗਠਨਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸਟ੍ਰਕਚਰਡ, ਅਨਸਟ੍ਰਕਚਰਡ ਅਤੇ ਸੈਮੀ-ਸਟ੍ਰਕਚਰਡ ਵਿੱਚ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਢਾਂਚੇ ਸਰੋਤ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੇ ਹਨ ਪਰ ਆਖਰਕਾਰ ਇਹ ਤਿੰਨ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਆਉਂਦੇ ਹਨ।

ਮਾਤਰਾਤਮਕ ਡਾਟਾ

ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਇੱਕ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਗਿਣਤੀਯੋਗ ਅਧਿਐਨ ਹੁੰਦੇ ਹਨ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਸਦਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਮਾਪ ਅਤੇ ਗਣਿਤੀਕ ਤੌਰ 'ਤੇ ਵਰਤੋਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਦੇ ਕੁਝ ਉਦਾਹਰਣ ਹਨ: ਇੱਕ ਦੇਸ਼ ਦੀ ਆਬਾਦੀ, ਇੱਕ ਵਿਅਕਤੀ ਦੀ ਉਚਾਈ ਜਾਂ ਇੱਕ ਕੰਪਨੀ ਦੀ ਤਿਮਾਹੀ ਕਮਾਈ। ਕੁਝ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਨਾਲ, ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਦਾ ਵਰਤੋਂ ਕਰਕੇ ਹਵਾ ਗੁਣਵੱਤਾ ਸੂਚਕ (AQI) ਦੇ ਮੌਸਮੀ ਰੁਝਾਨਾਂ ਦੀ ਖੋਜ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜਾਂ ਇੱਕ ਆਮ ਕੰਮਕਾਜ ਦੇ ਦਿਨ ਦੌਰਾਨ ਟ੍ਰੈਫਿਕ ਦੇ ਸੰਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।

ਗੁਣਾਤਮਕ ਡਾਟਾ

ਗੁਣਾਤਮਕ ਡਾਟਾ, ਜਿਸਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਡਾਟਾ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਉਹ ਡਾਟਾ ਹੈ ਜੋ ਮਾਤਰਾਤਮਕ ਡਾਟਾ ਦੇ ਅਧਿਐਨ ਵਾਂਗ ਨਿਰਪੱਖ ਤੌਰ 'ਤੇ ਮਾਪਿਆ ਨਹੀਂ ਜਾ ਸਕਦਾ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਹੋਣ ਵਾਲਾ ਵਿਸ਼ੇਸ਼ਤਮਕ ਡਾਟਾ ਹੁੰਦਾ ਹੈ ਜੋ ਕਿਸੇ ਚੀਜ਼ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਉਤਪਾਦ ਜਾਂ ਪ੍ਰਕਿਰਿਆ। ਕਈ ਵਾਰ, ਗੁਣਾਤਮਕ ਡਾਟਾ ਗਿਣਤੀਯੋਗ ਹੁੰਦਾ ਹੈ ਪਰ ਆਮ ਤੌਰ 'ਤੇ ਗਣਿਤੀਕ ਤੌਰ 'ਤੇ ਵਰਤਿਆ ਨਹੀਂ ਜਾਂਦਾ, ਜਿਵੇਂ ਕਿ ਫੋਨ ਨੰਬਰ ਜਾਂ ਟਾਈਮਸਟੈਂਪ। ਗੁਣਾਤਮਕ ਡਾਟਾ ਦੇ ਕੁਝ ਉਦਾਹਰਣ ਹਨ: ਵੀਡੀਓ ਟਿੱਪਣੀਆਂ, ਕਾਰ ਦਾ ਮਾਡਲ ਜਾਂ ਤੁਹਾਡੇ ਸਭ ਤੋਂ ਨੇੜਲੇ ਦੋਸਤਾਂ ਦਾ ਮਨਪਸੰਦ ਰੰਗ। ਗੁਣਾਤਮਕ ਡਾਟਾ ਦਾ ਵਰਤੋਂ ਕਰਕੇ ਇਹ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਕਿਹੜੇ ਉਤਪਾਦ ਸਭ ਤੋਂ ਵਧੀਆ ਲੱਗਦੇ ਹਨ ਜਾਂ ਨੌਕਰੀ ਦੇ ਅਰਜ਼ੀ ਰੈਜ਼ੂਮੇ ਵਿੱਚ ਲੋਕਪ੍ਰਿਯ ਕੁੰਜੀਸ਼ਬਦਾਂ ਦੀ ਪਛਾਣ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।

ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ

ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਉਹ ਡਾਟਾ ਹੈ ਜੋ ਕਤਾਰਾਂ ਅਤੇ ਕਾਲਮਾਂ ਵਿੱਚ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ, ਜਿੱਥੇ ਹਰ ਕਤਾਰ ਵਿੱਚ ਇੱਕੋ ਜਿਹੇ ਕਾਲਮਾਂ ਦਾ ਸੈੱਟ ਹੁੰਦਾ ਹੈ। ਕਾਲਮ ਕਿਸੇ ਖਾਸ ਕਿਸਮ ਦੇ ਮੁੱਲ ਦਾ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦੇ ਹਨ ਅਤੇ ਇਹਨਾਂ ਨੂੰ ਇੱਕ ਨਾਮ ਨਾਲ ਪਛਾਣਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮੁੱਲ ਕੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦਾ ਹੈ, ਜਦਕਿ ਕਤਾਰਾਂ ਵਿੱਚ ਅਸਲ ਮੁੱਲ ਹੁੰਦੇ ਹਨ। ਕਾਲਮਾਂ ਵਿੱਚ ਅਕਸਰ ਮੁੱਲਾਂ 'ਤੇ ਖਾਸ ਨਿਯਮ ਜਾਂ ਪਾਬੰਦੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਮੁੱਲ ਸਹੀ ਤੌਰ 'ਤੇ ਕਾਲਮ ਦੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਗਾਹਕਾਂ ਦੀ ਇੱਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਦੀ ਕਲਪਨਾ ਕਰੋ ਜਿੱਥੇ ਹਰ ਕਤਾਰ ਵਿੱਚ ਇੱਕ ਫੋਨ ਨੰਬਰ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਫੋਨ ਨੰਬਰ ਕਦੇ ਵੀ ਅੱਖਰਮਾਲਾ ਅੱਖਰ ਨਹੀਂ ਰੱਖਦੇ।

ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦਾ ਇੱਕ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਇਸਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸੰਗਠਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਇਸਨੂੰ ਹੋਰ ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਨਾਲ ਜੋੜਿਆ ਜਾ ਸਕੇ। ਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਡਾਟਾ ਨੂੰ ਖਾਸ ਤਰੀਕੇ ਨਾਲ ਸੰਗਠਿਤ ਕਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਸਦੇ ਕੁੱਲ ਢਾਂਚੇ ਵਿੱਚ ਬਦਲਾਅ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਮਿਹਨਤ ਲੱਗ ਸਕਦੀ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਗਾਹਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਇੱਕ ਈਮੇਲ ਕਾਲਮ ਸ਼ਾਮਲ ਕਰਨਾ ਜੋ ਖਾਲੀ ਨਹੀਂ ਹੋ ਸਕਦਾ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਪਵੇਗਾ ਕਿ ਤੁਸੀਂ ਮੌਜੂਦਾ ਗਾਹਕਾਂ ਦੀਆਂ ਕਤਾਰਾਂ ਵਿੱਚ ਇਹ ਮੁੱਲ ਕਿਵੇਂ ਸ਼ਾਮਲ ਕਰੋਗੇ।

ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦੇ ਉਦਾਹਰਣ: ਸਪ੍ਰੈਡਸ਼ੀਟ, ਰਿਲੇਸ਼ਨਲ ਡਾਟਾਬੇਸ, ਫੋਨ ਨੰਬਰ, ਬੈਂਕ ਸਟੇਟਮੈਂਟ

ਅਨਸਟ੍ਰਕਚਰਡ ਡਾਟਾ

ਅਨਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਆਮ ਤੌਰ 'ਤੇ ਕਤਾਰਾਂ ਜਾਂ ਕਾਲਮਾਂ ਵਿੱਚ ਵਰਗੀਕ੍ਰਿਤ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਅਤੇ ਇਸ ਵਿੱਚ ਕੋਈ ਫਾਰਮੈਟ ਜਾਂ ਨਿਯਮਾਂ ਦਾ ਸੈੱਟ ਨਹੀਂ ਹੁੰਦਾ। ਕਿਉਂਕਿ ਅਨਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦੇ ਢਾਂਚੇ 'ਤੇ ਘੱਟ ਪਾਬੰਦੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਇਸਨੂੰ ਸਟ੍ਰਕਚਰਡ ਡਾਟਾਸੈੱਟ ਦੇ ਮੁਕਾਬਲੇ ਨਵੀਂ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਕਰਨਾ ਆਸਾਨ ਹੁੰਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਜੇਕਰ ਇੱਕ ਸੈਂਸਰ ਜੋ ਹਰ 2 ਮਿੰਟ ਬਾਅਦ ਵਾਤਾਵਰਣ ਦਬਾਅ ਦਾ ਡਾਟਾ ਕੈਪਚਰ ਕਰਦਾ ਹੈ, ਹੁਣ ਇਸਨੂੰ ਤਾਪਮਾਨ ਮਾਪਣ ਅਤੇ ਰਿਕਾਰਡ ਕਰਨ ਦੀ ਅਪਡੇਟ ਮਿਲਦੀ ਹੈ, ਤਾਂ ਜੇਕਰ ਇਹ ਅਨਸਟ੍ਰਕਚਰਡ ਹੈ ਤਾਂ ਮੌਜੂਦਾ ਡਾਟਾ ਨੂੰ ਬਦਲਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ। ਹਾਲਾਂਕਿ, ਇਸ ਕਿਸਮ ਦੇ ਡਾਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ ਜਾਂਚ ਕਰਨ ਵਿੱਚ ਜ਼ਿਆਦਾ ਸਮਾਂ ਲੱਗ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਵਿਗਿਆਨੀ ਜੋ ਪਿਛਲੇ ਮਹੀਨੇ ਦੇ ਸੈਂਸਰ ਡਾਟਾ ਤੋਂ ਔਸਤ ਤਾਪਮਾਨ ਪਤਾ ਲਗਾਉਣਾ ਚਾਹੁੰਦਾ ਹੈ, ਪਰ ਪਤਾ ਲਗਦਾ ਹੈ ਕਿ ਸੈਂਸਰ ਨੇ ਆਪਣੇ ਕੁਝ ਡਾਟਾ ਵਿੱਚ "e" ਰਿਕਾਰਡ ਕੀਤਾ ਹੈ ਇਹ ਦਰਸਾਉਣ ਲਈ ਕਿ ਇਹ ਟੁੱਟਿਆ ਹੋਇਆ ਸੀ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਡਾਟਾ ਅਧੂਰਾ ਹੈ।

ਅਨਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦੇ ਉਦਾਹਰਣ: ਟੈਕਸਟ ਫਾਈਲਾਂ, ਟੈਕਸਟ ਮੈਸੇਜ, ਵੀਡੀਓ ਫਾਈਲਾਂ

ਸੈਮੀ-ਸਟ੍ਰਕਚਰਡ

ਸੈਮੀ-ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਵਿੱਚ ਅਜਿਹੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ ਜੋ ਇਸਨੂੰ ਸਟ੍ਰਕਚਰਡ ਅਤੇ ਅਨਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦਾ ਮਿਲਾਪ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਕਤਾਰਾਂ ਅਤੇ ਕਾਲਮਾਂ ਦੇ ਫਾਰਮੈਟ ਦਾ ਪਾਲਣ ਨਹੀਂ ਕਰਦਾ ਪਰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ ਜੋ ਸਟ੍ਰਕਚਰਡ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਹ ਕਿਸੇ ਨਿਰਧਾਰਿਤ ਫਾਰਮੈਟ ਜਾਂ ਨਿਯਮਾਂ ਦੇ ਸੈੱਟ ਦਾ ਪਾਲਣ ਕਰ ਸਕਦਾ ਹੈ। ਢਾਂਚਾ ਸਰੋਤਾਂ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਹੋਵੇਗਾ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪਰਿਭਾਸ਼ਿਤ ਹਾਇਰਾਰਕੀ ਤੋਂ ਕੁਝ ਹੋਰ ਲਚਕੀਲਾ ਜੋ ਨਵੀਂ ਜਾਣਕਾਰੀ ਦੇ ਆਸਾਨ ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਮੈਟਾਡੇਟਾ ਸੰਕੇਤਕ ਹਨ ਜੋ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਕਿ ਡਾਟਾ ਕਿਵੇਂ ਸੰਗਠਿਤ ਅਤੇ ਸਟੋਰ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਇਹ ਡਾਟਾ ਦੀ ਕਿਸਮ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਨਾਮਾਂ ਰੱਖੇਗਾ। ਮੈਟਾਡੇਟਾ ਦੇ ਕੁਝ ਆਮ ਨਾਮ ਹਨ: ਟੈਗ, ਐਲੀਮੈਂਟ, ਐਨਟੀਟੀਜ਼ ਅਤੇ ਐਟ੍ਰਿਬਿਊਟ। ਉਦਾਹਰਣ ਲਈ, ਇੱਕ ਆਮ ਈਮੇਲ ਸੁਨੇਹਾ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ਾ, ਬਾਡੀ ਅਤੇ ਪ੍ਰਾਪਤਕਰਤਾਵਾਂ ਦਾ ਸੈੱਟ ਹੁੰਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਇਸਦੇ ਭੇਜਣ ਵਾਲੇ ਜਾਂ ਭੇਜਣ ਦੇ ਸਮੇਂ ਦੁਆਰਾ ਸੰਗਠਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਸੈਮੀ-ਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦੇ ਉਦਾਹਰਣ: HTML, CSV ਫਾਈਲਾਂ, ਜਾਵਾਸਕ੍ਰਿਪਟ ਓਬਜੈਕਟ ਨੋਟੇਸ਼ਨ (JSON)

ਡਾਟਾ ਦੇ ਸਰੋਤ

ਡਾਟਾ ਸਰੋਤ ਉਹ ਸ਼ੁਰੂਆਤੀ ਸਥਾਨ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ ਜਾਂ ਜਿੱਥੇ ਇਹ "ਰਹਿੰਦਾ" ਹੈ ਅਤੇ ਇਹ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰੇਗਾ ਕਿ ਇਹ ਕਿਵੇਂ ਅਤੇ ਕਦੋਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ। ਵਰਤੋਂਕਾਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਡਾਟਾ ਪ੍ਰਾਇਮਰੀ ਡਾਟਾ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਜਦਕਿ ਸੈਕੰਡਰੀ ਡਾਟਾ ਉਸ ਸਰੋਤ ਤੋਂ ਆਉਂਦਾ ਹੈ ਜਿਸਨੇ ਆਮ ਵਰਤੋਂ ਲਈ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਜੰਗਲ ਵਿੱਚ ਅਧਿਐਨ ਕਰਨ ਵਾਲੇ ਵਿਗਿਆਨੀਆਂ ਦਾ ਇੱਕ ਸਮੂਹ ਪ੍ਰਾਇਮਰੀ ਮੰਨਿਆ ਜਾਵੇਗਾ ਅਤੇ ਜੇਕਰ ਉਹ ਇਸਨੂੰ ਹੋਰ ਵਿਗਿਆਨੀਆਂ ਨਾਲ ਸਾਂਝਾ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਤਾਂ ਇਹ ਉਹਨਾਂ ਲਈ ਸੈਕੰਡਰੀ ਮੰਨਿਆ ਜਾਵੇਗਾ ਜੋ ਇਸਦਾ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।

ਡਾਟਾਬੇਸ ਇੱਕ ਆਮ ਸਰੋਤ ਹਨ ਅਤੇ ਡਾਟਾ ਨੂੰ ਹੋਸਟ ਅਤੇ ਰੱਖਣ ਲਈ ਡਾਟਾਬੇਸ ਮੈਨੇਜਮੈਂਟ ਸਿਸਟਮ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਜਿੱਥੇ ਵਰਤੋਂਕਾਰ ਕਮਾਂਡਾਂ ਨੂੰ ਕਵੈਰੀਜ਼ ਕਹਿੰਦੇ ਹਨ ਜੋ ਡਾਟਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਫਾਈਲਾਂ ਦੇ ਤੌਰ 'ਤੇ ਡਾਟਾ ਸਰੋਤ ਆਡੀਓ, ਚਿੱਤਰ ਅਤੇ ਵੀਡੀਓ ਫਾਈਲਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜਿਵੇਂ ਕਿ ਐਕਸਲ ਸਪ੍ਰੈਡਸ਼ੀਟ। ਇੰਟਰਨੈਟ ਸਰੋਤ ਡਾਟਾ ਦੀ ਮਿਜ਼ਬਾਨੀ ਲਈ ਇੱਕ ਆਮ ਸਥਾਨ ਹਨ, ਜਿੱਥੇ ਡਾਟਾਬੇਸਾਂ ਅਤੇ ਫਾਈਲਾਂ ਦੋਵੇਂ ਮਿਲ ਸਕਦੀਆਂ ਹਨ। ਐਪਲੀਕੇਸ਼ਨ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਇੰਟਰਫੇਸ, ਜਿਸਨੂੰ API ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਪ੍ਰੋਗ੍ਰਾਮਰਾਂ ਨੂੰ ਇੰਟਰਨੈਟ ਦੁਆਰਾ ਬਾਹਰੀ ਵਰਤੋਂਕਾਰਾਂ ਨਾਲ ਡਾਟਾ ਸਾਂਝਾ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ, ਜਦਕਿ ਵੈੱਬ ਸਕ੍ਰੈਪਿੰਗ ਇੱਕ ਵੈੱਬ ਪੇਜ ਤੋਂ ਡਾਟਾ ਕੱਢਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਵਾਲੇ ਪਾਠ ਇਸ ਗੱਲ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ ਕਿ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਸਰੋਤਾਂ ਨੂੰ ਕਿਵੇਂ ਵਰਤਿਆ ਜਾਵੇ।

ਨਿਸ਼ਕਰਸ਼

ਇਸ ਪਾਠ ਵਿੱਚ ਅਸੀਂ ਸਿੱਖਿਆ ਹੈ:

  • ਡਾਟਾ ਕੀ ਹੈ
  • ਡਾਟਾ ਨੂੰ ਕਿਵੇਂ ਵਰਣਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
  • ਡਾਟਾ ਨੂੰ ਕਿਵੇਂ ਵਰਗੀਕ੍ਰਿਤ ਅਤੇ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
  • ਡਾਟਾ ਕਿੱਥੇ ਮਿਲ ਸਕਦਾ ਹੈ

🚀 ਚੁਣੌਤੀ

Kaggle ਖੁੱਲ੍ਹੇ ਡਾਟਾਸੈੱਟਾਂ ਦਾ ਇੱਕ ਸ਼ਾਨਦਾਰ ਸਰੋਤ ਹੈ। ਡਾਟਾਸੈੱਟ ਖੋਜ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੁਝ ਦਿਲਚਸਪ ਡਾਟਾਸੈੱਟ ਲੱਭੋ ਅਤੇ 3-5 ਡਾਟਾਸੈੱਟਾਂ ਨੂੰ ਇਸ ਮਾਪਦੰਡ ਨਾਲ ਵਰਗੀਕ੍ਰਿਤ ਕਰੋ:

  • ਕੀ ਡਾਟਾ ਮਾਤਰਾਤਮਕ ਹੈ ਜਾਂ ਗੁਣਾਤਮਕ?
  • ਕੀ ਡਾਟਾ ਸਟ੍ਰਕਚਰਡ, ਅਨਸਟ੍ਰਕਚਰਡ ਜਾਂ ਸੈਮੀ-ਸਟ੍ਰਕਚਰਡ ਹੈ?

ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼

ਸਮੀਖਿਆ ਅਤੇ ਸਵੈ ਅਧਿਐਨ

  • ਮਾਈਕਰੋਸਾਫਟ ਲਰਨ ਯੂਨਿਟ, ਜਿਸਦਾ ਸਿਰਲੇਖ ਹੈ ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਵਰਗੀਕ੍ਰਿਤ ਕਰੋ, ਸਟ੍ਰਕਚਰਡ, ਸੈਮੀ-ਸਟ੍ਰਕਚਰਡ ਅਤੇ ਅਨਸਟ੍ਰਕਚਰਡ ਡਾਟਾ ਦਾ ਵਿਸਤ੍ਰਿਤ ਵਿਵਰਣ ਦਿੰਦਾ ਹੈ।

ਅਸਾਈਨਮੈਂਟ

ਡਾਟਾਸੈੱਟਾਂ ਦੀ ਵਰਗੀਕਰਨ


ਅਸਵੀਕਤੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁੱਤੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਇਸ ਦਸਤਾਵੇਜ਼ ਦਾ ਮੂਲ ਰੂਪ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।