20 KiB
डेटा परिभाषित गर्दै
![]() |
---|
डेटा परिभाषित गर्दै - Sketchnote by @nitya |
डेटा भनेको तथ्यहरू, जानकारी, अवलोकनहरू र मापनहरू हुन् जसले खोजहरू गर्न र सूचित निर्णयहरूलाई समर्थन गर्न प्रयोग गरिन्छ। डेटा पोइन्ट भनेको डेटासेटभित्रको एकल इकाई हो, जुन डेटा पोइन्टहरूको संग्रह हो। डेटासेटहरू विभिन्न ढाँचाहरू र संरचनाहरूमा आउन सक्छन्, र सामान्यतया यसको स्रोत, अर्थात् डेटा कहाँबाट आएको हो, मा आधारित हुनेछ। उदाहरणका लागि, कुनै कम्पनीको मासिक आम्दानी स्प्रेडशीटमा हुन सक्छ तर स्मार्टवाचबाट घण्टाको हृदय दर डेटा JSON ढाँचामा हुन सक्छ। डेटा वैज्ञानिकहरूले डेटासेटभित्र विभिन्न प्रकारका डेटा संग काम गर्नु सामान्य हो।
यो पाठले डेटा यसको विशेषताहरू र स्रोतहरूद्वारा पहिचान र वर्गीकरणमा केन्द्रित छ।
Pre-Lecture Quiz
डेटा कसरी वर्णन गरिन्छ
कच्चा डेटा
कच्चा डेटा भनेको यसको स्रोतबाट आएको प्रारम्भिक अवस्थाको डेटा हो जसलाई विश्लेषण वा व्यवस्थित गरिएको छैन। डेटासेटमा के भइरहेको छ भन्ने बुझ्नको लागि, यसलाई मानवहरूद्वारा साथै उनीहरूले थप विश्लेषण गर्न प्रयोग गर्न सक्ने प्रविधिले बुझ्न सक्ने ढाँचामा व्यवस्थित गर्न आवश्यक छ। डेटासेटको संरचनाले यसलाई कसरी व्यवस्थित गरिएको छ भन्ने वर्णन गर्दछ र यसलाई संरचित, असंरचित र अर्ध-संरचित रूपमा वर्गीकृत गर्न सकिन्छ। यी संरचनाका प्रकारहरू स्रोतमा निर्भर गर्दै फरक हुनेछन् तर अन्ततः यी तीन श्रेणीहरूमा फिट हुनेछन्।
मात्रात्मक डेटा
मात्रात्मक डेटा भनेको डेटासेटभित्रको संख्यात्मक अवलोकन हो जसलाई सामान्यतया विश्लेषण, मापन र गणितीय रूपमा प्रयोग गर्न सकिन्छ। मात्रात्मक डेटा केही उदाहरणहरू हुन्: कुनै देशको जनसंख्या, व्यक्तिको उचाइ वा कम्पनीको त्रैमासिक आम्दानी। केही थप विश्लेषणको साथ, मात्रात्मक डेटा वायु गुणस्तर सूचकांक (AQI) को मौसमी प्रवृत्ति पत्ता लगाउन वा सामान्य कार्य दिनमा ट्राफिकको सम्भावना अनुमान गर्न प्रयोग गर्न सकिन्छ।
गुणात्मक डेटा
गुणात्मक डेटा, जसलाई श्रेणीगत डेटा पनि भनिन्छ, यस्तो डेटा हो जसलाई मात्रात्मक डेटा जस्तै वस्तुनिष्ठ रूपमा मापन गर्न सकिँदैन। यो सामान्यतया विभिन्न ढाँचाको व्यक्तिपरक डेटा हो जसले कुनै वस्तु वा प्रक्रियाको गुणस्तरलाई समेट्छ। कहिलेकाहीं, गुणात्मक डेटा संख्यात्मक हुन्छ तर सामान्यतया गणितीय रूपमा प्रयोग गरिँदैन, जस्तै फोन नम्बर वा टाइमस्ट्याम्प। गुणात्मक डेटा केही उदाहरणहरू हुन्: भिडियो टिप्पणीहरू, कारको ब्रान्ड र मोडेल वा तपाईंको नजिकको साथीहरूको मनपर्ने रंग। गुणात्मक डेटा उपभोक्ताहरूले सबैभन्दा मनपर्ने उत्पादनहरू बुझ्न वा रोजगारी आवेदन रिजुमहरूमा लोकप्रिय कुञ्जी शब्दहरू पहिचान गर्न प्रयोग गर्न सकिन्छ।
संरचित डेटा
संरचित डेटा भनेको पङ्क्ति र स्तम्भहरूमा व्यवस्थित डेटा हो, जहाँ प्रत्येक पङ्क्तिमा समान सेटका स्तम्भहरू हुन्छन्। स्तम्भहरूले विशेष प्रकारको मानलाई प्रतिनिधित्व गर्छन् र मानले के प्रतिनिधित्व गर्छ भन्ने वर्णन गर्ने नामले पहिचान गरिन्छ, जबकि पङ्क्तिहरूले वास्तविक मानहरू समावेश गर्छन्। स्तम्भहरूमा अक्सर मानहरूलाई सही रूपमा प्रतिनिधित्व गर्न निश्चित नियमहरू वा प्रतिबन्धहरू हुन्छन्। उदाहरणका लागि, ग्राहकहरूको स्प्रेडशीट कल्पना गर्नुहोस् जहाँ प्रत्येक पङ्क्तिमा फोन नम्बर हुनुपर्छ र फोन नम्बरहरूमा कहिल्यै वर्णमाला अक्षरहरू समावेश हुँदैन। फोन नम्बर स्तम्भमा नियमहरू लागू गर्न सकिन्छ ताकि यो कहिल्यै खाली नहोस् र केवल नम्बरहरू समावेश होस्।
संरचित डेटा को फाइदा यो हो कि यसलाई यसरी व्यवस्थित गर्न सकिन्छ कि यसलाई अन्य संरचित डेटा संग सम्बन्धित गर्न सकिन्छ। तर, किनकि डेटा विशेष तरिकाले व्यवस्थित गर्न डिजाइन गरिएको छ, यसको समग्र संरचनामा परिवर्तन गर्न धेरै प्रयास लाग्न सक्छ। उदाहरणका लागि, ग्राहक स्प्रेडशीटमा एउटा इमेल स्तम्भ थप्न जसले खाली हुन सक्दैन भने यसको मतलब तपाईंले डेटासेटमा ग्राहकहरूको विद्यमान पङ्क्तिहरूमा यी मानहरू कसरी थप्ने भन्ने पत्ता लगाउनुपर्नेछ।
संरचित डेटा का उदाहरणहरू: स्प्रेडशीटहरू, सम्बन्धात्मक डाटाबेसहरू, फोन नम्बरहरू, बैंक स्टेटमेन्टहरू
असंरचित डेटा
असंरचित डेटा सामान्यतया पङ्क्ति वा स्तम्भहरूमा वर्गीकृत गर्न सकिँदैन र यसमा कुनै ढाँचा वा पालना गर्न नियमहरूको सेट हुँदैन। किनकि असंरचित डेटा मा यसको संरचनामा कम प्रतिबन्धहरू छन्, यो संरचित डेटासेटको तुलनामा नयाँ जानकारी थप्न सजिलो छ। यदि बारोमेट्रिक दबाब प्रत्येक २ मिनेटमा डेटा क्याप्चर गर्ने सेन्सरले अपडेट प्राप्त गरेको छ जसले अब तापक्रम मापन र रेकर्ड गर्न अनुमति दिन्छ भने, यदि यो असंरचित छ भने विद्यमान डेटा परिवर्तन गर्न आवश्यक पर्दैन। तर, यसले यस प्रकारको डेटा विश्लेषण वा अनुसन्धान गर्न समय लाग्न सक्छ। उदाहरणका लागि, वैज्ञानिकले सेन्सरको डेटा बाट अघिल्लो महिनाको औसत तापक्रम पत्ता लगाउन चाहन्छ, तर पत्ता लगाउँछ कि सेन्सरले "e" रेकर्ड गरेको छ यसको डेटा मध्ये केहीमा नोट गर्न कि यो बिग्रिएको थियो सामान्य नम्बरको सट्टा, जसको मतलब डेटा अपूर्ण छ।
असंरचित डेटा का उदाहरणहरू: पाठ फाइलहरू, पाठ सन्देशहरू, भिडियो फाइलहरू
अर्ध-संरचित
अर्ध-संरचित डेटा मा विशेषताहरू छन् जसले यसलाई संरचित र असंरचित डेटा को संयोजन बनाउँछ। यो सामान्यतया पङ्क्ति र स्तम्भहरूको ढाँचामा अनुरूप हुँदैन तर यसलाई संरचित मानिने तरिकामा व्यवस्थित गरिएको छ र निश्चित ढाँचा वा नियमहरूको सेट पालना गर्न सक्छ। संरचना स्रोतहरू बीच फरक हुनेछ, जस्तै राम्रोसँग परिभाषित पदानुक्रमदेखि केही अधिक लचिलो जसले नयाँ जानकारीको सजिलो एकीकरणको लागि अनुमति दिन्छ। मेटाडेटा सूचकहरू हुन् जसले डेटा कसरी व्यवस्थित र भण्डारण गरिएको छ भन्ने निर्णय गर्न मद्दत गर्दछ र डेटा को प्रकार को आधार मा विभिन्न नामहरू हुनेछ। मेटाडेटाका केही सामान्य नामहरू ट्यागहरू, तत्वहरू, इकाइहरू र विशेषताहरू हुन्। उदाहरणका लागि, सामान्य इमेल सन्देशमा विषय, शरीर र प्राप्तकर्ताहरूको सेट हुनेछ र यसलाई कसले वा कहिले पठाएको थियो भनेर व्यवस्थित गर्न सकिन्छ।
अर्ध-संरचित डेटा का उदाहरणहरू: HTML, CSV फाइलहरू, JavaScript Object Notation (JSON)
डेटा का स्रोतहरू
डेटा स्रोत भनेको डेटा उत्पन्न भएको प्रारम्भिक स्थान हो, वा जहाँ यो "बस्छ" र यो कसरी र कहिले सङ्कलन गरियो भन्ने आधारमा फरक हुनेछ। प्रयोगकर्ताहरू द्वारा उत्पन्न डेटा लाई प्राथमिक डेटा भनिन्छ जबकि माध्यमिक डेटा सामान्य प्रयोगको लागि डेटा सङ्कलन गरेको स्रोतबाट आउँछ। उदाहरणका लागि, वैज्ञानिकहरूको समूहले वर्षावनमा अवलोकनहरू सङ्कलन गर्दैछ भने यो प्राथमिक मानिन्छ र यदि उनीहरूले यसलाई अन्य वैज्ञानिकहरूसँग साझा गर्ने निर्णय गर्छन् भने यो माध्यमिक मानिन्छ।
डाटाबेसहरू सामान्य स्रोत हुन् र डाटाबेस व्यवस्थापन प्रणालीमा निर्भर गर्दछ डेटा होस्ट र मर्मत गर्न जहाँ प्रयोगकर्ताहरूले डेटा अन्वेषण गर्न क्वेरी भनिने आदेशहरू प्रयोग गर्छन्। फाइलहरू डेटा स्रोतको रूपमा अडियो, छवि, र भिडियो फाइलहरू साथै Excel जस्ता स्प्रेडशीटहरू हुन सक्छ। इन्टरनेट स्रोतहरू डेटा होस्ट गर्नको लागि सामान्य स्थान हुन्, जहाँ डाटाबेसहरू साथै फाइलहरू फेला पार्न सकिन्छ। एप्लिकेसन प्रोग्रामिङ इन्टरफेसहरू, जसलाई API पनि भनिन्छ, प्रोग्रामरहरूलाई इन्टरनेट मार्फत बाह्य प्रयोगकर्ताहरूसँग डेटा साझा गर्ने तरिकाहरू सिर्जना गर्न अनुमति दिन्छ, जबकि वेब स्क्र्यापिङले वेब पृष्ठबाट डेटा निकाल्छ। डेटा संग काम गर्ने पाठहरू विभिन्न डेटा स्रोतहरू कसरी प्रयोग गर्नेमा केन्द्रित छन्।
निष्कर्ष
यस पाठमा हामीले सिक्यौं:
- डेटा के हो
- डेटा कसरी वर्णन गरिन्छ
- डेटा कसरी वर्गीकृत र श्रेणीबद्ध गरिन्छ
- डेटा कहाँ फेला पार्न सकिन्छ
🚀 चुनौती
Kaggle खुला डेटासेटहरूको उत्कृष्ट स्रोत हो। डेटासेट खोज उपकरण प्रयोग गरेर केही रोचक डेटासेटहरू फेला पार्नुहोस् र ३-५ डेटासेटहरूलाई निम्न मापदण्डमा वर्गीकृत गर्नुहोस्:
- डेटा मात्रात्मक हो कि गुणात्मक?
- डेटा संरचित, असंरचित, वा अर्ध-संरचित हो?
Post-Lecture Quiz
समीक्षा र आत्म अध्ययन
- यो Microsoft Learn इकाई, तपाईंको डेटा वर्गीकरण गर्नुहोस् शीर्षकले संरचित, अर्ध-संरचित, र असंरचित डेटा को विस्तृत विवरण छ।
असाइनमेन्ट
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।