19 KiB
डेटा परिभाषित गर्दै
![]() |
---|
डेटा परिभाषित गर्दै - Sketchnote by @nitya |
डेटा भनेको तथ्य, जानकारी, अवलोकन र मापन हो, जसलाई खोज गर्न र सूचित निर्णयहरू समर्थन गर्न प्रयोग गरिन्छ। डेटा पोइन्ट भनेको डेटासेटभित्रको एकल इकाई हो, जुन डेटा पोइन्टहरूको संग्रह हो। डेटासेटहरू विभिन्न ढाँचाहरू र संरचनाहरूमा आउन सक्छन्, र सामान्यतया यसको स्रोत वा डेटा कहाँबाट आएको हो भन्ने आधारमा आधारित हुन्छ। उदाहरणका लागि, कुनै कम्पनीको मासिक आम्दानी स्प्रेडशीटमा हुन सक्छ तर स्मार्टवाचबाट प्राप्त घण्टाको हृदय दर डेटा JSON ढाँचामा हुन सक्छ। डेटा वैज्ञानिकहरूले डेटासेटभित्र विभिन्न प्रकारका डेटा संग काम गर्नु सामान्य कुरा हो।
यो पाठले डेटा यसको विशेषताहरू र स्रोतहरूद्वारा पहिचान र वर्गीकरणमा केन्द्रित छ।
Pre-Lecture Quiz
डेटा कसरी वर्णन गरिन्छ
कच्चा डेटा
कच्चा डेटा भनेको यसको स्रोतबाट आएको प्रारम्भिक अवस्थाको डेटा हो, जुन विश्लेषण वा व्यवस्थित गरिएको छैन। डेटासेटमा के भइरहेको छ भन्ने बुझ्नको लागि, यसलाई मानिसहरूले बुझ्न सक्ने ढाँचामा व्यवस्थित गर्न आवश्यक छ, साथै उनीहरूले यसलाई थप विश्लेषण गर्न प्रयोग गर्ने प्रविधि। डेटासेटको संरचनाले यसलाई कसरी व्यवस्थित गरिएको छ भन्ने वर्णन गर्दछ र यसलाई संरचित, असंरचित र अर्ध-संरचित रूपमा वर्गीकृत गर्न सकिन्छ। यी संरचनाका प्रकारहरू स्रोतको आधारमा फरक हुन्छन् तर अन्ततः यी तीन श्रेणीहरूमा फिट हुन्छन्।
मात्रात्मक डेटा
मात्रात्मक डेटा भनेको डेटासेटभित्रको संख्यात्मक अवलोकन हो, जसलाई सामान्यतया विश्लेषण, मापन र गणितीय रूपमा प्रयोग गर्न सकिन्छ। मात्रात्मक डेटा केही उदाहरणहरू हुन्: कुनै देशको जनसंख्या, व्यक्तिको उचाइ वा कम्पनीको त्रैमासिक आम्दानी। केही थप विश्लेषणको साथ, मात्रात्मक डेटा वायु गुणस्तर सूचकांक (AQI) को मौसमी प्रवृत्ति पत्ता लगाउन वा सामान्य कार्य दिनमा ट्राफिकको सम्भावना अनुमान गर्न प्रयोग गर्न सकिन्छ।
गुणात्मक डेटा
गुणात्मक डेटा, जसलाई श्रेणीगत डेटा पनि भनिन्छ, यस्तो डेटा हो जसलाई मात्रात्मक डेटा जस्तै वस्तुनिष्ठ रूपमा मापन गर्न सकिँदैन। यो सामान्यतया विभिन्न ढाँचाको व्यक्तिपरक डेटा हो, जसले कुनै वस्तु वा प्रक्रियाको गुणस्तरलाई समेट्छ। कहिलेकाहीं, गुणात्मक डेटा संख्यात्मक हुन्छ तर सामान्यतया गणितीय रूपमा प्रयोग गरिँदैन, जस्तै फोन नम्बर वा टाइमस्ट्याम्प। गुणात्मक डेटा केही उदाहरणहरू हुन्: भिडियो टिप्पणीहरू, कारको ब्रान्ड र मोडेल, वा तपाईंको नजिकको साथीहरूको मनपर्ने रंग। गुणात्मक डेटा उपभोक्ताहरूले सबैभन्दा मन पराउने उत्पादनहरू बुझ्न वा रोजगारी आवेदन रिजुमहरूमा लोकप्रिय कुञ्जी शब्दहरू पहिचान गर्न प्रयोग गर्न सकिन्छ।
संरचित डेटा
संरचित डेटा भनेको पङ्क्ति र स्तम्भहरूमा व्यवस्थित डेटा हो, जहाँ प्रत्येक पङ्क्तिमा समान सेटका स्तम्भहरू हुन्छन्। स्तम्भहरूले विशेष प्रकारको मानलाई प्रतिनिधित्व गर्छन् र मानले के प्रतिनिधित्व गर्छ भन्ने वर्णन गर्ने नामले पहिचान गरिन्छ, जबकि पङ्क्तिहरूले वास्तविक मानहरू समावेश गर्छन्। स्तम्भहरूमा अक्सर मानहरूलाई सही रूपमा प्रतिनिधित्व गर्न निश्चित नियमहरू वा प्रतिबन्धहरू हुन्छन्। उदाहरणका लागि, ग्राहकहरूको स्प्रेडशीट कल्पना गर्नुहोस् जहाँ प्रत्येक पङ्क्तिमा फोन नम्बर हुनुपर्छ र फोन नम्बरहरूमा कहिल्यै वर्णमालाका अक्षरहरू समावेश हुँदैन। फोन नम्बर स्तम्भमा नियमहरू लागू गर्न सकिन्छ ताकि यो कहिल्यै खाली नहोस् र केवल नम्बरहरू समावेश होस्।
संरचित डेटा लाभ यो हो कि यसलाई यसरी व्यवस्थित गर्न सकिन्छ कि यसलाई अन्य संरचित डेटा संग सम्बन्धित गर्न सकिन्छ। तर, किनकि डेटा विशेष तरिकाले व्यवस्थित गर्न डिजाइन गरिएको छ, यसको समग्र संरचनामा परिवर्तन गर्न धेरै प्रयास लाग्न सक्छ। उदाहरणका लागि, ग्राहक स्प्रेडशीटमा एउटा इमेल स्तम्भ थप्न जसले खाली हुन सक्दैन भने यसको मतलब तपाईंले डेटासेटमा ग्राहकहरूको विद्यमान पङ्क्तिहरूमा यी मानहरू कसरी थप्ने भन्ने पत्ता लगाउनुपर्नेछ।
संरचित डेटा उदाहरणहरू: स्प्रेडशीटहरू, सम्बन्धात्मक डाटाबेसहरू, फोन नम्बरहरू, बैंक स्टेटमेन्टहरू
असंरचित डेटा
असंरचित डेटा सामान्यतया पङ्क्ति वा स्तम्भहरूमा वर्गीकृत गर्न सकिँदैन र यसमा कुनै ढाँचा वा नियमहरूको सेट हुँदैन। असंरचित डेटामा यसको संरचनामा कम प्रतिबन्धहरू भएका कारण नयाँ जानकारी थप्न सजिलो हुन्छ। उदाहरणका लागि, यदि बारोमेट्रिक दबाब प्रत्येक २ मिनेटमा मापन गर्ने सेन्सरले तापक्रम मापन र रेकर्ड गर्न अनुमति दिने अपडेट प्राप्त गरेको छ भने, यदि यो असंरचित छ भने विद्यमान डेटा परिवर्तन गर्न आवश्यक पर्दैन। तर, यसले यस्तो डेटा विश्लेषण गर्न वा अनुसन्धान गर्न समय लाग्न सक्छ। उदाहरणका लागि, वैज्ञानिकले सेन्सरको डेटाबाट अघिल्लो महिनाको औसत तापक्रम पत्ता लगाउन चाहन्छ तर पत्ता लगाउँछ कि सेन्सरले "e" रेकर्ड गरेको छ, जसले संकेत गर्दछ कि यो बिग्रिएको थियो, जसले गर्दा डेटा अपूर्ण छ।
असंरचित डेटा उदाहरणहरू: पाठ फाइलहरू, पाठ सन्देशहरू, भिडियो फाइलहरू
अर्ध-संरचित डेटा
अर्ध-संरचित डेटामा संरचित र असंरचित डेटाको संयोजन बनाउने विशेषताहरू हुन्छन्। यो सामान्यतया पङ्क्ति र स्तम्भहरूको ढाँचामा अनुरूप हुँदैन तर यसलाई संरचित मानिने तरिकामा व्यवस्थित गरिएको हुन्छ र निश्चित ढाँचा वा नियमहरूको सेट अनुसरण गर्न सक्छ। संरचना स्रोतहरू बीच फरक हुन्छ, जस्तै राम्रोसँग परिभाषित पदानुक्रमदेखि अधिक लचिलो संरचना जसले नयाँ जानकारीको सजिलो एकीकरणलाई अनुमति दिन्छ। मेटाडेटा सूचकहरू हुन् जसले डेटा कसरी व्यवस्थित र भण्डारण गरिन्छ भन्ने निर्णय गर्न मद्दत गर्छन् र डेटा प्रकारको आधारमा विभिन्न नामहरू हुन्छन्। मेटाडेटाका केही सामान्य नामहरू ट्यागहरू, तत्वहरू, इकाइहरू र विशेषताहरू हुन्। उदाहरणका लागि, एउटा सामान्य इमेल सन्देशमा विषय, शरीर र प्राप्तकर्ताहरूको सेट हुन्छ र यसलाई कसले वा कहिले पठाएको थियो भन्ने आधारमा व्यवस्थित गर्न सकिन्छ।
अर्ध-संरचित डेटा उदाहरणहरू: HTML, CSV फाइलहरू, JavaScript Object Notation (JSON)
डेटा स्रोतहरू
डेटा स्रोत भनेको डेटा उत्पन्न भएको प्रारम्भिक स्थान हो, वा यो "बस्छ" र यो कसरी र कहिले सङ्कलन गरियो भन्ने आधारमा फरक हुन्छ। प्रयोगकर्ताहरूले उत्पन्न गरेको डेटा प्राथमिक डेटा भनेर चिनिन्छ भने माध्यमिक डेटा यस्तो स्रोतबाट आउँछ जसले सामान्य प्रयोगको लागि डेटा सङ्कलन गरेको छ। उदाहरणका लागि, वैज्ञानिकहरूको समूहले वर्षावनमा अवलोकनहरू सङ्कलन गरेको प्राथमिक मानिन्छ र यदि उनीहरूले यसलाई अन्य वैज्ञानिकहरूसँग साझा गर्ने निर्णय गरे भने यो माध्यमिक मानिन्छ।
डाटाबेसहरू सामान्य स्रोत हुन् र डाटाबेस व्यवस्थापन प्रणालीमा निर्भर गर्दछ जसले डेटा होस्ट र मर्मत गर्छ जहाँ प्रयोगकर्ताहरूले क्वेरी भनिने आदेशहरू प्रयोग गरेर डेटा अन्वेषण गर्छन्। फाइलहरू डेटा स्रोतको रूपमा अडियो, छवि, र भिडियो फाइलहरू साथै Excel जस्ता स्प्रेडशीटहरू हुन सक्छ। इन्टरनेट स्रोतहरू डेटा होस्ट गर्नको लागि सामान्य स्थान हुन्, जहाँ डाटाबेसहरू साथै फाइलहरू फेला पार्न सकिन्छ। एप्लिकेसन प्रोग्रामिङ इन्टरफेसहरू, जसलाई API पनि भनिन्छ, प्रोग्रामरहरूले इन्टरनेट मार्फत बाह्य प्रयोगकर्ताहरूसँग डेटा साझा गर्ने तरिकाहरू सिर्जना गर्न अनुमति दिन्छ, जबकि वेब स्क्र्यापिङले वेब पृष्ठबाट डेटा निकाल्छ। डेटासँग काम गर्ने पाठहरू विभिन्न डेटा स्रोतहरू कसरी प्रयोग गर्नेमा केन्द्रित छन्।
निष्कर्ष
यस पाठमा हामीले सिक्यौं:
- डेटा के हो
- डेटा कसरी वर्णन गरिन्छ
- डेटा कसरी वर्गीकृत र श्रेणीबद्ध गरिन्छ
- डेटा कहाँ फेला पार्न सकिन्छ
🚀 चुनौती
Kaggle खुला डेटासेटहरूको उत्कृष्ट स्रोत हो। डेटासेट खोज उपकरण प्रयोग गरेर केही रोचक डेटासेटहरू खोज्नुहोस् र ३-५ डेटासेटहरूलाई निम्न मापदण्डमा वर्गीकृत गर्नुहोस्:
- डेटा मात्रात्मक हो कि गुणात्मक?
- डेटा संरचित, असंरचित, वा अर्ध-संरचित हो?
Post-lecture quiz
समीक्षा र आत्म-अध्ययन
- यो Microsoft Learn इकाई, Classify your Data शीर्षकमा संरचित, अर्ध-संरचित, र असंरचित डेटाको विस्तृत विवरण छ।
असाइनमेन्ट
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।