|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
डेटा को परिभाषित करना
![]() |
---|
डेटा को परिभाषित करना - @nitya द्वारा स्केच नोट |
डेटा तथ्य, जानकारी, अवलोकन और माप हैं जो खोज करने और सूचित निर्णय लेने में सहायता के लिए उपयोग किए जाते हैं। एक डेटा पॉइंट डेटा का एक एकल इकाई है जो एक डेटा सेट के भीतर होता है, जो डेटा पॉइंट्स का संग्रह होता है। डेटा सेट विभिन्न प्रारूपों और संरचनाओं में आ सकते हैं, और आमतौर पर यह उनके स्रोत या डेटा के उत्पन्न होने के स्थान पर आधारित होते हैं। उदाहरण के लिए, किसी कंपनी की मासिक आय स्प्रेडशीट में हो सकती है, लेकिन स्मार्टवॉच से प्राप्त घंटेवार हार्ट रेट डेटा JSON प्रारूप में हो सकता है। डेटा वैज्ञानिकों के लिए यह सामान्य है कि वे एक डेटा सेट के भीतर विभिन्न प्रकार के डेटा के साथ काम करें।
यह पाठ डेटा की विशेषताओं और उसके स्रोतों के आधार पर उसे पहचानने और वर्गीकृत करने पर केंद्रित है।
प्री-लेक्चर क्विज़
डेटा का वर्णन कैसे किया जाता है
कच्चा डेटा
कच्चा डेटा वह डेटा है जो अपने स्रोत से अपनी प्रारंभिक अवस्था में आता है और जिसका विश्लेषण या संगठन नहीं किया गया है। यह समझने के लिए कि डेटा सेट में क्या हो रहा है, इसे एक ऐसे प्रारूप में व्यवस्थित करने की आवश्यकता होती है जिसे मनुष्य और वह तकनीक समझ सके जो इसे आगे विश्लेषण करने के लिए उपयोग की जा सकती है। डेटा सेट की संरचना यह बताती है कि इसे कैसे व्यवस्थित किया गया है और इसे संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत किया जा सकता है। ये संरचना प्रकार स्रोत के आधार पर भिन्न होंगे लेकिन अंततः इन तीन श्रेणियों में फिट होंगे।
मात्रात्मक डेटा
मात्रात्मक डेटा डेटा सेट के भीतर संख्यात्मक अवलोकन होते हैं और आमतौर पर इन्हें विश्लेषण, माप और गणितीय रूप से उपयोग किया जा सकता है। मात्रात्मक डेटा के कुछ उदाहरण हैं: किसी देश की जनसंख्या, किसी व्यक्ति की ऊंचाई या किसी कंपनी की तिमाही आय। कुछ अतिरिक्त विश्लेषण के साथ, मात्रात्मक डेटा का उपयोग वायु गुणवत्ता सूचकांक (AQI) के मौसमी रुझानों की खोज करने या एक सामान्य कार्य दिवस पर ट्रैफिक की संभावना का अनुमान लगाने के लिए किया जा सकता है।
गुणात्मक डेटा
गुणात्मक डेटा, जिसे श्रेणीबद्ध डेटा भी कहा जाता है, वह डेटा है जिसे मात्रात्मक डेटा के अवलोकन की तरह वस्तुनिष्ठ रूप से मापा नहीं जा सकता। यह आमतौर पर विभिन्न प्रारूपों में व्यक्तिपरक डेटा होता है जो किसी उत्पाद या प्रक्रिया की गुणवत्ता को कैप्चर करता है। कभी-कभी, गुणात्मक डेटा संख्यात्मक होता है लेकिन इसे आमतौर पर गणितीय रूप से उपयोग नहीं किया जाता, जैसे फोन नंबर या टाइमस्टैम्प। गुणात्मक डेटा के कुछ उदाहरण हैं: वीडियो टिप्पणियां, कार का ब्रांड और मॉडल या आपके सबसे करीबी दोस्तों का पसंदीदा रंग। गुणात्मक डेटा का उपयोग यह समझने के लिए किया जा सकता है कि उपभोक्ताओं को कौन से उत्पाद सबसे अधिक पसंद हैं या नौकरी आवेदन रिज्यूमे में लोकप्रिय कीवर्ड की पहचान करने के लिए।
संरचित डेटा
संरचित डेटा वह डेटा है जो पंक्तियों और स्तंभों में व्यवस्थित होता है, जहां प्रत्येक पंक्ति में समान सेट के स्तंभ होते हैं। स्तंभ किसी विशेष प्रकार के मान का प्रतिनिधित्व करते हैं और यह नाम द्वारा पहचाने जाते हैं जो यह बताता है कि मान क्या दर्शाता है, जबकि पंक्तियां वास्तविक मानों को रखती हैं। स्तंभों में अक्सर मानों पर एक विशिष्ट सेट के नियम या प्रतिबंध होते हैं, ताकि यह सुनिश्चित किया जा सके कि मान सटीक रूप से स्तंभ का प्रतिनिधित्व करते हैं। उदाहरण के लिए, ग्राहकों की एक स्प्रेडशीट की कल्पना करें जहां प्रत्येक पंक्ति में एक फोन नंबर होना चाहिए और फोन नंबरों में कभी भी वर्णमाला के अक्षर नहीं होते। फोन नंबर स्तंभ पर नियम लागू किए जा सकते हैं ताकि यह सुनिश्चित किया जा सके कि यह कभी खाली न हो और केवल संख्याएं ही हों।
संरचित डेटा का एक लाभ यह है कि इसे इस तरह से व्यवस्थित किया जा सकता है कि इसे अन्य संरचित डेटा से संबंधित किया जा सके। हालांकि, क्योंकि डेटा को एक विशिष्ट तरीके से व्यवस्थित करने के लिए डिज़ाइन किया गया है, इसकी समग्र संरचना में परिवर्तन करना काफी प्रयास ले सकता है। उदाहरण के लिए, ग्राहक स्प्रेडशीट में एक ईमेल स्तंभ जोड़ना जो खाली नहीं हो सकता, इसका मतलब है कि आपको यह पता लगाना होगा कि आप मौजूदा ग्राहकों की पंक्तियों में इन मानों को कैसे जोड़ेंगे।
संरचित डेटा के उदाहरण: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर, बैंक स्टेटमेंट
असंरचित डेटा
असंरचित डेटा आमतौर पर पंक्तियों या स्तंभों में वर्गीकृत नहीं किया जा सकता और इसमें कोई प्रारूप या नियमों का सेट नहीं होता। क्योंकि असंरचित डेटा की संरचना पर कम प्रतिबंध होते हैं, इसकी तुलना में नए जानकारी को जोड़ना आसान होता है। यदि एक सेंसर जो हर 2 मिनट पर वायुमंडलीय दबाव का डेटा कैप्चर करता है, उसे एक अपडेट प्राप्त होता है जो अब इसे तापमान को मापने और रिकॉर्ड करने की अनुमति देता है, तो यदि यह असंरचित है तो मौजूदा डेटा को बदलने की आवश्यकता नहीं होती। हालांकि, इस प्रकार के डेटा का विश्लेषण या जांच करने में अधिक समय लग सकता है। उदाहरण के लिए, एक वैज्ञानिक जो पिछले महीने के औसत तापमान को सेंसर के डेटा से निकालना चाहता है, लेकिन यह पता चलता है कि सेंसर ने अपने रिकॉर्ड किए गए डेटा में "e" दर्ज किया है ताकि यह नोट किया जा सके कि यह टूट गया था, जिससे डेटा अधूरा हो गया।
असंरचित डेटा के उदाहरण: टेक्स्ट फाइलें, टेक्स्ट संदेश, वीडियो फाइलें
अर्ध-संरचित डेटा
अर्ध-संरचित डेटा में ऐसी विशेषताएं होती हैं जो इसे संरचित और असंरचित डेटा का संयोजन बनाती हैं। यह आमतौर पर पंक्तियों और स्तंभों के प्रारूप का पालन नहीं करता लेकिन इसे इस तरह से व्यवस्थित किया जाता है जिसे संरचित माना जाता है और यह एक निश्चित प्रारूप या नियमों का सेट का पालन कर सकता है। संरचना स्रोतों के बीच भिन्न होगी, जैसे कि एक अच्छी तरह से परिभाषित पदानुक्रम से लेकर कुछ अधिक लचीला जो नई जानकारी के आसान एकीकरण की अनुमति देता है। मेटाडेटा संकेतक होते हैं जो यह तय करने में मदद करते हैं कि डेटा कैसे व्यवस्थित और संग्रहीत किया गया है और डेटा के प्रकार के आधार पर इनके विभिन्न नाम होते हैं। मेटाडेटा के कुछ सामान्य नाम हैं टैग, तत्व, इकाइयां और विशेषताएं। उदाहरण के लिए, एक सामान्य ईमेल संदेश में एक विषय, बॉडी और प्राप्तकर्ताओं का सेट होता है और इसे किसने या कब भेजा गया था के आधार पर व्यवस्थित किया जा सकता है।
अर्ध-संरचित डेटा के उदाहरण: HTML, CSV फाइलें, जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON)
डेटा के स्रोत
डेटा स्रोत वह प्रारंभिक स्थान है जहां डेटा उत्पन्न हुआ था, या जहां यह "रहता" है और यह इस बात पर निर्भर करेगा कि इसे कैसे और कब एकत्र किया गया। उपयोगकर्ता द्वारा उत्पन्न डेटा को प्राथमिक डेटा कहा जाता है जबकि द्वितीयक डेटा उस स्रोत से आता है जिसने सामान्य उपयोग के लिए डेटा एकत्र किया है। उदाहरण के लिए, वैज्ञानिकों का एक समूह जो वर्षावन में अवलोकन एकत्र करता है, उसे प्राथमिक माना जाएगा और यदि वे इसे अन्य वैज्ञानिकों के साथ साझा करने का निर्णय लेते हैं तो इसे उन लोगों के लिए द्वितीयक माना जाएगा जो इसका उपयोग करते हैं।
डेटाबेस एक सामान्य स्रोत हैं और डेटाबेस प्रबंधन प्रणाली पर निर्भर करते हैं जो डेटा को होस्ट और बनाए रखता है, जहां उपयोगकर्ता डेटा का पता लगाने के लिए क्वेरी नामक कमांड का उपयोग करते हैं। फाइलें डेटा स्रोत के रूप में ऑडियो, इमेज और वीडियो फाइलें हो सकती हैं, साथ ही एक्सेल जैसी स्प्रेडशीट भी। इंटरनेट स्रोत डेटा को होस्ट करने के लिए एक सामान्य स्थान है, जहां डेटाबेस और फाइलें दोनों पाई जा सकती हैं। एप्लिकेशन प्रोग्रामिंग इंटरफेस, जिसे API भी कहा जाता है, प्रोग्रामर को इंटरनेट के माध्यम से बाहरी उपयोगकर्ताओं के साथ डेटा साझा करने के तरीके बनाने की अनुमति देता है, जबकि वेब स्क्रैपिंग प्रक्रिया वेब पेज से डेटा निकालती है। डेटा के साथ काम करने वाले पाठ विभिन्न डेटा स्रोतों का उपयोग करने पर केंद्रित हैं।
निष्कर्ष
इस पाठ में हमने सीखा:
- डेटा क्या है
- डेटा का वर्णन कैसे किया जाता है
- डेटा को कैसे वर्गीकृत और श्रेणीबद्ध किया जाता है
- डेटा कहां पाया जा सकता है
🚀 चुनौती
Kaggle खुले डेटा सेट्स का एक उत्कृष्ट स्रोत है। डेटा सेट खोज उपकरण का उपयोग करके कुछ रोचक डेटा सेट खोजें और 3-5 डेटा सेट को इस मानदंड के साथ वर्गीकृत करें:
- क्या डेटा मात्रात्मक है या गुणात्मक?
- क्या डेटा संरचित, असंरचित या अर्ध-संरचित है?
पोस्ट-लेक्चर क्विज़
समीक्षा और स्व-अध्ययन
- Microsoft Learn का यह यूनिट, जिसका शीर्षक है अपने डेटा को वर्गीकृत करें, संरचित, अर्ध-संरचित और असंरचित डेटा का विस्तृत विवरण प्रदान करता है।
असाइनमेंट
अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।