# डेटा को परिभाषित करना |![ स्केच नोट [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा ](../../sketchnotes/03-DefiningData.png)| |:---:| |डेटा को परिभाषित करना - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ | डेटा तथ्य, जानकारी, अवलोकन और माप हैं जो खोज करने और सूचित निर्णय लेने में सहायता के लिए उपयोग किए जाते हैं। एक डेटा पॉइंट डेटा का एक एकल इकाई है जो एक डेटा सेट के भीतर होता है, जो डेटा पॉइंट्स का संग्रह होता है। डेटा सेट विभिन्न प्रारूपों और संरचनाओं में आ सकते हैं, और आमतौर पर यह उनके स्रोत या डेटा के उत्पन्न होने के स्थान पर आधारित होते हैं। उदाहरण के लिए, किसी कंपनी की मासिक आय स्प्रेडशीट में हो सकती है, लेकिन स्मार्टवॉच से प्राप्त घंटेवार हार्ट रेट डेटा [JSON](https://stackoverflow.com/a/383699) प्रारूप में हो सकता है। डेटा वैज्ञानिकों के लिए यह सामान्य है कि वे एक डेटा सेट के भीतर विभिन्न प्रकार के डेटा के साथ काम करें। यह पाठ डेटा की विशेषताओं और उसके स्रोतों के आधार पर उसे पहचानने और वर्गीकृत करने पर केंद्रित है। ## [प्री-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/4) ## डेटा का वर्णन कैसे किया जाता है ### कच्चा डेटा कच्चा डेटा वह डेटा है जो अपने स्रोत से अपनी प्रारंभिक अवस्था में आता है और जिसका विश्लेषण या संगठन नहीं किया गया है। यह समझने के लिए कि डेटा सेट में क्या हो रहा है, इसे एक ऐसे प्रारूप में व्यवस्थित करने की आवश्यकता होती है जिसे मनुष्य और वह तकनीक समझ सके जो इसे आगे विश्लेषण करने के लिए उपयोग की जा सकती है। डेटा सेट की संरचना यह बताती है कि इसे कैसे व्यवस्थित किया गया है और इसे संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत किया जा सकता है। ये संरचना प्रकार स्रोत के आधार पर भिन्न होंगे लेकिन अंततः इन तीन श्रेणियों में फिट होंगे। ### मात्रात्मक डेटा मात्रात्मक डेटा डेटा सेट के भीतर संख्यात्मक अवलोकन होते हैं और आमतौर पर इन्हें विश्लेषण, माप और गणितीय रूप से उपयोग किया जा सकता है। मात्रात्मक डेटा के कुछ उदाहरण हैं: किसी देश की जनसंख्या, किसी व्यक्ति की ऊंचाई या किसी कंपनी की तिमाही आय। कुछ अतिरिक्त विश्लेषण के साथ, मात्रात्मक डेटा का उपयोग वायु गुणवत्ता सूचकांक (AQI) के मौसमी रुझानों की खोज करने या एक सामान्य कार्य दिवस पर ट्रैफिक की संभावना का अनुमान लगाने के लिए किया जा सकता है। ### गुणात्मक डेटा गुणात्मक डेटा, जिसे श्रेणीबद्ध डेटा भी कहा जाता है, वह डेटा है जिसे मात्रात्मक डेटा के अवलोकन की तरह वस्तुनिष्ठ रूप से मापा नहीं जा सकता। यह आमतौर पर विभिन्न प्रारूपों में व्यक्तिपरक डेटा होता है जो किसी उत्पाद या प्रक्रिया की गुणवत्ता को कैप्चर करता है। कभी-कभी, गुणात्मक डेटा संख्यात्मक होता है लेकिन इसे आमतौर पर गणितीय रूप से उपयोग नहीं किया जाता, जैसे फोन नंबर या टाइमस्टैम्प। गुणात्मक डेटा के कुछ उदाहरण हैं: वीडियो टिप्पणियां, कार का ब्रांड और मॉडल या आपके सबसे करीबी दोस्तों का पसंदीदा रंग। गुणात्मक डेटा का उपयोग यह समझने के लिए किया जा सकता है कि उपभोक्ताओं को कौन से उत्पाद सबसे अधिक पसंद हैं या नौकरी आवेदन रिज्यूमे में लोकप्रिय कीवर्ड की पहचान करने के लिए। ### संरचित डेटा संरचित डेटा वह डेटा है जो पंक्तियों और स्तंभों में व्यवस्थित होता है, जहां प्रत्येक पंक्ति में समान सेट के स्तंभ होते हैं। स्तंभ किसी विशेष प्रकार के मान का प्रतिनिधित्व करते हैं और यह नाम द्वारा पहचाने जाते हैं जो यह बताता है कि मान क्या दर्शाता है, जबकि पंक्तियां वास्तविक मानों को रखती हैं। स्तंभों में अक्सर मानों पर एक विशिष्ट सेट के नियम या प्रतिबंध होते हैं, ताकि यह सुनिश्चित किया जा सके कि मान सटीक रूप से स्तंभ का प्रतिनिधित्व करते हैं। उदाहरण के लिए, ग्राहकों की एक स्प्रेडशीट की कल्पना करें जहां प्रत्येक पंक्ति में एक फोन नंबर होना चाहिए और फोन नंबरों में कभी भी वर्णमाला के अक्षर नहीं होते। फोन नंबर स्तंभ पर नियम लागू किए जा सकते हैं ताकि यह सुनिश्चित किया जा सके कि यह कभी खाली न हो और केवल संख्याएं ही हों। संरचित डेटा का एक लाभ यह है कि इसे इस तरह से व्यवस्थित किया जा सकता है कि इसे अन्य संरचित डेटा से संबंधित किया जा सके। हालांकि, क्योंकि डेटा को एक विशिष्ट तरीके से व्यवस्थित करने के लिए डिज़ाइन किया गया है, इसकी समग्र संरचना में परिवर्तन करना काफी प्रयास ले सकता है। उदाहरण के लिए, ग्राहक स्प्रेडशीट में एक ईमेल स्तंभ जोड़ना जो खाली नहीं हो सकता, इसका मतलब है कि आपको यह पता लगाना होगा कि आप मौजूदा ग्राहकों की पंक्तियों में इन मानों को कैसे जोड़ेंगे। संरचित डेटा के उदाहरण: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर, बैंक स्टेटमेंट ### असंरचित डेटा असंरचित डेटा आमतौर पर पंक्तियों या स्तंभों में वर्गीकृत नहीं किया जा सकता और इसमें कोई प्रारूप या नियमों का सेट नहीं होता। क्योंकि असंरचित डेटा की संरचना पर कम प्रतिबंध होते हैं, इसकी तुलना में नए जानकारी को जोड़ना आसान होता है। यदि एक सेंसर जो हर 2 मिनट पर वायुमंडलीय दबाव का डेटा कैप्चर करता है, उसे एक अपडेट प्राप्त होता है जो अब इसे तापमान को मापने और रिकॉर्ड करने की अनुमति देता है, तो यदि यह असंरचित है तो मौजूदा डेटा को बदलने की आवश्यकता नहीं होती। हालांकि, इस प्रकार के डेटा का विश्लेषण या जांच करने में अधिक समय लग सकता है। उदाहरण के लिए, एक वैज्ञानिक जो पिछले महीने के औसत तापमान को सेंसर के डेटा से निकालना चाहता है, लेकिन यह पता चलता है कि सेंसर ने अपने रिकॉर्ड किए गए डेटा में "e" दर्ज किया है ताकि यह नोट किया जा सके कि यह टूट गया था, जिससे डेटा अधूरा हो गया। असंरचित डेटा के उदाहरण: टेक्स्ट फाइलें, टेक्स्ट संदेश, वीडियो फाइलें ### अर्ध-संरचित डेटा अर्ध-संरचित डेटा में ऐसी विशेषताएं होती हैं जो इसे संरचित और असंरचित डेटा का संयोजन बनाती हैं। यह आमतौर पर पंक्तियों और स्तंभों के प्रारूप का पालन नहीं करता लेकिन इसे इस तरह से व्यवस्थित किया जाता है जिसे संरचित माना जाता है और यह एक निश्चित प्रारूप या नियमों का सेट का पालन कर सकता है। संरचना स्रोतों के बीच भिन्न होगी, जैसे कि एक अच्छी तरह से परिभाषित पदानुक्रम से लेकर कुछ अधिक लचीला जो नई जानकारी के आसान एकीकरण की अनुमति देता है। मेटाडेटा संकेतक होते हैं जो यह तय करने में मदद करते हैं कि डेटा कैसे व्यवस्थित और संग्रहीत किया गया है और डेटा के प्रकार के आधार पर इनके विभिन्न नाम होते हैं। मेटाडेटा के कुछ सामान्य नाम हैं टैग, तत्व, इकाइयां और विशेषताएं। उदाहरण के लिए, एक सामान्य ईमेल संदेश में एक विषय, बॉडी और प्राप्तकर्ताओं का सेट होता है और इसे किसने या कब भेजा गया था के आधार पर व्यवस्थित किया जा सकता है। अर्ध-संरचित डेटा के उदाहरण: HTML, CSV फाइलें, जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON) ## डेटा के स्रोत डेटा स्रोत वह प्रारंभिक स्थान है जहां डेटा उत्पन्न हुआ था, या जहां यह "रहता" है और यह इस बात पर निर्भर करेगा कि इसे कैसे और कब एकत्र किया गया। उपयोगकर्ता द्वारा उत्पन्न डेटा को प्राथमिक डेटा कहा जाता है जबकि द्वितीयक डेटा उस स्रोत से आता है जिसने सामान्य उपयोग के लिए डेटा एकत्र किया है। उदाहरण के लिए, वैज्ञानिकों का एक समूह जो वर्षावन में अवलोकन एकत्र करता है, उसे प्राथमिक माना जाएगा और यदि वे इसे अन्य वैज्ञानिकों के साथ साझा करने का निर्णय लेते हैं तो इसे उन लोगों के लिए द्वितीयक माना जाएगा जो इसका उपयोग करते हैं। डेटाबेस एक सामान्य स्रोत हैं और डेटाबेस प्रबंधन प्रणाली पर निर्भर करते हैं जो डेटा को होस्ट और बनाए रखता है, जहां उपयोगकर्ता डेटा का पता लगाने के लिए क्वेरी नामक कमांड का उपयोग करते हैं। फाइलें डेटा स्रोत के रूप में ऑडियो, इमेज और वीडियो फाइलें हो सकती हैं, साथ ही एक्सेल जैसी स्प्रेडशीट भी। इंटरनेट स्रोत डेटा को होस्ट करने के लिए एक सामान्य स्थान है, जहां डेटाबेस और फाइलें दोनों पाई जा सकती हैं। एप्लिकेशन प्रोग्रामिंग इंटरफेस, जिसे API भी कहा जाता है, प्रोग्रामर को इंटरनेट के माध्यम से बाहरी उपयोगकर्ताओं के साथ डेटा साझा करने के तरीके बनाने की अनुमति देता है, जबकि वेब स्क्रैपिंग प्रक्रिया वेब पेज से डेटा निकालती है। [डेटा के साथ काम करने वाले पाठ](../../../../../../../../../2-Working-With-Data) विभिन्न डेटा स्रोतों का उपयोग करने पर केंद्रित हैं। ## निष्कर्ष इस पाठ में हमने सीखा: - डेटा क्या है - डेटा का वर्णन कैसे किया जाता है - डेटा को कैसे वर्गीकृत और श्रेणीबद्ध किया जाता है - डेटा कहां पाया जा सकता है ## 🚀 चुनौती Kaggle खुले डेटा सेट्स का एक उत्कृष्ट स्रोत है। [डेटा सेट खोज उपकरण](https://www.kaggle.com/datasets) का उपयोग करके कुछ रोचक डेटा सेट खोजें और 3-5 डेटा सेट को इस मानदंड के साथ वर्गीकृत करें: - क्या डेटा मात्रात्मक है या गुणात्मक? - क्या डेटा संरचित, असंरचित या अर्ध-संरचित है? ## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/5) ## समीक्षा और स्व-अध्ययन - Microsoft Learn का यह यूनिट, जिसका शीर्षक है [अपने डेटा को वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), संरचित, अर्ध-संरचित और असंरचित डेटा का विस्तृत विवरण प्रदान करता है। ## असाइनमेंट [डेटा सेट्स को वर्गीकृत करना](assignment.md) --- **अस्वीकरण**: यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।