You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hi/1-Introduction/03-defining-data/README.md

83 lines
21 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "356d12cffc3125db133a2d27b827a745",
"translation_date": "2025-08-24T21:34:48+00:00",
"source_file": "1-Introduction/03-defining-data/README.md",
"language_code": "hi"
}
-->
# डेटा को परिभाषित करना
|![ स्केच नोट [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|डेटा को परिभाषित करना - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ |
डेटा तथ्य, जानकारी, अवलोकन और माप हैं, जिनका उपयोग खोज करने और सूचित निर्णय लेने में सहायता के लिए किया जाता है। एक डेटा पॉइंट डेटा का एकल इकाई है, जो एक डेटा सेट के भीतर होता है। डेटा सेट डेटा पॉइंट्स का संग्रह होता है। डेटा सेट विभिन्न प्रारूपों और संरचनाओं में हो सकते हैं और आमतौर पर उनके स्रोत या डेटा कहां से आया है, इस पर आधारित होते हैं। उदाहरण के लिए, किसी कंपनी की मासिक आय एक स्प्रेडशीट में हो सकती है, लेकिन स्मार्टवॉच से प्राप्त प्रति घंटे की हृदय गति डेटा [JSON](https://stackoverflow.com/a/383699) प्रारूप में हो सकता है। डेटा वैज्ञानिकों के लिए यह सामान्य है कि वे एक ही डेटा सेट में विभिन्न प्रकार के डेटा के साथ काम करें।
यह पाठ डेटा की विशेषताओं और उसके स्रोतों के आधार पर उसे पहचानने और वर्गीकृत करने पर केंद्रित है।
## [प्री-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
## डेटा का वर्णन कैसे किया जाता है
### कच्चा डेटा (Raw Data)
कच्चा डेटा वह डेटा है, जो अपने स्रोत से अपनी प्रारंभिक स्थिति में आता है और जिसका विश्लेषण या संगठन नहीं किया गया है। यह समझने के लिए कि डेटा सेट में क्या हो रहा है, इसे एक ऐसे प्रारूप में व्यवस्थित करना आवश्यक है, जिसे मनुष्य और वह तकनीक समझ सके, जिसका उपयोग वे इसे और अधिक विश्लेषण करने के लिए कर सकते हैं। डेटा सेट की संरचना यह बताती है कि इसे कैसे व्यवस्थित किया गया है और इसे संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत किया जा सकता है। ये संरचनाएं स्रोत के आधार पर भिन्न हो सकती हैं, लेकिन अंततः इन तीन श्रेणियों में फिट होती हैं।
### मात्रात्मक डेटा (Quantitative Data)
मात्रात्मक डेटा डेटा सेट के भीतर संख्यात्मक अवलोकन है और आमतौर पर इसका विश्लेषण, मापन और गणितीय रूप से उपयोग किया जा सकता है। मात्रात्मक डेटा के कुछ उदाहरण हैं: किसी देश की जनसंख्या, किसी व्यक्ति की ऊंचाई या किसी कंपनी की तिमाही आय। कुछ अतिरिक्त विश्लेषण के साथ, मात्रात्मक डेटा का उपयोग वायु गुणवत्ता सूचकांक (AQI) के मौसमी रुझानों की खोज करने या किसी सामान्य कार्य दिवस पर ट्रैफिक की संभावना का अनुमान लगाने के लिए किया जा सकता है।
### गुणात्मक डेटा (Qualitative Data)
गुणात्मक डेटा, जिसे श्रेणीबद्ध डेटा (categorical data) भी कहा जाता है, वह डेटा है जिसे मात्रात्मक डेटा के अवलोकन की तरह वस्तुनिष्ठ रूप से मापा नहीं जा सकता। यह आमतौर पर विभिन्न प्रारूपों में व्यक्तिपरक डेटा होता है, जो किसी उत्पाद या प्रक्रिया की गुणवत्ता को कैप्चर करता है। कभी-कभी, गुणात्मक डेटा संख्यात्मक होता है, लेकिन इसे आमतौर पर गणितीय रूप से उपयोग नहीं किया जाता, जैसे फोन नंबर या टाइमस्टैम्प। गुणात्मक डेटा के कुछ उदाहरण हैं: वीडियो टिप्पणियां, कार का ब्रांड और मॉडल, या आपके सबसे करीबी दोस्तों का पसंदीदा रंग। गुणात्मक डेटा का उपयोग यह समझने के लिए किया जा सकता है कि उपभोक्ताओं को कौन से उत्पाद सबसे अधिक पसंद हैं या नौकरी आवेदन रिज्यूमे में लोकप्रिय कीवर्ड की पहचान करने के लिए।
### संरचित डेटा (Structured Data)
संरचित डेटा वह डेटा है, जिसे पंक्तियों और स्तंभों में व्यवस्थित किया गया है, जहां प्रत्येक पंक्ति में समान सेट के स्तंभ होंगे। स्तंभ किसी विशेष प्रकार के मान का प्रतिनिधित्व करते हैं और यह नामित होते हैं, जो यह बताते हैं कि मान क्या दर्शाता है, जबकि पंक्तियां वास्तविक मानों को रखती हैं। स्तंभों में अक्सर मानों पर एक विशिष्ट सेट के नियम या प्रतिबंध होते हैं, ताकि यह सुनिश्चित किया जा सके कि मान सही तरीके से स्तंभ का प्रतिनिधित्व करते हैं। उदाहरण के लिए, ग्राहकों की एक स्प्रेडशीट की कल्पना करें, जहां प्रत्येक पंक्ति में एक फोन नंबर होना चाहिए और फोन नंबरों में कभी भी वर्णमाला के अक्षर नहीं होने चाहिए। फोन नंबर स्तंभ पर यह सुनिश्चित करने के लिए नियम लागू किए जा सकते हैं कि यह कभी खाली न हो और केवल संख्याएं ही हों।
संरचित डेटा का एक लाभ यह है कि इसे इस तरह से व्यवस्थित किया जा सकता है कि इसे अन्य संरचित डेटा से जोड़ा जा सके। हालांकि, क्योंकि डेटा को एक विशिष्ट तरीके से व्यवस्थित करने के लिए डिज़ाइन किया गया है, इसकी समग्र संरचना में परिवर्तन करना काफी प्रयास ले सकता है। उदाहरण के लिए, ग्राहक स्प्रेडशीट में एक ईमेल स्तंभ जोड़ना, जो खाली नहीं हो सकता, इसका मतलब है कि आपको यह पता लगाना होगा कि मौजूदा ग्राहकों की पंक्तियों में इन मानों को कैसे जोड़ा जाए।
संरचित डेटा के उदाहरण: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर, बैंक स्टेटमेंट
### असंरचित डेटा (Unstructured Data)
असंरचित डेटा आमतौर पर पंक्तियों या स्तंभों में वर्गीकृत नहीं किया जा सकता और इसमें किसी प्रारूप या नियमों का सेट नहीं होता। क्योंकि असंरचित डेटा की संरचना पर कम प्रतिबंध होते हैं, इसकी तुलना में नए डेटा को जोड़ना आसान होता है। उदाहरण के लिए, यदि एक सेंसर जो हर 2 मिनट पर वायुमंडलीय दबाव का डेटा कैप्चर करता है, को एक अपडेट मिलता है, जो अब इसे तापमान मापने और रिकॉर्ड करने की अनुमति देता है, तो यदि यह असंरचित है, तो मौजूदा डेटा को बदलने की आवश्यकता नहीं होती। हालांकि, इस प्रकार के डेटा का विश्लेषण या जांच करने में अधिक समय लग सकता है। उदाहरण के लिए, एक वैज्ञानिक जो पिछले महीने के औसत तापमान को सेंसर के डेटा से निकालना चाहता है, लेकिन यह पाता है कि सेंसर ने अपने कुछ रिकॉर्ड किए गए डेटा में "e" दर्ज किया है, यह बताने के लिए कि यह टूट गया था, जिससे डेटा अधूरा हो गया।
असंरचित डेटा के उदाहरण: टेक्स्ट फाइलें, टेक्स्ट संदेश, वीडियो फाइलें
### अर्ध-संरचित डेटा (Semi-structured Data)
अर्ध-संरचित डेटा में ऐसी विशेषताएं होती हैं, जो इसे संरचित और असंरचित डेटा का संयोजन बनाती हैं। यह आमतौर पर पंक्तियों और स्तंभों के प्रारूप का पालन नहीं करता, लेकिन इसे इस तरह से व्यवस्थित किया जाता है, जिसे संरचित माना जाता है और यह एक निश्चित प्रारूप या नियमों के सेट का पालन कर सकता है। संरचना स्रोतों के बीच भिन्न होगी, जैसे कि एक अच्छी तरह से परिभाषित पदानुक्रम से लेकर कुछ अधिक लचीला, जो नई जानकारी के आसान एकीकरण की अनुमति देता है। मेटाडेटा संकेतक होते हैं, जो यह तय करने में मदद करते हैं कि डेटा को कैसे व्यवस्थित और संग्रहीत किया जाए और इसे डेटा के प्रकार के आधार पर विभिन्न नाम दिए जाते हैं। मेटाडेटा के कुछ सामान्य नाम हैं टैग, तत्व, इकाइयां और विशेषताएं। उदाहरण के लिए, एक सामान्य ईमेल संदेश में एक विषय, मुख्य भाग और प्राप्तकर्ताओं का एक सेट होगा और इसे इस आधार पर व्यवस्थित किया जा सकता है कि इसे किसने या कब भेजा।
अर्ध-संरचित डेटा के उदाहरण: HTML, CSV फाइलें, जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON)
## डेटा के स्रोत
डेटा स्रोत वह प्रारंभिक स्थान है, जहां डेटा उत्पन्न हुआ या "रहता" है और यह इस बात पर निर्भर करेगा कि इसे कैसे और कब एकत्र किया गया। उपयोगकर्ता द्वारा उत्पन्न डेटा को प्राथमिक डेटा कहा जाता है, जबकि माध्यमिक डेटा उस स्रोत से आता है, जिसने सामान्य उपयोग के लिए डेटा एकत्र किया है। उदाहरण के लिए, वर्षावन में अवलोकन एकत्र करने वाले वैज्ञानिकों का एक समूह प्राथमिक माना जाएगा और यदि वे इसे अन्य वैज्ञानिकों के साथ साझा करने का निर्णय लेते हैं, तो इसे उन लोगों के लिए माध्यमिक माना जाएगा, जो इसका उपयोग करते हैं।
डेटाबेस एक सामान्य स्रोत हैं और डेटा को होस्ट और बनाए रखने के लिए डेटाबेस प्रबंधन प्रणाली पर निर्भर करते हैं, जहां उपयोगकर्ता डेटा का पता लगाने के लिए क्वेरी नामक कमांड का उपयोग करते हैं। फाइलें डेटा स्रोत के रूप में ऑडियो, छवि और वीडियो फाइलें हो सकती हैं, साथ ही एक्सेल जैसी स्प्रेडशीट भी। इंटरनेट स्रोत डेटा को होस्ट करने के लिए एक सामान्य स्थान है, जहां डेटाबेस और फाइलें दोनों पाई जा सकती हैं। एप्लिकेशन प्रोग्रामिंग इंटरफेस, जिसे एपीआई भी कहा जाता है, प्रोग्रामर्स को इंटरनेट के माध्यम से बाहरी उपयोगकर्ताओं के साथ डेटा साझा करने के तरीके बनाने की अनुमति देते हैं, जबकि वेब स्क्रैपिंग एक वेब पेज से डेटा निकालने की प्रक्रिया है। [डेटा के साथ काम करने वाले पाठ](../../../../../../../../../2-Working-With-Data) विभिन्न डेटा स्रोतों का उपयोग करने पर ध्यान केंद्रित करते हैं।
## निष्कर्ष
इस पाठ में हमने सीखा:
- डेटा क्या है
- डेटा का वर्णन कैसे किया जाता है
- डेटा को कैसे वर्गीकृत और श्रेणीबद्ध किया जाता है
- डेटा कहां पाया जा सकता है
## 🚀 चुनौती
Kaggle खुले डेटा सेट्स का एक उत्कृष्ट स्रोत है। [डेटा सेट खोज उपकरण](https://www.kaggle.com/datasets) का उपयोग करके कुछ रोचक डेटा सेट खोजें और 3-5 डेटा सेट को इस मानदंड के साथ वर्गीकृत करें:
- क्या डेटा मात्रात्मक है या गुणात्मक?
- क्या डेटा संरचित, असंरचित या अर्ध-संरचित है?
## [पोस्ट-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
## समीक्षा और स्व-अध्ययन
- Microsoft Learn की यह इकाई, जिसका शीर्षक है [अपने डेटा को वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), संरचित, अर्ध-संरचित और असंरचित डेटा का विस्तृत विवरण प्रदान करती है।
## असाइनमेंट
[डेटा सेट्स को वर्गीकृत करना](assignment.md)
**अस्वीकरण**:
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।