Data-Science-For-Beginners/translations/hi/1-Introduction/03-defining-data/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "356d12cffc3125db133a2d27b827a745",
  "translation_date": "2025-08-24T21:34:48+00:00",
  "source_file": "1-Introduction/03-defining-data/README.md",
  "language_code": "hi"
}
-->
# डेटा को परिभाषित करना

|![ स्केच नोट [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|डेटा को परिभाषित करना - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ |

डेटा तथ्य, जानकारी, अवलोकन और माप हैं, जिनका उपयोग खोज करने और सूचित निर्णय लेने में सहायता के लिए किया जाता है। एक डेटा पॉइंट डेटा का एकल इकाई है, जो एक डेटा सेट के भीतर होता है। डेटा सेट डेटा पॉइंट्स का संग्रह होता है। डेटा सेट विभिन्न प्रारूपों और संरचनाओं में हो सकते हैं और आमतौर पर उनके स्रोत या डेटा कहां से आया है, इस पर आधारित होते हैं। उदाहरण के लिए, किसी कंपनी की मासिक आय एक स्प्रेडशीट में हो सकती है, लेकिन स्मार्टवॉच से प्राप्त प्रति घंटे की हृदय गति डेटा [JSON](https://stackoverflow.com/a/383699) प्रारूप में हो सकता है। डेटा वैज्ञानिकों के लिए यह सामान्य है कि वे एक ही डेटा सेट में विभिन्न प्रकार के डेटा के साथ काम करें।

यह पाठ डेटा की विशेषताओं और उसके स्रोतों के आधार पर उसे पहचानने और वर्गीकृत करने पर केंद्रित है।

## [प्री-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)

## डेटा का वर्णन कैसे किया जाता है

### कच्चा डेटा (Raw Data)
कच्चा डेटा वह डेटा है, जो अपने स्रोत से अपनी प्रारंभिक स्थिति में आता है और जिसका विश्लेषण या संगठन नहीं किया गया है। यह समझने के लिए कि डेटा सेट में क्या हो रहा है, इसे एक ऐसे प्रारूप में व्यवस्थित करना आवश्यक है, जिसे मनुष्य और वह तकनीक समझ सके, जिसका उपयोग वे इसे और अधिक विश्लेषण करने के लिए कर सकते हैं। डेटा सेट की संरचना यह बताती है कि इसे कैसे व्यवस्थित किया गया है और इसे संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत किया जा सकता है। ये संरचनाएं स्रोत के आधार पर भिन्न हो सकती हैं, लेकिन अंततः इन तीन श्रेणियों में फिट होती हैं।

### मात्रात्मक डेटा (Quantitative Data)
मात्रात्मक डेटा डेटा सेट के भीतर संख्यात्मक अवलोकन है और आमतौर पर इसका विश्लेषण, मापन और गणितीय रूप से उपयोग किया जा सकता है। मात्रात्मक डेटा के कुछ उदाहरण हैं: किसी देश की जनसंख्या, किसी व्यक्ति की ऊंचाई या किसी कंपनी की तिमाही आय। कुछ अतिरिक्त विश्लेषण के साथ, मात्रात्मक डेटा का उपयोग वायु गुणवत्ता सूचकांक (AQI) के मौसमी रुझानों की खोज करने या किसी सामान्य कार्य दिवस पर ट्रैफिक की संभावना का अनुमान लगाने के लिए किया जा सकता है।

### गुणात्मक डेटा (Qualitative Data)
गुणात्मक डेटा, जिसे श्रेणीबद्ध डेटा (categorical data) भी कहा जाता है, वह डेटा है जिसे मात्रात्मक डेटा के अवलोकन की तरह वस्तुनिष्ठ रूप से मापा नहीं जा सकता। यह आमतौर पर विभिन्न प्रारूपों में व्यक्तिपरक डेटा होता है, जो किसी उत्पाद या प्रक्रिया की गुणवत्ता को कैप्चर करता है। कभी-कभी, गुणात्मक डेटा संख्यात्मक होता है, लेकिन इसे आमतौर पर गणितीय रूप से उपयोग नहीं किया जाता, जैसे फोन नंबर या टाइमस्टैम्प। गुणात्मक डेटा के कुछ उदाहरण हैं: वीडियो टिप्पणियां, कार का ब्रांड और मॉडल, या आपके सबसे करीबी दोस्तों का पसंदीदा रंग। गुणात्मक डेटा का उपयोग यह समझने के लिए किया जा सकता है कि उपभोक्ताओं को कौन से उत्पाद सबसे अधिक पसंद हैं या नौकरी आवेदन रिज्यूमे में लोकप्रिय कीवर्ड की पहचान करने के लिए।

### संरचित डेटा (Structured Data)
संरचित डेटा वह डेटा है, जिसे पंक्तियों और स्तंभों में व्यवस्थित किया गया है, जहां प्रत्येक पंक्ति में समान सेट के स्तंभ होंगे। स्तंभ किसी विशेष प्रकार के मान का प्रतिनिधित्व करते हैं और यह नामित होते हैं, जो यह बताते हैं कि मान क्या दर्शाता है, जबकि पंक्तियां वास्तविक मानों को रखती हैं। स्तंभों में अक्सर मानों पर एक विशिष्ट सेट के नियम या प्रतिबंध होते हैं, ताकि यह सुनिश्चित किया जा सके कि मान सही तरीके से स्तंभ का प्रतिनिधित्व करते हैं। उदाहरण के लिए, ग्राहकों की एक स्प्रेडशीट की कल्पना करें, जहां प्रत्येक पंक्ति में एक फोन नंबर होना चाहिए और फोन नंबरों में कभी भी वर्णमाला के अक्षर नहीं होने चाहिए। फोन नंबर स्तंभ पर यह सुनिश्चित करने के लिए नियम लागू किए जा सकते हैं कि यह कभी खाली न हो और केवल संख्याएं ही हों।

संरचित डेटा का एक लाभ यह है कि इसे इस तरह से व्यवस्थित किया जा सकता है कि इसे अन्य संरचित डेटा से जोड़ा जा सके। हालांकि, क्योंकि डेटा को एक विशिष्ट तरीके से व्यवस्थित करने के लिए डिज़ाइन किया गया है, इसकी समग्र संरचना में परिवर्तन करना काफी प्रयास ले सकता है। उदाहरण के लिए, ग्राहक स्प्रेडशीट में एक ईमेल स्तंभ जोड़ना, जो खाली नहीं हो सकता, इसका मतलब है कि आपको यह पता लगाना होगा कि मौजूदा ग्राहकों की पंक्तियों में इन मानों को कैसे जोड़ा जाए।

संरचित डेटा के उदाहरण: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर, बैंक स्टेटमेंट

### असंरचित डेटा (Unstructured Data)
असंरचित डेटा आमतौर पर पंक्तियों या स्तंभों में वर्गीकृत नहीं किया जा सकता और इसमें किसी प्रारूप या नियमों का सेट नहीं होता। क्योंकि असंरचित डेटा की संरचना पर कम प्रतिबंध होते हैं, इसकी तुलना में नए डेटा को जोड़ना आसान होता है। उदाहरण के लिए, यदि एक सेंसर जो हर 2 मिनट पर वायुमंडलीय दबाव का डेटा कैप्चर करता है, को एक अपडेट मिलता है, जो अब इसे तापमान मापने और रिकॉर्ड करने की अनुमति देता है, तो यदि यह असंरचित है, तो मौजूदा डेटा को बदलने की आवश्यकता नहीं होती। हालांकि, इस प्रकार के डेटा का विश्लेषण या जांच करने में अधिक समय लग सकता है। उदाहरण के लिए, एक वैज्ञानिक जो पिछले महीने के औसत तापमान को सेंसर के डेटा से निकालना चाहता है, लेकिन यह पाता है कि सेंसर ने अपने कुछ रिकॉर्ड किए गए डेटा में "e" दर्ज किया है, यह बताने के लिए कि यह टूट गया था, जिससे डेटा अधूरा हो गया।

असंरचित डेटा के उदाहरण: टेक्स्ट फाइलें, टेक्स्ट संदेश, वीडियो फाइलें

### अर्ध-संरचित डेटा (Semi-structured Data)
अर्ध-संरचित डेटा में ऐसी विशेषताएं होती हैं, जो इसे संरचित और असंरचित डेटा का संयोजन बनाती हैं। यह आमतौर पर पंक्तियों और स्तंभों के प्रारूप का पालन नहीं करता, लेकिन इसे इस तरह से व्यवस्थित किया जाता है, जिसे संरचित माना जाता है और यह एक निश्चित प्रारूप या नियमों के सेट का पालन कर सकता है। संरचना स्रोतों के बीच भिन्न होगी, जैसे कि एक अच्छी तरह से परिभाषित पदानुक्रम से लेकर कुछ अधिक लचीला, जो नई जानकारी के आसान एकीकरण की अनुमति देता है। मेटाडेटा संकेतक होते हैं, जो यह तय करने में मदद करते हैं कि डेटा को कैसे व्यवस्थित और संग्रहीत किया जाए और इसे डेटा के प्रकार के आधार पर विभिन्न नाम दिए जाते हैं। मेटाडेटा के कुछ सामान्य नाम हैं टैग, तत्व, इकाइयां और विशेषताएं। उदाहरण के लिए, एक सामान्य ईमेल संदेश में एक विषय, मुख्य भाग और प्राप्तकर्ताओं का एक सेट होगा और इसे इस आधार पर व्यवस्थित किया जा सकता है कि इसे किसने या कब भेजा।

अर्ध-संरचित डेटा के उदाहरण: HTML, CSV फाइलें, जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON)

## डेटा के स्रोत

डेटा स्रोत वह प्रारंभिक स्थान है, जहां डेटा उत्पन्न हुआ या "रहता" है और यह इस बात पर निर्भर करेगा कि इसे कैसे और कब एकत्र किया गया। उपयोगकर्ता द्वारा उत्पन्न डेटा को प्राथमिक डेटा कहा जाता है, जबकि माध्यमिक डेटा उस स्रोत से आता है, जिसने सामान्य उपयोग के लिए डेटा एकत्र किया है। उदाहरण के लिए, वर्षावन में अवलोकन एकत्र करने वाले वैज्ञानिकों का एक समूह प्राथमिक माना जाएगा और यदि वे इसे अन्य वैज्ञानिकों के साथ साझा करने का निर्णय लेते हैं, तो इसे उन लोगों के लिए माध्यमिक माना जाएगा, जो इसका उपयोग करते हैं।

डेटाबेस एक सामान्य स्रोत हैं और डेटा को होस्ट और बनाए रखने के लिए डेटाबेस प्रबंधन प्रणाली पर निर्भर करते हैं, जहां उपयोगकर्ता डेटा का पता लगाने के लिए क्वेरी नामक कमांड का उपयोग करते हैं। फाइलें डेटा स्रोत के रूप में ऑडियो, छवि और वीडियो फाइलें हो सकती हैं, साथ ही एक्सेल जैसी स्प्रेडशीट भी। इंटरनेट स्रोत डेटा को होस्ट करने के लिए एक सामान्य स्थान है, जहां डेटाबेस और फाइलें दोनों पाई जा सकती हैं। एप्लिकेशन प्रोग्रामिंग इंटरफेस, जिसे एपीआई भी कहा जाता है, प्रोग्रामर्स को इंटरनेट के माध्यम से बाहरी उपयोगकर्ताओं के साथ डेटा साझा करने के तरीके बनाने की अनुमति देते हैं, जबकि वेब स्क्रैपिंग एक वेब पेज से डेटा निकालने की प्रक्रिया है। [डेटा के साथ काम करने वाले पाठ](../../../../../../../../../2-Working-With-Data) विभिन्न डेटा स्रोतों का उपयोग करने पर ध्यान केंद्रित करते हैं।

## निष्कर्ष

इस पाठ में हमने सीखा:

- डेटा क्या है
- डेटा का वर्णन कैसे किया जाता है
- डेटा को कैसे वर्गीकृत और श्रेणीबद्ध किया जाता है
- डेटा कहां पाया जा सकता है

## 🚀 चुनौती

Kaggle खुले डेटा सेट्स का एक उत्कृष्ट स्रोत है। [डेटा सेट खोज उपकरण](https://www.kaggle.com/datasets) का उपयोग करके कुछ रोचक डेटा सेट खोजें और 3-5 डेटा सेट को इस मानदंड के साथ वर्गीकृत करें:

- क्या डेटा मात्रात्मक है या गुणात्मक?
- क्या डेटा संरचित, असंरचित या अर्ध-संरचित है?

## [पोस्ट-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)

## समीक्षा और स्व-अध्ययन

- Microsoft Learn की यह इकाई, जिसका शीर्षक है [अपने डेटा को वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), संरचित, अर्ध-संरचित और असंरचित डेटा का विस्तृत विवरण प्रदान करती है।

## असाइनमेंट

[डेटा सेट्स को वर्गीकृत करना](assignment.md)

**अस्वीकरण**:
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।