You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hi/1-Introduction/03-defining-data/README.md

85 lines
21 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "12339119c0165da569a93ddba05f9339",
"translation_date": "2025-09-05T15:05:08+00:00",
"source_file": "1-Introduction/03-defining-data/README.md",
"language_code": "hi"
}
-->
# डेटा को परिभाषित करना
|![ स्केच नोट [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|डेटा को परिभाषित करना - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ |
डेटा तथ्य, जानकारी, अवलोकन और माप हैं जो खोज करने और सूचित निर्णय लेने में सहायता के लिए उपयोग किए जाते हैं। एक डेटा पॉइंट डेटा का एक एकल इकाई है जो एक डेटा सेट के भीतर होता है, जो डेटा पॉइंट्स का संग्रह होता है। डेटा सेट विभिन्न प्रारूपों और संरचनाओं में आ सकते हैं, और आमतौर पर यह उनके स्रोत या डेटा के उत्पन्न होने के स्थान पर आधारित होते हैं। उदाहरण के लिए, किसी कंपनी की मासिक आय स्प्रेडशीट में हो सकती है, लेकिन स्मार्टवॉच से प्राप्त घंटेवार हार्ट रेट डेटा [JSON](https://stackoverflow.com/a/383699) प्रारूप में हो सकता है। डेटा वैज्ञानिकों के लिए यह सामान्य है कि वे एक डेटा सेट के भीतर विभिन्न प्रकार के डेटा के साथ काम करें।
यह पाठ डेटा की विशेषताओं और उसके स्रोतों के आधार पर उसे पहचानने और वर्गीकृत करने पर केंद्रित है।
## [प्री-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/4)
## डेटा का वर्णन कैसे किया जाता है
### कच्चा डेटा
कच्चा डेटा वह डेटा है जो अपने स्रोत से अपनी प्रारंभिक अवस्था में आता है और जिसका विश्लेषण या संगठन नहीं किया गया है। यह समझने के लिए कि डेटा सेट में क्या हो रहा है, इसे एक ऐसे प्रारूप में व्यवस्थित करने की आवश्यकता होती है जिसे मनुष्य और वह तकनीक समझ सके जो इसे आगे विश्लेषण करने के लिए उपयोग की जा सकती है। डेटा सेट की संरचना यह बताती है कि इसे कैसे व्यवस्थित किया गया है और इसे संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत किया जा सकता है। ये संरचना प्रकार स्रोत के आधार पर भिन्न होंगे लेकिन अंततः इन तीन श्रेणियों में फिट होंगे।
### मात्रात्मक डेटा
मात्रात्मक डेटा डेटा सेट के भीतर संख्यात्मक अवलोकन होते हैं और आमतौर पर इन्हें विश्लेषण, माप और गणितीय रूप से उपयोग किया जा सकता है। मात्रात्मक डेटा के कुछ उदाहरण हैं: किसी देश की जनसंख्या, किसी व्यक्ति की ऊंचाई या किसी कंपनी की तिमाही आय। कुछ अतिरिक्त विश्लेषण के साथ, मात्रात्मक डेटा का उपयोग वायु गुणवत्ता सूचकांक (AQI) के मौसमी रुझानों की खोज करने या एक सामान्य कार्य दिवस पर ट्रैफिक की संभावना का अनुमान लगाने के लिए किया जा सकता है।
### गुणात्मक डेटा
गुणात्मक डेटा, जिसे श्रेणीबद्ध डेटा भी कहा जाता है, वह डेटा है जिसे मात्रात्मक डेटा के अवलोकन की तरह वस्तुनिष्ठ रूप से मापा नहीं जा सकता। यह आमतौर पर विभिन्न प्रारूपों में व्यक्तिपरक डेटा होता है जो किसी उत्पाद या प्रक्रिया की गुणवत्ता को कैप्चर करता है। कभी-कभी, गुणात्मक डेटा संख्यात्मक होता है लेकिन इसे आमतौर पर गणितीय रूप से उपयोग नहीं किया जाता, जैसे फोन नंबर या टाइमस्टैम्प। गुणात्मक डेटा के कुछ उदाहरण हैं: वीडियो टिप्पणियां, कार का ब्रांड और मॉडल या आपके सबसे करीबी दोस्तों का पसंदीदा रंग। गुणात्मक डेटा का उपयोग यह समझने के लिए किया जा सकता है कि उपभोक्ताओं को कौन से उत्पाद सबसे अधिक पसंद हैं या नौकरी आवेदन रिज्यूमे में लोकप्रिय कीवर्ड की पहचान करने के लिए।
### संरचित डेटा
संरचित डेटा वह डेटा है जो पंक्तियों और स्तंभों में व्यवस्थित होता है, जहां प्रत्येक पंक्ति में समान सेट के स्तंभ होते हैं। स्तंभ किसी विशेष प्रकार के मान का प्रतिनिधित्व करते हैं और यह नाम द्वारा पहचाने जाते हैं जो यह बताता है कि मान क्या दर्शाता है, जबकि पंक्तियां वास्तविक मानों को रखती हैं। स्तंभों में अक्सर मानों पर एक विशिष्ट सेट के नियम या प्रतिबंध होते हैं, ताकि यह सुनिश्चित किया जा सके कि मान सटीक रूप से स्तंभ का प्रतिनिधित्व करते हैं। उदाहरण के लिए, ग्राहकों की एक स्प्रेडशीट की कल्पना करें जहां प्रत्येक पंक्ति में एक फोन नंबर होना चाहिए और फोन नंबरों में कभी भी वर्णमाला के अक्षर नहीं होते। फोन नंबर स्तंभ पर नियम लागू किए जा सकते हैं ताकि यह सुनिश्चित किया जा सके कि यह कभी खाली न हो और केवल संख्याएं ही हों।
संरचित डेटा का एक लाभ यह है कि इसे इस तरह से व्यवस्थित किया जा सकता है कि इसे अन्य संरचित डेटा से संबंधित किया जा सके। हालांकि, क्योंकि डेटा को एक विशिष्ट तरीके से व्यवस्थित करने के लिए डिज़ाइन किया गया है, इसकी समग्र संरचना में परिवर्तन करना काफी प्रयास ले सकता है। उदाहरण के लिए, ग्राहक स्प्रेडशीट में एक ईमेल स्तंभ जोड़ना जो खाली नहीं हो सकता, इसका मतलब है कि आपको यह पता लगाना होगा कि आप मौजूदा ग्राहकों की पंक्तियों में इन मानों को कैसे जोड़ेंगे।
संरचित डेटा के उदाहरण: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर, बैंक स्टेटमेंट
### असंरचित डेटा
असंरचित डेटा आमतौर पर पंक्तियों या स्तंभों में वर्गीकृत नहीं किया जा सकता और इसमें कोई प्रारूप या नियमों का सेट नहीं होता। क्योंकि असंरचित डेटा की संरचना पर कम प्रतिबंध होते हैं, इसकी तुलना में नए जानकारी को जोड़ना आसान होता है। यदि एक सेंसर जो हर 2 मिनट पर वायुमंडलीय दबाव का डेटा कैप्चर करता है, उसे एक अपडेट प्राप्त होता है जो अब इसे तापमान को मापने और रिकॉर्ड करने की अनुमति देता है, तो यदि यह असंरचित है तो मौजूदा डेटा को बदलने की आवश्यकता नहीं होती। हालांकि, इस प्रकार के डेटा का विश्लेषण या जांच करने में अधिक समय लग सकता है। उदाहरण के लिए, एक वैज्ञानिक जो पिछले महीने के औसत तापमान को सेंसर के डेटा से निकालना चाहता है, लेकिन यह पता चलता है कि सेंसर ने अपने रिकॉर्ड किए गए डेटा में "e" दर्ज किया है ताकि यह नोट किया जा सके कि यह टूट गया था, जिससे डेटा अधूरा हो गया।
असंरचित डेटा के उदाहरण: टेक्स्ट फाइलें, टेक्स्ट संदेश, वीडियो फाइलें
### अर्ध-संरचित डेटा
अर्ध-संरचित डेटा में ऐसी विशेषताएं होती हैं जो इसे संरचित और असंरचित डेटा का संयोजन बनाती हैं। यह आमतौर पर पंक्तियों और स्तंभों के प्रारूप का पालन नहीं करता लेकिन इसे इस तरह से व्यवस्थित किया जाता है जिसे संरचित माना जाता है और यह एक निश्चित प्रारूप या नियमों का सेट का पालन कर सकता है। संरचना स्रोतों के बीच भिन्न होगी, जैसे कि एक अच्छी तरह से परिभाषित पदानुक्रम से लेकर कुछ अधिक लचीला जो नई जानकारी के आसान एकीकरण की अनुमति देता है। मेटाडेटा संकेतक होते हैं जो यह तय करने में मदद करते हैं कि डेटा कैसे व्यवस्थित और संग्रहीत किया गया है और डेटा के प्रकार के आधार पर इनके विभिन्न नाम होते हैं। मेटाडेटा के कुछ सामान्य नाम हैं टैग, तत्व, इकाइयां और विशेषताएं। उदाहरण के लिए, एक सामान्य ईमेल संदेश में एक विषय, बॉडी और प्राप्तकर्ताओं का सेट होता है और इसे किसने या कब भेजा गया था के आधार पर व्यवस्थित किया जा सकता है।
अर्ध-संरचित डेटा के उदाहरण: HTML, CSV फाइलें, जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON)
## डेटा के स्रोत
डेटा स्रोत वह प्रारंभिक स्थान है जहां डेटा उत्पन्न हुआ था, या जहां यह "रहता" है और यह इस बात पर निर्भर करेगा कि इसे कैसे और कब एकत्र किया गया। उपयोगकर्ता द्वारा उत्पन्न डेटा को प्राथमिक डेटा कहा जाता है जबकि द्वितीयक डेटा उस स्रोत से आता है जिसने सामान्य उपयोग के लिए डेटा एकत्र किया है। उदाहरण के लिए, वैज्ञानिकों का एक समूह जो वर्षावन में अवलोकन एकत्र करता है, उसे प्राथमिक माना जाएगा और यदि वे इसे अन्य वैज्ञानिकों के साथ साझा करने का निर्णय लेते हैं तो इसे उन लोगों के लिए द्वितीयक माना जाएगा जो इसका उपयोग करते हैं।
डेटाबेस एक सामान्य स्रोत हैं और डेटाबेस प्रबंधन प्रणाली पर निर्भर करते हैं जो डेटा को होस्ट और बनाए रखता है, जहां उपयोगकर्ता डेटा का पता लगाने के लिए क्वेरी नामक कमांड का उपयोग करते हैं। फाइलें डेटा स्रोत के रूप में ऑडियो, इमेज और वीडियो फाइलें हो सकती हैं, साथ ही एक्सेल जैसी स्प्रेडशीट भी। इंटरनेट स्रोत डेटा को होस्ट करने के लिए एक सामान्य स्थान है, जहां डेटाबेस और फाइलें दोनों पाई जा सकती हैं। एप्लिकेशन प्रोग्रामिंग इंटरफेस, जिसे API भी कहा जाता है, प्रोग्रामर को इंटरनेट के माध्यम से बाहरी उपयोगकर्ताओं के साथ डेटा साझा करने के तरीके बनाने की अनुमति देता है, जबकि वेब स्क्रैपिंग प्रक्रिया वेब पेज से डेटा निकालती है। [डेटा के साथ काम करने वाले पाठ](../../../../../../../../../2-Working-With-Data) विभिन्न डेटा स्रोतों का उपयोग करने पर केंद्रित हैं।
## निष्कर्ष
इस पाठ में हमने सीखा:
- डेटा क्या है
- डेटा का वर्णन कैसे किया जाता है
- डेटा को कैसे वर्गीकृत और श्रेणीबद्ध किया जाता है
- डेटा कहां पाया जा सकता है
## 🚀 चुनौती
Kaggle खुले डेटा सेट्स का एक उत्कृष्ट स्रोत है। [डेटा सेट खोज उपकरण](https://www.kaggle.com/datasets) का उपयोग करके कुछ रोचक डेटा सेट खोजें और 3-5 डेटा सेट को इस मानदंड के साथ वर्गीकृत करें:
- क्या डेटा मात्रात्मक है या गुणात्मक?
- क्या डेटा संरचित, असंरचित या अर्ध-संरचित है?
## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/5)
## समीक्षा और स्व-अध्ययन
- Microsoft Learn का यह यूनिट, जिसका शीर्षक है [अपने डेटा को वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), संरचित, अर्ध-संरचित और असंरचित डेटा का विस्तृत विवरण प्रदान करता है।
## असाइनमेंट
[डेटा सेट्स को वर्गीकृत करना](assignment.md)
---
**अस्वीकरण**:
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।