History

leestott ddda89c203 🌐 Update translations via Co-op Translator		2 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	2 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	4 weeks ago

README.md

डेटा को परिभाषित करना


डेटा को परिभाषित करना - @nitya द्वारा स्केच नोट

डेटा तथ्य, जानकारी, अवलोकन और माप हैं जो खोज करने और सूचित निर्णय लेने में सहायता के लिए उपयोग किए जाते हैं। एक डेटा पॉइंट डेटा का एक एकल इकाई है जो एक डेटा सेट के भीतर होता है, जो डेटा पॉइंट्स का संग्रह होता है। डेटा सेट विभिन्न प्रारूपों और संरचनाओं में आ सकते हैं, और आमतौर पर यह उनके स्रोत या डेटा के उत्पन्न होने के स्थान पर आधारित होते हैं। उदाहरण के लिए, किसी कंपनी की मासिक आय स्प्रेडशीट में हो सकती है, लेकिन स्मार्टवॉच से प्राप्त घंटेवार हार्ट रेट डेटा JSON प्रारूप में हो सकता है। डेटा वैज्ञानिकों के लिए यह सामान्य है कि वे एक डेटा सेट के भीतर विभिन्न प्रकार के डेटा के साथ काम करें।

यह पाठ डेटा की विशेषताओं और उसके स्रोतों के आधार पर उसे पहचानने और वर्गीकृत करने पर केंद्रित है।

प्री-लेक्चर क्विज़

डेटा का वर्णन कैसे किया जाता है

कच्चा डेटा

कच्चा डेटा वह डेटा है जो अपने स्रोत से अपनी प्रारंभिक अवस्था में आता है और जिसका विश्लेषण या संगठन नहीं किया गया है। यह समझने के लिए कि डेटा सेट में क्या हो रहा है, इसे एक ऐसे प्रारूप में व्यवस्थित करने की आवश्यकता होती है जिसे मनुष्य और वह तकनीक समझ सके जो इसे आगे विश्लेषण करने के लिए उपयोग की जा सकती है। डेटा सेट की संरचना यह बताती है कि इसे कैसे व्यवस्थित किया गया है और इसे संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत किया जा सकता है। ये संरचना प्रकार स्रोत के आधार पर भिन्न होंगे लेकिन अंततः इन तीन श्रेणियों में फिट होंगे।

मात्रात्मक डेटा

मात्रात्मक डेटा डेटा सेट के भीतर संख्यात्मक अवलोकन होते हैं और आमतौर पर इन्हें विश्लेषण, माप और गणितीय रूप से उपयोग किया जा सकता है। मात्रात्मक डेटा के कुछ उदाहरण हैं: किसी देश की जनसंख्या, किसी व्यक्ति की ऊंचाई या किसी कंपनी की तिमाही आय। कुछ अतिरिक्त विश्लेषण के साथ, मात्रात्मक डेटा का उपयोग वायु गुणवत्ता सूचकांक (AQI) के मौसमी रुझानों की खोज करने या एक सामान्य कार्य दिवस पर ट्रैफिक की संभावना का अनुमान लगाने के लिए किया जा सकता है।

गुणात्मक डेटा

गुणात्मक डेटा, जिसे श्रेणीबद्ध डेटा भी कहा जाता है, वह डेटा है जिसे मात्रात्मक डेटा के अवलोकन की तरह वस्तुनिष्ठ रूप से मापा नहीं जा सकता। यह आमतौर पर विभिन्न प्रारूपों में व्यक्तिपरक डेटा होता है जो किसी उत्पाद या प्रक्रिया की गुणवत्ता को कैप्चर करता है। कभी-कभी, गुणात्मक डेटा संख्यात्मक होता है लेकिन इसे आमतौर पर गणितीय रूप से उपयोग नहीं किया जाता, जैसे फोन नंबर या टाइमस्टैम्प। गुणात्मक डेटा के कुछ उदाहरण हैं: वीडियो टिप्पणियां, कार का ब्रांड और मॉडल या आपके सबसे करीबी दोस्तों का पसंदीदा रंग। गुणात्मक डेटा का उपयोग यह समझने के लिए किया जा सकता है कि उपभोक्ताओं को कौन से उत्पाद सबसे अधिक पसंद हैं या नौकरी आवेदन रिज्यूमे में लोकप्रिय कीवर्ड की पहचान करने के लिए।

संरचित डेटा

संरचित डेटा वह डेटा है जो पंक्तियों और स्तंभों में व्यवस्थित होता है, जहां प्रत्येक पंक्ति में समान सेट के स्तंभ होते हैं। स्तंभ किसी विशेष प्रकार के मान का प्रतिनिधित्व करते हैं और यह नाम द्वारा पहचाने जाते हैं जो यह बताता है कि मान क्या दर्शाता है, जबकि पंक्तियां वास्तविक मानों को रखती हैं। स्तंभों में अक्सर मानों पर एक विशिष्ट सेट के नियम या प्रतिबंध होते हैं, ताकि यह सुनिश्चित किया जा सके कि मान सटीक रूप से स्तंभ का प्रतिनिधित्व करते हैं। उदाहरण के लिए, ग्राहकों की एक स्प्रेडशीट की कल्पना करें जहां प्रत्येक पंक्ति में एक फोन नंबर होना चाहिए और फोन नंबरों में कभी भी वर्णमाला के अक्षर नहीं होते। फोन नंबर स्तंभ पर नियम लागू किए जा सकते हैं ताकि यह सुनिश्चित किया जा सके कि यह कभी खाली न हो और केवल संख्याएं ही हों।

संरचित डेटा का एक लाभ यह है कि इसे इस तरह से व्यवस्थित किया जा सकता है कि इसे अन्य संरचित डेटा से संबंधित किया जा सके। हालांकि, क्योंकि डेटा को एक विशिष्ट तरीके से व्यवस्थित करने के लिए डिज़ाइन किया गया है, इसकी समग्र संरचना में परिवर्तन करना काफी प्रयास ले सकता है। उदाहरण के लिए, ग्राहक स्प्रेडशीट में एक ईमेल स्तंभ जोड़ना जो खाली नहीं हो सकता, इसका मतलब है कि आपको यह पता लगाना होगा कि आप मौजूदा ग्राहकों की पंक्तियों में इन मानों को कैसे जोड़ेंगे।

संरचित डेटा के उदाहरण: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर, बैंक स्टेटमेंट

असंरचित डेटा

असंरचित डेटा आमतौर पर पंक्तियों या स्तंभों में वर्गीकृत नहीं किया जा सकता और इसमें कोई प्रारूप या नियमों का सेट नहीं होता। क्योंकि असंरचित डेटा की संरचना पर कम प्रतिबंध होते हैं, इसकी तुलना में नए जानकारी को जोड़ना आसान होता है। यदि एक सेंसर जो हर 2 मिनट पर वायुमंडलीय दबाव का डेटा कैप्चर करता है, उसे एक अपडेट प्राप्त होता है जो अब इसे तापमान को मापने और रिकॉर्ड करने की अनुमति देता है, तो यदि यह असंरचित है तो मौजूदा डेटा को बदलने की आवश्यकता नहीं होती। हालांकि, इस प्रकार के डेटा का विश्लेषण या जांच करने में अधिक समय लग सकता है। उदाहरण के लिए, एक वैज्ञानिक जो पिछले महीने के औसत तापमान को सेंसर के डेटा से निकालना चाहता है, लेकिन यह पता चलता है कि सेंसर ने अपने रिकॉर्ड किए गए डेटा में "e" दर्ज किया है ताकि यह नोट किया जा सके कि यह टूट गया था, जिससे डेटा अधूरा हो गया।

असंरचित डेटा के उदाहरण: टेक्स्ट फाइलें, टेक्स्ट संदेश, वीडियो फाइलें

अर्ध-संरचित डेटा

अर्ध-संरचित डेटा में ऐसी विशेषताएं होती हैं जो इसे संरचित और असंरचित डेटा का संयोजन बनाती हैं। यह आमतौर पर पंक्तियों और स्तंभों के प्रारूप का पालन नहीं करता लेकिन इसे इस तरह से व्यवस्थित किया जाता है जिसे संरचित माना जाता है और यह एक निश्चित प्रारूप या नियमों का सेट का पालन कर सकता है। संरचना स्रोतों के बीच भिन्न होगी, जैसे कि एक अच्छी तरह से परिभाषित पदानुक्रम से लेकर कुछ अधिक लचीला जो नई जानकारी के आसान एकीकरण की अनुमति देता है। मेटाडेटा संकेतक होते हैं जो यह तय करने में मदद करते हैं कि डेटा कैसे व्यवस्थित और संग्रहीत किया गया है और डेटा के प्रकार के आधार पर इनके विभिन्न नाम होते हैं। मेटाडेटा के कुछ सामान्य नाम हैं टैग, तत्व, इकाइयां और विशेषताएं। उदाहरण के लिए, एक सामान्य ईमेल संदेश में एक विषय, बॉडी और प्राप्तकर्ताओं का सेट होता है और इसे किसने या कब भेजा गया था के आधार पर व्यवस्थित किया जा सकता है।

अर्ध-संरचित डेटा के उदाहरण: HTML, CSV फाइलें, जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON)

डेटा के स्रोत

डेटा स्रोत वह प्रारंभिक स्थान है जहां डेटा उत्पन्न हुआ था, या जहां यह "रहता" है और यह इस बात पर निर्भर करेगा कि इसे कैसे और कब एकत्र किया गया। उपयोगकर्ता द्वारा उत्पन्न डेटा को प्राथमिक डेटा कहा जाता है जबकि द्वितीयक डेटा उस स्रोत से आता है जिसने सामान्य उपयोग के लिए डेटा एकत्र किया है। उदाहरण के लिए, वैज्ञानिकों का एक समूह जो वर्षावन में अवलोकन एकत्र करता है, उसे प्राथमिक माना जाएगा और यदि वे इसे अन्य वैज्ञानिकों के साथ साझा करने का निर्णय लेते हैं तो इसे उन लोगों के लिए द्वितीयक माना जाएगा जो इसका उपयोग करते हैं।

डेटाबेस एक सामान्य स्रोत हैं और डेटाबेस प्रबंधन प्रणाली पर निर्भर करते हैं जो डेटा को होस्ट और बनाए रखता है, जहां उपयोगकर्ता डेटा का पता लगाने के लिए क्वेरी नामक कमांड का उपयोग करते हैं। फाइलें डेटा स्रोत के रूप में ऑडियो, इमेज और वीडियो फाइलें हो सकती हैं, साथ ही एक्सेल जैसी स्प्रेडशीट भी। इंटरनेट स्रोत डेटा को होस्ट करने के लिए एक सामान्य स्थान है, जहां डेटाबेस और फाइलें दोनों पाई जा सकती हैं। एप्लिकेशन प्रोग्रामिंग इंटरफेस, जिसे API भी कहा जाता है, प्रोग्रामर को इंटरनेट के माध्यम से बाहरी उपयोगकर्ताओं के साथ डेटा साझा करने के तरीके बनाने की अनुमति देता है, जबकि वेब स्क्रैपिंग प्रक्रिया वेब पेज से डेटा निकालती है। डेटा के साथ काम करने वाले पाठ विभिन्न डेटा स्रोतों का उपयोग करने पर केंद्रित हैं।

निष्कर्ष

इस पाठ में हमने सीखा:

डेटा क्या है
डेटा का वर्णन कैसे किया जाता है
डेटा को कैसे वर्गीकृत और श्रेणीबद्ध किया जाता है
डेटा कहां पाया जा सकता है

🚀 चुनौती

Kaggle खुले डेटा सेट्स का एक उत्कृष्ट स्रोत है। डेटा सेट खोज उपकरण का उपयोग करके कुछ रोचक डेटा सेट खोजें और 3-5 डेटा सेट को इस मानदंड के साथ वर्गीकृत करें:

क्या डेटा मात्रात्मक है या गुणात्मक?
क्या डेटा संरचित, असंरचित या अर्ध-संरचित है?

पोस्ट-लेक्चर क्विज़

समीक्षा और स्व-अध्ययन

Microsoft Learn का यह यूनिट, जिसका शीर्षक है अपने डेटा को वर्गीकृत करें, संरचित, अर्ध-संरचित और असंरचित डेटा का विस्तृत विवरण प्रदान करता है।

असाइनमेंट

डेटा सेट्स को वर्गीकृत करना

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।