## डेटा के प्रकार जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। हमें बस इसे सही तरीके से कैप्चर करना है! यह **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। संरचित डेटा आमतौर पर किसी सुव्यवस्थित रूप में प्रस्तुत किया जाता है, अक्सर एक तालिका या कई तालिकाओं के रूप में, जबकि असंरचित डेटा केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा की भी बात कर सकते हैं, जिसमें कुछ हद तक संरचना होती है, लेकिन यह काफी भिन्न हो सकती है। | संरचित | अर्ध-संरचित | असंरचित | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | ------------------------------------- | | लोगों की सूची उनके फोन नंबरों के साथ | विकिपीडिया पेज जिनमें लिंक शामिल हैं | एनसाइक्लोपीडिया ब्रिटानिका का पाठ | | पिछले 20 वर्षों में हर मिनट पर एक इमारत के सभी कमरों का तापमान | वैज्ञानिक पत्रों का संग्रह JSON प्रारूप में, जिसमें लेखक, प्रकाशन की तारीख और सार शामिल हैं | कॉर्पोरेट दस्तावेज़ों के साथ फाइल शेयर | | इमारत में प्रवेश करने वाले सभी लोगों की उम्र और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फीड | ## डेटा कहां से प्राप्त करें डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालांकि, आइए कुछ सामान्य स्थानों का उल्लेख करें जहां से आप डेटा प्राप्त कर सकते हैं: * **संरचित** - **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें विभिन्न सेंसरों (जैसे तापमान या दबाव सेंसर) से डेटा शामिल है, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि किसी कार्यालय भवन में IoT सेंसर लगे हैं, तो हम स्वचालित रूप से हीटिंग और लाइटिंग को नियंत्रित कर सकते हैं ताकि लागत को कम किया जा सके। - **सर्वेक्षण**, जो हम उपयोगकर्ताओं से खरीदारी के बाद या किसी वेबसाइट पर जाने के बाद पूरा करने के लिए कहते हैं। - **व्यवहार का विश्लेषण**, जो हमें यह समझने में मदद कर सकता है कि उपयोगकर्ता साइट पर कितनी गहराई तक जाते हैं और साइट छोड़ने का सामान्य कारण क्या है। * **असंरचित** - **पाठ** एक समृद्ध अंतर्दृष्टि का स्रोत हो सकता है, जैसे समग्र **भाव स्कोर**, या कीवर्ड और अर्थपूर्ण जानकारी निकालना। - **छवियां** या **वीडियो**। निगरानी कैमरे से वीडियो का उपयोग सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए किया जा सकता है। - वेब सर्वर **लॉग्स** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पेज सबसे अधिक बार देखे जाते हैं और कितनी देर तक। * **अर्ध-संरचित** - **सोशल नेटवर्क** ग्राफ उपयोगकर्ता व्यक्तित्व और जानकारी फैलाने में संभावित प्रभावशीलता के बारे में डेटा के महान स्रोत हो सकते हैं। - जब हमारे पास किसी पार्टी की ढेर सारी तस्वीरें होती हैं, तो हम एक-दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **समूह गतिशीलता** डेटा निकालने की कोशिश कर सकते हैं। विभिन्न संभावित डेटा स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोच सकते हैं जहां डेटा विज्ञान तकनीकों का उपयोग स्थिति को बेहतर ढंग से समझने और व्यावसायिक प्रक्रियाओं में सुधार करने के लिए किया जा सकता है। ## डेटा के साथ आप क्या कर सकते हैं डेटा विज्ञान में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं: ## डिजिटलीकरण और डिजिटल परिवर्तन पिछले दशक में, कई व्यवसायों ने यह समझना शुरू कर दिया है कि व्यावसायिक निर्णय लेने में डेटा कितना महत्वपूर्ण है। व्यवसाय चलाने में डेटा विज्ञान के सिद्धांतों को लागू करने के लिए, सबसे पहले कुछ डेटा एकत्र करना आवश्यक है, यानी व्यावसायिक प्रक्रियाओं को डिजिटल रूप में अनुवादित करना। इसे **डिजिटलीकरण** कहा जाता है। इस डेटा पर डेटा विज्ञान तकनीकों को लागू करना और निर्णय लेने का मार्गदर्शन करना उत्पादकता में महत्वपूर्ण वृद्धि (या यहां तक कि व्यवसाय में बदलाव) ला सकता है, जिसे **डिजिटल परिवर्तन** कहा जाता है। आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान कोर्स है (जैसे यह कोर्स) जिसे हम छात्रों को ऑनलाइन प्रदान करते हैं, और हम इसे बेहतर बनाने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम इसे कैसे कर सकते हैं? हम यह पूछकर शुरू कर सकते हैं, "क्या डिजिटलीकृत किया जा सकता है?" सबसे सरल तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल पूरा करने में लगने वाले समय को मापा जाए, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षण देकर प्राप्त ज्ञान को मापा जाए। सभी छात्रों के बीच औसत समय-से-पूर्णता का पता लगाकर, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाई पैदा करते हैं और उन्हें सरल बनाने पर काम कर सकते हैं। आप यह तर्क दे सकते हैं कि यह तरीका आदर्श नहीं है, क्योंकि मॉड्यूल्स की लंबाई अलग-अलग हो सकती है। शायद समय को मॉड्यूल की लंबाई (अक्षरों की संख्या में) के आधार पर विभाजित करना और उन मानों की तुलना करना अधिक उचित होगा। जब हम बहुविकल्पीय परीक्षाओं के परिणामों का विश्लेषण शुरू करते हैं, तो हम यह पता लगाने की कोशिश कर सकते हैं कि छात्र किन अवधारणाओं को समझने में कठिनाई महसूस करते हैं, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षाओं को इस तरह से डिज़ाइन करना होगा कि प्रत्येक प्रश्न किसी विशेष अवधारणा या ज्ञान के हिस्से से जुड़ा हो। अगर हम इसे और अधिक जटिल बनाना चाहें, तो हम प्रत्येक मॉड्यूल में लगने वाले समय को छात्रों की आयु श्रेणी के साथ तुलना कर सकते हैं। हमें यह पता चल सकता है कि कुछ आयु श्रेणियों के लिए मॉड्यूल पूरा करने में अनुचित रूप से अधिक समय लगता है, या छात्र इसे पूरा करने से पहले ही छोड़ देते हैं। यह हमें मॉड्यूल के लिए आयु अनुशंसाएँ प्रदान करने में मदद कर सकता है और गलत अपेक्षाओं से होने वाली असंतुष्टि को कम कर सकता है। ## 🚀 चुनौती इस चुनौती में, हम डेटा साइंस के क्षेत्र से संबंधित अवधारणाओं को खोजने की कोशिश करेंगे, और इसके लिए हम पाठों का विश्लेषण करेंगे। हम डेटा साइंस पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और प्रोसेस करेंगे, और फिर एक वर्ड क्लाउड बनाएंगे, जैसा कि नीचे दिखाया गया है: ![डेटा साइंस के लिए वर्ड क्लाउड](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.hi.png) [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') पर जाएं और कोड को पढ़ें। आप कोड को चला भी सकते हैं और देख सकते हैं कि यह वास्तविक समय में सभी डेटा ट्रांसफॉर्मेशन कैसे करता है। > अगर आपको पता नहीं है कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) को देखें। ## [पोस्ट-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) ## असाइनमेंट्स * **कार्य 1**: ऊपर दिए गए कोड को संशोधित करें ताकि **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाया जा सके। * **कार्य 2**: [डेटा साइंस परिदृश्यों के बारे में सोचें](assignment.md) ## क्रेडिट्स यह पाठ ♥️ के साथ [दिमित्री सॉश्निकोव](http://soshnikov.com) द्वारा लिखा गया है। **अस्वीकरण**: यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।