|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
क्लाउड में डेटा साइंस का परिचय
![]() |
---|
क्लाउड में डेटा साइंस: परिचय - स्केच नोट @nitya द्वारा |
इस पाठ में, आप क्लाउड के मूलभूत सिद्धांतों को समझेंगे, फिर आप देखेंगे कि क्यों क्लाउड सेवाओं का उपयोग करके अपने डेटा साइंस प्रोजेक्ट्स को चलाना आपके लिए दिलचस्प हो सकता है। इसके अलावा, हम क्लाउड में चलाए गए कुछ डेटा साइंस प्रोजेक्ट्स के उदाहरणों पर भी नज़र डालेंगे।
प्री-लेक्चर क्विज़
क्लाउड क्या है?
क्लाउड, या क्लाउड कंप्यूटिंग, इंटरनेट पर होस्ट की गई एक इंफ्रास्ट्रक्चर पर पे-एज़-यू-गो मॉडल के तहत विभिन्न प्रकार की कंप्यूटिंग सेवाओं की डिलीवरी है। इन सेवाओं में स्टोरेज, डेटाबेस, नेटवर्किंग, सॉफ़्टवेयर, एनालिटिक्स और इंटेलिजेंट सेवाएं शामिल हैं।
हम आमतौर पर पब्लिक, प्राइवेट और हाइब्रिड क्लाउड को निम्नलिखित रूप से अलग करते हैं:
- पब्लिक क्लाउड: पब्लिक क्लाउड एक तृतीय-पक्ष क्लाउड सेवा प्रदाता द्वारा स्वामित्व और संचालित होता है, जो अपनी कंप्यूटिंग संसाधनों को इंटरनेट के माध्यम से जनता को प्रदान करता है।
- प्राइवेट क्लाउड: प्राइवेट क्लाउड का उपयोग विशेष रूप से एक व्यवसाय या संगठन द्वारा किया जाता है, जिसमें सेवाएं और इंफ्रास्ट्रक्चर एक निजी नेटवर्क पर बनाए रखा जाता है।
- हाइब्रिड क्लाउड: हाइब्रिड क्लाउड एक प्रणाली है जो पब्लिक और प्राइवेट क्लाउड को जोड़ती है। उपयोगकर्ता ऑन-प्रिमाइसेस डेटा सेंटर का उपयोग करते हैं, जबकि डेटा और एप्लिकेशन को एक या अधिक पब्लिक क्लाउड पर चलाने की अनुमति देते हैं।
अधिकांश क्लाउड कंप्यूटिंग सेवाएं तीन श्रेणियों में आती हैं: इंफ्रास्ट्रक्चर ऐज़ ए सर्विस (IaaS), प्लेटफ़ॉर्म ऐज़ ए सर्विस (PaaS) और सॉफ़्टवेयर ऐज़ ए सर्विस (SaaS)।
- इंफ्रास्ट्रक्चर ऐज़ ए सर्विस (IaaS): उपयोगकर्ता आईटी इंफ्रास्ट्रक्चर जैसे सर्वर और वर्चुअल मशीन (VMs), स्टोरेज, नेटवर्क, ऑपरेटिंग सिस्टम किराए पर लेते हैं।
- प्लेटफ़ॉर्म ऐज़ ए सर्विस (PaaS): उपयोगकर्ता सॉफ़्टवेयर एप्लिकेशन विकसित करने, परीक्षण करने, डिलीवर करने और प्रबंधित करने के लिए एक वातावरण किराए पर लेते हैं। उपयोगकर्ताओं को सर्वर, स्टोरेज, नेटवर्क और डेटाबेस की आधारभूत संरचना को सेटअप या प्रबंधित करने की चिंता करने की आवश्यकता नहीं होती।
- सॉफ़्टवेयर ऐज़ ए सर्विस (SaaS): उपयोगकर्ता इंटरनेट के माध्यम से सॉफ़्टवेयर एप्लिकेशन तक पहुंच प्राप्त करते हैं, आमतौर पर मांग पर और सब्सक्रिप्शन आधार पर। उपयोगकर्ताओं को सॉफ़्टवेयर एप्लिकेशन की होस्टिंग और प्रबंधन, आधारभूत संरचना या रखरखाव जैसे सॉफ़्टवेयर अपग्रेड और सुरक्षा पैचिंग की चिंता करने की आवश्यकता नहीं होती।
कुछ प्रमुख क्लाउड प्रदाता हैं Amazon Web Services, Google Cloud Platform और Microsoft Azure।
डेटा साइंस के लिए क्लाउड क्यों चुनें?
डेवलपर्स और आईटी पेशेवर कई कारणों से क्लाउड के साथ काम करना चुनते हैं, जिनमें निम्नलिखित शामिल हैं:
- नवाचार: आप अपने एप्लिकेशन को क्लाउड प्रदाताओं द्वारा बनाए गए नवीन सेवाओं को सीधे अपने ऐप्स में एकीकृत करके सशक्त बना सकते हैं।
- लचीलापन: आप केवल उन्हीं सेवाओं के लिए भुगतान करते हैं जिनकी आपको आवश्यकता होती है और सेवाओं की एक विस्तृत श्रृंखला से चुन सकते हैं। आप आमतौर पर पे-एज़-यू-गो मॉडल पर भुगतान करते हैं और अपनी आवश्यकताओं के अनुसार सेवाओं को अनुकूलित कर सकते हैं।
- बजट: आपको हार्डवेयर और सॉफ़्टवेयर खरीदने, ऑन-साइट डेटा सेंटर सेटअप और संचालन के लिए प्रारंभिक निवेश करने की आवश्यकता नहीं होती। आप केवल वही भुगतान करते हैं जो आप उपयोग करते हैं।
- स्केलेबिलिटी: आपके संसाधन आपके प्रोजेक्ट की आवश्यकताओं के अनुसार स्केल कर सकते हैं, जिसका अर्थ है कि आपके ऐप्स बाहरी कारकों के अनुसार किसी भी समय अधिक या कम कंप्यूटिंग पावर, स्टोरेज और बैंडविड्थ का उपयोग कर सकते हैं।
- उत्पादकता: आप अपने व्यवसाय पर ध्यान केंद्रित कर सकते हैं, बजाय उन कार्यों पर समय खर्च करने के जो कोई और प्रबंधित कर सकता है, जैसे डेटा सेंटर प्रबंधन।
- विश्वसनीयता: क्लाउड कंप्यूटिंग आपके डेटा का लगातार बैकअप लेने के कई तरीके प्रदान करता है और आप आपदा पुनर्प्राप्ति योजनाएं सेट कर सकते हैं ताकि संकट के समय भी आपका व्यवसाय और सेवाएं चालू रहें।
- सुरक्षा: आप नीतियों, तकनीकों और नियंत्रणों का लाभ उठा सकते हैं जो आपके प्रोजेक्ट की सुरक्षा को मजबूत करते हैं।
ये कुछ सामान्य कारण हैं कि लोग क्लाउड सेवाओं का उपयोग करना क्यों चुनते हैं। अब जब हमें क्लाउड और इसके मुख्य लाभों की बेहतर समझ हो गई है, तो आइए डेटा वैज्ञानिकों और डेटा के साथ काम करने वाले डेवलपर्स की नौकरियों पर अधिक विशेष रूप से नज़र डालें, और क्लाउड उनके सामने आने वाली कई चुनौतियों में उनकी मदद कैसे कर सकता है:
- बड़े पैमाने पर डेटा स्टोर करना: बड़े सर्वर खरीदने, प्रबंधित करने और सुरक्षित रखने के बजाय, आप अपने डेटा को सीधे क्लाउड में स्टोर कर सकते हैं, जैसे Azure Cosmos DB, Azure SQL Database और Azure Data Lake Storage।
- डेटा इंटीग्रेशन करना: डेटा इंटीग्रेशन डेटा साइंस का एक महत्वपूर्ण हिस्सा है, जो आपको डेटा संग्रह से लेकर कार्रवाई करने तक का संक्रमण करने देता है। क्लाउड में उपलब्ध डेटा इंटीग्रेशन सेवाओं के साथ, आप विभिन्न स्रोतों से डेटा को एकत्रित, परिवर्तित और एकीकृत करके एकल डेटा वेयरहाउस में ला सकते हैं, जैसे Data Factory।
- डेटा प्रोसेसिंग करना: बड़े पैमाने पर डेटा प्रोसेसिंग के लिए बहुत अधिक कंप्यूटिंग पावर की आवश्यकता होती है, और हर किसी के पास इतनी शक्तिशाली मशीनें उपलब्ध नहीं होतीं। यही कारण है कि कई लोग सीधे क्लाउड की विशाल कंप्यूटिंग पावर का उपयोग करके अपने समाधान चलाने और तैनात करने का विकल्प चुनते हैं।
- डेटा एनालिटिक्स सेवाओं का उपयोग करना: क्लाउड सेवाएं जैसे Azure Synapse Analytics, Azure Stream Analytics और Azure Databricks आपके डेटा को उपयोगी अंतर्दृष्टि में बदलने में मदद करती हैं।
- मशीन लर्निंग और डेटा इंटेलिजेंस सेवाओं का उपयोग करना: शुरुआत से शुरू करने के बजाय, आप क्लाउड प्रदाता द्वारा पेश किए गए मशीन लर्निंग एल्गोरिदम का उपयोग कर सकते हैं, जैसे AzureML। आप स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच, कंप्यूटर विज़न और अन्य जैसी कॉग्निटिव सेवाओं का भी उपयोग कर सकते हैं।
क्लाउड में डेटा साइंस के उदाहरण
आइए इसे कुछ परिदृश्यों के माध्यम से और अधिक स्पष्ट करें।
रियल-टाइम सोशल मीडिया सेंटिमेंट एनालिसिस
हम एक ऐसा परिदृश्य देखेंगे जो मशीन लर्निंग शुरू करने वाले लोगों द्वारा अक्सर अध्ययन किया जाता है: सोशल मीडिया सेंटिमेंट एनालिसिस रियल-टाइम में।
मान लीजिए कि आप एक न्यूज़ मीडिया वेबसाइट चलाते हैं और आप लाइव डेटा का उपयोग करके यह समझना चाहते हैं कि आपके पाठक किस प्रकार की सामग्री में रुचि ले सकते हैं। इसके लिए, आप एक प्रोग्राम बना सकते हैं जो ट्विटर पर प्रकाशित डेटा का रियल-टाइम सेंटिमेंट एनालिसिस करता है, उन विषयों पर जो आपके पाठकों के लिए प्रासंगिक हैं।
मुख्य संकेतक जिन पर आप ध्यान देंगे, वे हैं विशिष्ट विषयों (हैशटैग) पर ट्वीट्स की मात्रा और सेंटिमेंट, जिसे विश्लेषणात्मक उपकरणों का उपयोग करके स्थापित किया जाता है जो निर्दिष्ट विषयों के आसपास सेंटिमेंट एनालिसिस करते हैं।
इस प्रोजेक्ट को बनाने के लिए आवश्यक चरण निम्नलिखित हैं:
- इनपुट स्ट्रीमिंग के लिए एक इवेंट हब बनाएं, जो ट्विटर से डेटा एकत्र करेगा।
- एक ट्विटर क्लाइंट एप्लिकेशन कॉन्फ़िगर और शुरू करें, जो ट्विटर स्ट्रीमिंग APIs को कॉल करेगा।
- एक स्ट्रीम एनालिटिक्स जॉब बनाएं।
- जॉब इनपुट और क्वेरी निर्दिष्ट करें।
- एक आउटपुट सिंक बनाएं और जॉब आउटपुट निर्दिष्ट करें।
- जॉब शुरू करें।
पूरी प्रक्रिया देखने के लिए, डॉक्यूमेंटेशन देखें।
वैज्ञानिक पेपर्स का विश्लेषण
आइए इस पाठ्यक्रम के एक लेखक दिमित्री सॉश्निकोव द्वारा बनाए गए एक प्रोजेक्ट का उदाहरण लें।
दिमित्री ने एक टूल बनाया जो COVID पेपर्स का विश्लेषण करता है। इस प्रोजेक्ट की समीक्षा करके, आप देखेंगे कि कैसे आप एक टूल बना सकते हैं जो वैज्ञानिक पेपर्स से ज्ञान निकालता है, अंतर्दृष्टि प्राप्त करता है और शोधकर्ताओं को पेपर्स के बड़े संग्रह को कुशलतापूर्वक नेविगेट करने में मदद करता है।
आइए इस प्रोजेक्ट में उपयोग किए गए विभिन्न चरणों को देखें:
- Text Analytics for Health का उपयोग करके जानकारी निकालना और प्री-प्रोसेसिंग करना।
- Azure ML का उपयोग करके प्रोसेसिंग को पैरेललाइज करना।
- Cosmos DB का उपयोग करके जानकारी को स्टोर और क्वेरी करना।
- डेटा एक्सप्लोरेशन और विज़ुअलाइज़ेशन के लिए एक इंटरैक्टिव डैशबोर्ड बनाना, Power BI का उपयोग करके।
पूरी प्रक्रिया देखने के लिए, दिमित्री का ब्लॉग देखें।
जैसा कि आप देख सकते हैं, हम क्लाउड सेवाओं का उपयोग करके कई तरीकों से डेटा साइंस कर सकते हैं।
फुटनोट
स्रोत:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
पोस्ट-लेक्चर क्विज़
असाइनमेंट
अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।