You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
114 lines
21 KiB
114 lines
21 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "5f8e7cdefa096664ae86f795be571580",
|
|
"translation_date": "2025-09-05T14:50:12+00:00",
|
|
"source_file": "5-Data-Science-In-Cloud/17-Introduction/README.md",
|
|
"language_code": "hi"
|
|
}
|
|
-->
|
|
# क्लाउड में डेटा साइंस का परिचय
|
|
|
|
| द्वारा ](../../sketchnotes/17-DataScience-Cloud.png)|
|
|
|:---:|
|
|
| क्लाउड में डेटा साइंस: परिचय - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ |
|
|
|
|
इस पाठ में, आप क्लाउड के मूल सिद्धांतों को समझेंगे, फिर आप देखेंगे कि डेटा साइंस प्रोजेक्ट्स को चलाने के लिए क्लाउड सेवाओं का उपयोग करना आपके लिए क्यों उपयोगी हो सकता है। इसके अलावा, हम क्लाउड में चलाए गए कुछ डेटा साइंस प्रोजेक्ट्स के उदाहरणों पर भी चर्चा करेंगे।
|
|
|
|
## [प्री-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/32)
|
|
|
|
## क्लाउड क्या है?
|
|
|
|
क्लाउड, या क्लाउड कंप्यूटिंग, इंटरनेट पर होस्ट की गई एक इंफ्रास्ट्रक्चर के माध्यम से पे-एज़-यू-गो मॉडल पर विभिन्न प्रकार की कंप्यूटिंग सेवाओं की डिलीवरी है। इन सेवाओं में स्टोरेज, डेटाबेस, नेटवर्किंग, सॉफ़्टवेयर, एनालिटिक्स और इंटेलिजेंट सेवाएं शामिल हैं।
|
|
|
|
आमतौर पर, हम सार्वजनिक, निजी और हाइब्रिड क्लाउड को निम्नलिखित प्रकार से अलग करते हैं:
|
|
|
|
* **सार्वजनिक क्लाउड**: सार्वजनिक क्लाउड एक तीसरे पक्ष के क्लाउड सेवा प्रदाता द्वारा संचालित होता है, जो अपनी कंप्यूटिंग संसाधनों को इंटरनेट के माध्यम से जनता को प्रदान करता है।
|
|
* **निजी क्लाउड**: निजी क्लाउड का उपयोग विशेष रूप से एक व्यवसाय या संगठन द्वारा किया जाता है, जिसमें सेवाएं और इंफ्रास्ट्रक्चर एक निजी नेटवर्क पर बनाए रखा जाता है।
|
|
* **हाइब्रिड क्लाउड**: हाइब्रिड क्लाउड एक प्रणाली है जो सार्वजनिक और निजी क्लाउड को जोड़ती है। उपयोगकर्ता ऑन-प्रिमाइसेस डेटा सेंटर का उपयोग करते हैं, जबकि डेटा और एप्लिकेशन को एक या अधिक सार्वजनिक क्लाउड पर चलाने की अनुमति देते हैं।
|
|
|
|
अधिकांश क्लाउड कंप्यूटिंग सेवाएं तीन श्रेणियों में आती हैं: इंफ्रास्ट्रक्चर ऐज़ ए सर्विस (IaaS), प्लेटफ़ॉर्म ऐज़ ए सर्विस (PaaS) और सॉफ़्टवेयर ऐज़ ए सर्विस (SaaS)।
|
|
|
|
* **इंफ्रास्ट्रक्चर ऐज़ ए सर्विस (IaaS)**: उपयोगकर्ता आईटी इंफ्रास्ट्रक्चर जैसे सर्वर, वर्चुअल मशीन (VMs), स्टोरेज, नेटवर्क, ऑपरेटिंग सिस्टम किराए पर लेते हैं।
|
|
* **प्लेटफ़ॉर्म ऐज़ ए सर्विस (PaaS)**: उपयोगकर्ता सॉफ़्टवेयर एप्लिकेशन विकसित करने, परीक्षण करने, डिलीवर करने और प्रबंधित करने के लिए एक वातावरण किराए पर लेते हैं। उपयोगकर्ताओं को सर्वर, स्टोरेज, नेटवर्क और डेटाबेस जैसी आधारभूत संरचना को सेटअप या प्रबंधित करने की चिंता करने की आवश्यकता नहीं होती।
|
|
* **सॉफ़्टवेयर ऐज़ ए सर्विस (SaaS)**: उपयोगकर्ता इंटरनेट के माध्यम से सॉफ़्टवेयर एप्लिकेशन तक पहुंच प्राप्त करते हैं, आमतौर पर मांग पर और सब्सक्रिप्शन आधार पर। उपयोगकर्ताओं को सॉफ़्टवेयर एप्लिकेशन की होस्टिंग, प्रबंधन, या रखरखाव जैसे सॉफ़्टवेयर अपग्रेड और सुरक्षा पैचिंग की चिंता करने की आवश्यकता नहीं होती।
|
|
|
|
कुछ प्रमुख क्लाउड प्रदाता हैं Amazon Web Services, Google Cloud Platform और Microsoft Azure।
|
|
|
|
## डेटा साइंस के लिए क्लाउड क्यों चुनें?
|
|
|
|
डेवलपर्स और आईटी पेशेवर कई कारणों से क्लाउड के साथ काम करना चुनते हैं, जिनमें निम्नलिखित शामिल हैं:
|
|
|
|
* **नवाचार**: आप अपने एप्लिकेशन को क्लाउड प्रदाताओं द्वारा बनाए गए नवीन सेवाओं को सीधे अपने ऐप्स में एकीकृत करके सशक्त बना सकते हैं।
|
|
* **लचीलापन**: आप केवल उन्हीं सेवाओं के लिए भुगतान करते हैं जिनकी आपको आवश्यकता होती है और सेवाओं की एक विस्तृत श्रृंखला से चुन सकते हैं। आप आमतौर पर पे-एज़-यू-गो मॉडल पर भुगतान करते हैं और अपनी आवश्यकताओं के अनुसार सेवाओं को अनुकूलित कर सकते हैं।
|
|
* **बजट**: आपको हार्डवेयर और सॉफ़्टवेयर खरीदने, ऑन-साइट डेटा सेंटर सेटअप और संचालन के लिए प्रारंभिक निवेश करने की आवश्यकता नहीं होती। आप केवल वही भुगतान करते हैं जो आप उपयोग करते हैं।
|
|
* **स्केलेबिलिटी**: आपके संसाधन आपके प्रोजेक्ट की आवश्यकताओं के अनुसार स्केल कर सकते हैं, जिसका मतलब है कि आपके ऐप्स बाहरी कारकों के अनुसार किसी भी समय अधिक या कम कंप्यूटिंग पावर, स्टोरेज और बैंडविड्थ का उपयोग कर सकते हैं।
|
|
* **उत्पादकता**: आप अपने व्यवसाय पर ध्यान केंद्रित कर सकते हैं बजाय उन कार्यों पर समय खर्च करने के जो कोई और प्रबंधित कर सकता है, जैसे डेटा सेंटर प्रबंधन।
|
|
* **विश्वसनीयता**: क्लाउड कंप्यूटिंग आपके डेटा का लगातार बैकअप लेने के कई तरीके प्रदान करता है और आप आपदा पुनर्प्राप्ति योजनाएं सेट कर सकते हैं ताकि संकट के समय भी आपका व्यवसाय और सेवाएं चालू रहें।
|
|
* **सुरक्षा**: आप उन नीतियों, तकनीकों और नियंत्रणों का लाभ उठा सकते हैं जो आपके प्रोजेक्ट की सुरक्षा को मजबूत करते हैं।
|
|
|
|
ये कुछ सामान्य कारण हैं जिनकी वजह से लोग क्लाउड सेवाओं का उपयोग करना चुनते हैं। अब जब हमें क्लाउड और इसके मुख्य लाभों की बेहतर समझ हो गई है, तो आइए डेटा वैज्ञानिकों और डेटा के साथ काम करने वाले डेवलपर्स की नौकरियों पर अधिक विशेष रूप से ध्यान दें, और क्लाउड उनके सामने आने वाली कई चुनौतियों में उनकी कैसे मदद कर सकता है:
|
|
|
|
* **बड़े पैमाने पर डेटा स्टोर करना**: बड़े सर्वर खरीदने, प्रबंधित करने और सुरक्षित रखने के बजाय, आप अपने डेटा को सीधे क्लाउड में स्टोर कर सकते हैं, जैसे Azure Cosmos DB, Azure SQL Database और Azure Data Lake Storage।
|
|
* **डेटा इंटीग्रेशन करना**: डेटा इंटीग्रेशन डेटा साइंस का एक महत्वपूर्ण हिस्सा है, जो आपको डेटा संग्रह से लेकर कार्रवाई करने तक का संक्रमण करने देता है। क्लाउड में उपलब्ध डेटा इंटीग्रेशन सेवाओं के साथ, आप विभिन्न स्रोतों से डेटा को एकत्रित, परिवर्तित और एकीकृत कर सकते हैं।
|
|
* **डेटा प्रोसेसिंग करना**: बड़े पैमाने पर डेटा प्रोसेसिंग के लिए बहुत अधिक कंप्यूटिंग पावर की आवश्यकता होती है, और हर किसी के पास इतनी शक्तिशाली मशीनें उपलब्ध नहीं होतीं। इसलिए, कई लोग सीधे क्लाउड की विशाल कंप्यूटिंग पावर का उपयोग करके अपने समाधान चलाने और तैनात करने का विकल्प चुनते हैं।
|
|
* **डेटा एनालिटिक्स सेवाओं का उपयोग करना**: क्लाउड सेवाएं जैसे Azure Synapse Analytics, Azure Stream Analytics और Azure Databricks आपके डेटा को उपयोगी अंतर्दृष्टि में बदलने में मदद करती हैं।
|
|
* **मशीन लर्निंग और डेटा इंटेलिजेंस सेवाओं का उपयोग करना**: शुरुआत से शुरू करने के बजाय, आप क्लाउड प्रदाता द्वारा प्रदान किए गए मशीन लर्निंग एल्गोरिदम का उपयोग कर सकते हैं, जैसे AzureML। आप स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच, कंप्यूटर विज़न और अन्य जैसी कॉग्निटिव सेवाओं का भी उपयोग कर सकते हैं।
|
|
|
|
## क्लाउड में डेटा साइंस के उदाहरण
|
|
|
|
आइए इसे कुछ परिदृश्यों के माध्यम से और अधिक स्पष्ट करें।
|
|
|
|
### रियल-टाइम सोशल मीडिया सेंटिमेंट एनालिसिस
|
|
हम एक सामान्य परिदृश्य से शुरुआत करेंगे जिसे मशीन लर्निंग शुरू करने वाले लोग अक्सर अध्ययन करते हैं: सोशल मीडिया सेंटिमेंट एनालिसिस।
|
|
|
|
मान लीजिए कि आप एक न्यूज़ मीडिया वेबसाइट चलाते हैं और आप लाइव डेटा का उपयोग करके यह समझना चाहते हैं कि आपके पाठक किस प्रकार की सामग्री में रुचि ले सकते हैं। इसके लिए, आप एक प्रोग्राम बना सकते हैं जो ट्विटर पर प्रकाशित डेटा का रियल-टाइम सेंटिमेंट एनालिसिस करता है, उन विषयों पर जो आपके पाठकों के लिए प्रासंगिक हैं।
|
|
|
|
मुख्य संकेतक जिन पर आप ध्यान देंगे, वे हैं विशिष्ट विषयों (हैशटैग) पर ट्वीट्स की मात्रा और सेंटिमेंट, जिसे विश्लेषणात्मक उपकरणों द्वारा स्थापित किया जाता है जो निर्दिष्ट विषयों के आसपास सेंटिमेंट एनालिसिस करते हैं।
|
|
|
|
इस प्रोजेक्ट को बनाने के लिए आवश्यक चरण निम्नलिखित हैं:
|
|
|
|
* इनपुट स्ट्रीमिंग के लिए एक इवेंट हब बनाएं, जो ट्विटर से डेटा एकत्र करेगा।
|
|
* एक ट्विटर क्लाइंट एप्लिकेशन कॉन्फ़िगर और शुरू करें, जो ट्विटर स्ट्रीमिंग APIs को कॉल करेगा।
|
|
* एक स्ट्रीम एनालिटिक्स जॉब बनाएं।
|
|
* जॉब इनपुट और क्वेरी निर्दिष्ट करें।
|
|
* एक आउटपुट सिंक बनाएं और जॉब आउटपुट निर्दिष्ट करें।
|
|
* जॉब शुरू करें।
|
|
|
|
पूरी प्रक्रिया देखने के लिए, [डॉक्यूमेंटेशन](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099) देखें।
|
|
|
|
### वैज्ञानिक पेपर्स का विश्लेषण
|
|
आइए इस पाठ्यक्रम के एक लेखक [दिमित्री सॉश्निकोव](http://soshnikov.com) द्वारा बनाए गए एक प्रोजेक्ट का उदाहरण लें।
|
|
|
|
दिमित्री ने एक टूल बनाया जो COVID पेपर्स का विश्लेषण करता है। इस प्रोजेक्ट की समीक्षा करके, आप देखेंगे कि कैसे आप एक टूल बना सकते हैं जो वैज्ञानिक पेपर्स से ज्ञान निकालता है, अंतर्दृष्टि प्राप्त करता है और शोधकर्ताओं को पेपर्स के बड़े संग्रह को कुशलतापूर्वक नेविगेट करने में मदद करता है।
|
|
|
|
आइए इस प्रोजेक्ट में उपयोग किए गए विभिन्न चरणों को देखें:
|
|
|
|
* [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) के साथ जानकारी निकालना और प्री-प्रोसेसिंग करना।
|
|
* [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) का उपयोग करके प्रोसेसिंग को पैरेललाइज करना।
|
|
* [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) के साथ जानकारी को स्टोर और क्वेरी करना।
|
|
* डेटा एक्सप्लोरेशन और विज़ुअलाइज़ेशन के लिए एक इंटरैक्टिव डैशबोर्ड बनाना, Power BI का उपयोग करके।
|
|
|
|
पूरी प्रक्रिया देखने के लिए, [दिमित्री का ब्लॉग](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/) देखें।
|
|
|
|
जैसा कि आप देख सकते हैं, क्लाउड सेवाओं का उपयोग करके डेटा साइंस को कई तरीकों से किया जा सकता है।
|
|
|
|
## फुटनोट
|
|
|
|
स्रोत:
|
|
* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
|
|
* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
|
|
* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
|
|
|
|
## पोस्ट-लेक्चर क्विज़
|
|
|
|
## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/33)
|
|
|
|
## असाइनमेंट
|
|
|
|
[मार्केट रिसर्च](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं। |