22 KiB
क्लाउडमा डेटा विज्ञानको परिचय
![]() |
---|
क्लाउडमा डेटा विज्ञान: परिचय - Sketchnote by @nitya |
यस पाठमा, तपाईं क्लाउडको आधारभूत सिद्धान्तहरू सिक्नुहुनेछ, त्यसपछि तपाईंले क्लाउड सेवाहरू प्रयोग गरेर डेटा विज्ञान परियोजनाहरू सञ्चालन गर्न किन रोचक हुन सक्छ भन्ने देख्नुहुनेछ, र हामी क्लाउडमा सञ्चालन गरिएका केही डेटा विज्ञान परियोजनाहरूको उदाहरणहरू हेर्नेछौं।
पाठ अघि क्विज
क्लाउड के हो?
क्लाउड, वा क्लाउड कम्प्युटिङ, इन्टरनेटमा होस्ट गरिएको पूर्वाधारमा आधारित विभिन्न प्रकारका पे-एज-यू-गो कम्प्युटिङ सेवाहरूको आपूर्ति हो। सेवाहरूमा भण्डारण, डाटाबेस, नेटवर्किङ, सफ्टवेयर, एनालिटिक्स, र बौद्धिक सेवाहरू जस्ता समाधानहरू समावेश छन्।
हामी सामान्यतया सार्वजनिक, निजी र हाइब्रिड क्लाउडलाई निम्नानुसार फरक पार्छौं:
- सार्वजनिक क्लाउड: सार्वजनिक क्लाउड तेस्रो-पक्ष क्लाउड सेवा प्रदायकद्वारा स्वामित्व र सञ्चालन गरिन्छ, जसले इन्टरनेटमार्फत सार्वजनिकलाई कम्प्युटिङ स्रोतहरू प्रदान गर्दछ।
- निजी क्लाउड: निजी क्लाउड भनेको एकल व्यवसाय वा संगठनद्वारा मात्र प्रयोग गरिने क्लाउड कम्प्युटिङ स्रोतहरू हो, जसमा सेवाहरू र पूर्वाधार निजी नेटवर्कमा मर्मत गरिन्छ।
- हाइब्रिड क्लाउड: हाइब्रिड क्लाउड भनेको सार्वजनिक र निजी क्लाउडहरूको संयोजन हो। प्रयोगकर्ताहरूले अन-प्रिमाइस डाटासेन्टर रोज्छन्, जबकि डेटा र एप्लिकेसनहरू एक वा बढी सार्वजनिक क्लाउडहरूमा सञ्चालन गर्न अनुमति दिन्छन्।
धेरै क्लाउड कम्प्युटिङ सेवाहरू तीन श्रेणीहरूमा पर्दछन्: पूर्वाधार सेवा (IaaS), प्लेटफर्म सेवा (PaaS) र सफ्टवेयर सेवा (SaaS)।
- पूर्वाधार सेवा (IaaS): प्रयोगकर्ताहरूले सर्भरहरू, भर्चुअल मेसिनहरू (VMs), भण्डारण, नेटवर्कहरू, अपरेटिङ सिस्टमहरू जस्ता आईटी पूर्वाधार भाडामा लिन्छन्।
- प्लेटफर्म सेवा (PaaS): प्रयोगकर्ताहरूले सफ्टवेयर एप्लिकेसनहरू विकास, परीक्षण, डेलिभर र व्यवस्थापन गर्न वातावरण भाडामा लिन्छन्। प्रयोगकर्ताहरूले विकासका लागि आवश्यक सर्भरहरू, भण्डारण, नेटवर्क र डाटाबेसहरूको पूर्वाधार सेटअप वा व्यवस्थापनको चिन्ता लिनु पर्दैन।
- सफ्टवेयर सेवा (SaaS): प्रयोगकर्ताहरूले इन्टरनेटमार्फत सफ्टवेयर एप्लिकेसनहरू पहुँच गर्छन्, माग अनुसार र सामान्यतया सदस्यता आधारमा। प्रयोगकर्ताहरूले सफ्टवेयर एप्लिकेसन होस्टिङ र व्यवस्थापन, पूर्वाधार वा मर्मत, जस्तै सफ्टवेयर अपग्रेड र सुरक्षा प्याचिङको चिन्ता लिनु पर्दैन।
सबैभन्दा ठूला क्लाउड प्रदायकहरूमा Amazon Web Services, Google Cloud Platform र Microsoft Azure समावेश छन्।
डेटा विज्ञानका लागि क्लाउड किन रोज्ने?
डेभलपरहरू र आईटी पेशेवरहरूले क्लाउडसँग काम गर्न निम्न कारणहरू सहित धेरै कारणहरू रोज्छन्:
- नवप्रवर्तन: तपाईं आफ्नो एप्लिकेसनहरूलाई क्लाउड प्रदायकद्वारा सिर्जना गरिएका नवीन सेवाहरूलाई सिधै एकीकृत गरेर शक्ति दिन सक्नुहुन्छ।
- लचिलोपन: तपाईंले आवश्यक सेवाहरूको लागि मात्र तिर्नुहुन्छ र सेवाहरूको विस्तृत दायरा रोज्न सक्नुहुन्छ। सामान्यतया, तपाईंले पे-एज-यू-गो तिर्नुहुन्छ र आफ्नो आवश्यकताहरू अनुसार सेवाहरू अनुकूलन गर्न सक्नुहुन्छ।
- बजेट: तपाईंले हार्डवेयर र सफ्टवेयर किन्न, सेटअप गर्न र अन-साइट डाटासेन्टरहरू सञ्चालन गर्न प्रारम्भिक लगानी गर्न आवश्यक छैन। तपाईंले केवल प्रयोग गरेको मात्र तिर्न सक्नुहुन्छ।
- स्केलेबिलिटी: तपाईंको स्रोतहरू परियोजनाको आवश्यकताहरू अनुसार स्केल गर्न सकिन्छ, जसको अर्थ तपाईंको एप्सले कुनै पनि समयमा बाह्य कारकहरूमा अनुकूलन गरेर बढी वा कम कम्प्युटिङ शक्ति, भण्डारण र ब्यान्डविथ प्रयोग गर्न सक्छ।
- उत्पादकता: तपाईं आफ्नो व्यवसायमा ध्यान केन्द्रित गर्न सक्नुहुन्छ, जस्तै डाटासेन्टर व्यवस्थापन जस्ता कार्यहरू अरूले व्यवस्थापन गर्न सक्ने समय खर्च नगरी।
- विश्वसनीयता: क्लाउड कम्प्युटिङले तपाईंको डेटा निरन्तर ब्याकअप गर्न धेरै तरिकाहरू प्रदान गर्दछ र तपाईं आपतकालीन पुन:प्राप्ति योजनाहरू सेटअप गर्न सक्नुहुन्छ ताकि संकटको समयमा पनि तपाईंको व्यवसाय र सेवाहरू सञ्चालनमा रहोस्।
- सुरक्षा: तपाईं आफ्नो परियोजनाको सुरक्षा बलियो बनाउने नीतिहरू, प्रविधिहरू र नियन्त्रणहरूको फाइदा लिन सक्नुहुन्छ।
यी क्लाउड सेवाहरू प्रयोग गर्ने सामान्य कारणहरू हुन्। अब हामीले क्लाउड के हो र यसको मुख्य फाइदाहरू के हुन् भन्ने राम्रोसँग बुझिसकेपछि, डेटा वैज्ञानिकहरू र डेटा संग काम गर्ने डेभलपरहरूको काममा विशेष रूपमा हेर्नेछौं, र क्लाउडले उनीहरूले सामना गर्न सक्ने विभिन्न चुनौतीहरूमा कसरी मद्दत गर्न सक्छ:
- ठूलो मात्रामा डेटा भण्डारण: ठूला सर्भरहरू किन्न, व्यवस्थापन गर्न र सुरक्षा गर्नुभन्दा, तपाईं आफ्नो डेटा सिधै क्लाउडमा भण्डारण गर्न सक्नुहुन्छ, जस्तै Azure Cosmos DB, Azure SQL Database र Azure Data Lake Storage जस्ता समाधानहरू।
- डेटा एकीकरण प्रदर्शन: डेटा एकीकरण डेटा विज्ञानको एक आवश्यक भाग हो, जसले तपाईंलाई डेटा सङ्कलनबाट कार्यहरूमा रूपान्तरण गर्न अनुमति दिन्छ। क्लाउडमा प्रस्ताव गरिएको डेटा एकीकरण सेवाहरूको साथ, तपाईं विभिन्न स्रोतहरूबाट डेटा सङ्कलन, रूपान्तरण र एकल डेटा वेयरहाउसमा एकीकृत गर्न सक्नुहुन्छ, Data Factory प्रयोग गरेर।
- डेटा प्रशोधन: ठूलो मात्रामा डेटा प्रशोधन गर्न धेरै कम्प्युटिङ शक्ति आवश्यक हुन्छ, र सबैसँग त्यसका लागि पर्याप्त शक्तिशाली मेसिनहरू पहुँच हुँदैन। यही कारणले धेरै मानिसहरूले आफ्नो समाधानहरू सञ्चालन र तैनात गर्न क्लाउडको ठूलो कम्प्युटिङ शक्ति सिधै प्रयोग गर्न रोज्छन्।
- डेटा एनालिटिक्स सेवाहरू प्रयोग गर्दै: क्लाउड सेवाहरू जस्तै Azure Synapse Analytics, Azure Stream Analytics र Azure Databricks तपाईंलाई आफ्नो डेटा कार्यात्मक जानकारीमा रूपान्तरण गर्न मद्दत गर्न।
- मेसिन लर्निङ र डेटा बुद्धिमत्ता सेवाहरू प्रयोग गर्दै: सुरुबाट सुरु गर्नुभन्दा, तपाईं क्लाउड प्रदायकद्वारा प्रस्ताव गरिएको मेसिन लर्निङ एल्गोरिदमहरू प्रयोग गर्न सक्नुहुन्छ, जस्तै AzureML। तपाईंले स्पीच-टु-टेक्स्ट, टेक्स्ट-टु-स्पीच, कम्प्युटर भिजन र अन्य जस्ता संज्ञानात्मक सेवाहरू पनि प्रयोग गर्न सक्नुहुन्छ।
क्लाउडमा डेटा विज्ञानका उदाहरणहरू
अब हामी केही परिदृश्यहरू हेरेर यसलाई थप ठोस बनाउँछौं।
वास्तविक-समय सामाजिक सञ्जाल भावना विश्लेषण
हामी मेसिन लर्निङसँग सुरु गर्ने व्यक्तिहरूले सामान्यतया अध्ययन गर्ने परिदृश्यबाट सुरु गर्नेछौं: वास्तविक-समयमा सामाजिक सञ्जाल भावना विश्लेषण।
मानौं तपाईं समाचार मिडिया वेबसाइट सञ्चालन गर्नुहुन्छ र तपाईं आफ्नो पाठकहरूलाई चासो लाग्न सक्ने सामग्री बुझ्न प्रत्यक्ष डेटा प्रयोग गर्न चाहनुहुन्छ। यसबारे थप जान्न, तपाईंले ट्विटर प्रकाशनहरूबाट वास्तविक-समय भावना विश्लेषण गर्ने कार्यक्रम निर्माण गर्न सक्नुहुन्छ, तपाईंका पाठकहरूका लागि सान्दर्भिक विषयहरूमा।
तपाईंले हेर्ने मुख्य सूचकहरू भनेका छन्: विशेष विषयहरू (ह्यासट्यागहरू) मा ट्वीटहरूको मात्रा र भावना, जुन निर्दिष्ट विषयहरू वरिपरि भावना विश्लेषण गर्ने एनालिटिक्स उपकरणहरू प्रयोग गरेर स्थापित गरिन्छ।
यो परियोजना सिर्जना गर्न आवश्यक चरणहरू निम्न छन्:
- इनपुट स्ट्रिमिङको लागि इभेन्ट हब सिर्जना गर्नुहोस्, जसले ट्विटरबाट डेटा सङ्कलन गर्नेछ।
- ट्विटर स्ट्रिमिङ APIs कल गर्ने ट्विटर क्लाइन्ट एप्लिकेसन कन्फिगर र सुरु गर्नुहोस्।
- स्ट्रिम एनालिटिक्स काम सिर्जना गर्नुहोस्।
- कामको इनपुट र क्वेरी निर्दिष्ट गर्नुहोस्।
- आउटपुट सिंक सिर्जना गर्नुहोस् र कामको आउटपुट निर्दिष्ट गर्नुहोस्।
- काम सुरु गर्नुहोस्।
पूरा प्रक्रिया हेर्न, डकुमेन्टेशन हेर्नुहोस्।
वैज्ञानिक कागजातहरूको विश्लेषण
अब हामी यस पाठ्यक्रमका लेखकहरू मध्ये एक दिमित्री सोश्निकोभ द्वारा सिर्जना गरिएको परियोजनाको अर्को उदाहरण लिन्छौं।
दिमित्रीले COVID कागजातहरू विश्लेषण गर्ने उपकरण सिर्जना गरे। यस परियोजनालाई समीक्षा गरेर, तपाईंले कसरी वैज्ञानिक कागजातहरूबाट ज्ञान निकाल्ने, जानकारी प्राप्त गर्ने र अनुसन्धानकर्ताहरूलाई कागजातहरूको ठूलो सङ्कलनलाई प्रभावकारी रूपमा नेभिगेट गर्न मद्दत गर्ने उपकरण सिर्जना गर्न सकिन्छ भन्ने देख्नुहुनेछ।
यसका लागि प्रयोग गरिएका विभिन्न चरणहरू हेर्नुहोस्:
- Text Analytics for Health प्रयोग गरेर जानकारी निकाल्ने र पूर्व-प्रशोधन गर्ने।
- Azure ML प्रयोग गरेर प्रशोधनलाई समानान्तर बनाउने।
- Cosmos DB प्रयोग गरेर जानकारी भण्डारण र क्वेरी गर्ने।
- Power BI प्रयोग गरेर डेटा अन्वेषण र दृश्यात्मकता लागि अन्तरक्रियात्मक ड्यासबोर्ड सिर्जना गर्नुहोस्।
पूरा प्रक्रिया हेर्न, दिमित्रीको ब्लग भ्रमण गर्नुहोस्।
जस्तो देखिन्छ, हामी क्लाउड सेवाहरूलाई विभिन्न तरिकामा डेटा विज्ञान प्रदर्शन गर्न प्रयोग गर्न सक्छौं।
फुटनोट
स्रोतहरू:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
पाठ पछि क्विज
असाइनमेन्ट
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।