You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mr/5-Data-Science-In-Cloud/17-Introduction/README.md

21 KiB

क्लाउडमधील डेटा सायन्सची ओळख

 Sketchnote by (@sketchthedocs)
क्लाउडमधील डेटा सायन्स: ओळख - Sketchnote by @nitya

या धड्यात तुम्ही क्लाउडचे मूलभूत तत्त्व शिकाल, त्यानंतर तुम्हाला कळेल की तुमचे डेटा सायन्स प्रकल्प चालवण्यासाठी क्लाउड सेवा वापरणे तुमच्यासाठी का उपयुक्त ठरू शकते आणि आम्ही क्लाउडमध्ये चालवलेल्या काही डेटा सायन्स प्रकल्पांचे उदाहरण पाहू.

पूर्व-व्याख्यान प्रश्नमंजुषा

क्लाउड म्हणजे काय?

क्लाउड किंवा क्लाउड कंप्युटिंग म्हणजे इंटरनेटवर होस्ट केलेल्या पायाभूत सुविधांवर आधारित पे-आयज-यू-गो पद्धतीने विविध प्रकारच्या संगणकीय सेवांचे वितरण. या सेवांमध्ये स्टोरेज, डेटाबेस, नेटवर्किंग, सॉफ्टवेअर, अॅनालिटिक्स आणि बुद्धिमान सेवा यासारख्या उपायांचा समावेश होतो.

सामान्यतः सार्वजनिक, खाजगी आणि हायब्रिड क्लाउड यामध्ये खालीलप्रमाणे फरक केला जातो:

  • सार्वजनिक क्लाउड: सार्वजनिक क्लाउड तृतीय-पक्ष क्लाउड सेवा प्रदात्याद्वारे मालकीचे आणि चालवले जाते, जे त्याचे संगणकीय संसाधने इंटरनेटद्वारे सार्वजनिकपणे वितरित करते.
  • खाजगी क्लाउड: खाजगी क्लाउड म्हणजे एका व्यवसाय किंवा संस्थेद्वारे विशेषतः वापरले जाणारे क्लाउड संगणकीय संसाधने, ज्यामध्ये सेवा आणि पायाभूत सुविधा खाजगी नेटवर्कवर देखरेख केली जाते.
  • हायब्रिड क्लाउड: हायब्रिड क्लाउड म्हणजे सार्वजनिक आणि खाजगी क्लाउड्सचे संयोजन असलेली प्रणाली. वापरकर्ते ऑन-प्रिमायसेस डेटासेंटर निवडतात, तर डेटा आणि अॅप्लिकेशन्स एक किंवा अधिक सार्वजनिक क्लाउड्सवर चालवण्याची परवानगी देतात.

बहुतेक क्लाउड संगणकीय सेवा तीन श्रेणींमध्ये विभागल्या जातात: पायाभूत सुविधा सेवा (IaaS), प्लॅटफॉर्म सेवा (PaaS) आणि सॉफ्टवेअर सेवा (SaaS).

  • पायाभूत सुविधा सेवा (IaaS): वापरकर्ते सर्व्हर, व्हर्च्युअल मशीन (VMs), स्टोरेज, नेटवर्क्स, ऑपरेटिंग सिस्टम यासारखी IT पायाभूत सुविधा भाड्याने घेतात.
  • प्लॅटफॉर्म सेवा (PaaS): वापरकर्ते सॉफ्टवेअर अॅप्लिकेशन्स विकसित, चाचणी, वितरण आणि व्यवस्थापनासाठी एक वातावरण भाड्याने घेतात. वापरकर्त्यांना विकासासाठी आवश्यक असलेल्या सर्व्हर, स्टोरेज, नेटवर्क आणि डेटाबेसच्या पायाभूत सुविधांची सेटअप किंवा व्यवस्थापनाची चिंता करण्याची गरज नाही.
  • सॉफ्टवेअर सेवा (SaaS): वापरकर्त्यांना इंटरनेटद्वारे ऑन-डिमांड सॉफ्टवेअर अॅप्लिकेशन्सवर प्रवेश मिळतो, सामान्यतः सदस्यता पद्धतीने. वापरकर्त्यांना सॉफ्टवेअर अॅप्लिकेशन होस्टिंग आणि व्यवस्थापन, पायाभूत सुविधा किंवा देखभाल, जसे सॉफ्टवेअर अपग्रेड्स आणि सुरक्षा पॅचिंग याची चिंता करण्याची गरज नाही.

क्लाउड सेवा पुरवठादारांमध्ये Amazon Web Services, Google Cloud Platform आणि Microsoft Azure हे प्रमुख आहेत.

डेटा सायन्ससाठी क्लाउड का निवडावे?

विकसक आणि IT व्यावसायिक अनेक कारणांसाठी क्लाउडसोबत काम करणे निवडतात, त्यामध्ये खालील गोष्टींचा समावेश आहे:

  • नाविन्यपूर्णता: तुम्ही तुमच्या अॅप्लिकेशन्समध्ये क्लाउड प्रदात्यांनी तयार केलेल्या नाविन्यपूर्ण सेवांचा समावेश करून त्यांना अधिक शक्तिशाली बनवू शकता.
  • लवचिकता: तुम्ही फक्त तुम्हाला आवश्यक असलेल्या सेवांसाठी पैसे देता आणि सेवांचा विस्तृत पर्याय निवडू शकता. तुम्ही सामान्यतः पे-आयज-यू-गो पद्धतीने पैसे देता आणि तुमच्या बदलत्या गरजेनुसार सेवांचे अनुकूलन करता.
  • बजेट: तुम्हाला हार्डवेअर आणि सॉफ्टवेअर खरेदी करण्यासाठी, ऑन-साइट डेटासेंटर सेटअप आणि चालवण्यासाठी प्रारंभिक गुंतवणूक करण्याची गरज नाही; तुम्ही फक्त वापरलेल्या सेवांसाठी पैसे देऊ शकता.
  • स्केलेबिलिटी: तुमच्या प्रकल्पाच्या गरजेनुसार तुमची संसाधने स्केल होऊ शकतात, म्हणजे तुमचे अॅप्स अधिक किंवा कमी संगणकीय शक्ती, स्टोरेज आणि बँडविड्थ वापरू शकतात, बाह्य घटकांनुसार कोणत्याही वेळी अनुकूलन करू शकतात.
  • उत्पादकता: तुम्ही डेटासेंटर व्यवस्थापनासारख्या इतर कोणीतरी व्यवस्थापित करू शकणाऱ्या कामांवर वेळ खर्च न करता तुमच्या व्यवसायावर लक्ष केंद्रित करू शकता.
  • विश्वासार्हता: क्लाउड कंप्युटिंग तुमचा डेटा सतत बॅकअप करण्याचे अनेक मार्ग देते आणि तुम्ही आपत्ती पुनर्प्राप्ती योजना सेट करू शकता, ज्यामुळे संकटाच्या काळातही तुमचा व्यवसाय आणि सेवा चालू राहतील.
  • सुरक्षा: तुम्ही तुमच्या प्रकल्पाची सुरक्षा मजबूत करणाऱ्या धोरणे, तंत्रज्ञान आणि नियंत्रणांचा लाभ घेऊ शकता.

ही काही सामान्य कारणे आहेत ज्यामुळे लोक क्लाउड सेवा वापरणे निवडतात. आता आपल्याला क्लाउड काय आहे आणि त्याचे मुख्य फायदे काय आहेत याची चांगली समज आहे, चला डेटा सायंटिस्ट्स आणि डेटा सोबत काम करणाऱ्या विकसकांच्या कामांवर अधिक विशिष्टपणे लक्ष केंद्रित करूया आणि क्लाउड त्यांना सामोरे जाणाऱ्या अनेक आव्हानांमध्ये कशी मदत करू शकते ते पाहूया:

  • मोठ्या प्रमाणात डेटा संग्रहित करणे: मोठे सर्व्हर खरेदी, व्यवस्थापन आणि संरक्षण करण्याऐवजी तुम्ही तुमचा डेटा थेट क्लाउडमध्ये संग्रहित करू शकता, जसे Azure Cosmos DB, Azure SQL Database आणि Azure Data Lake Storage.
  • डेटा एकत्रीकरण करणे: डेटा सायन्समध्ये डेटा एकत्रीकरण हा एक महत्त्वाचा भाग आहे, जो तुम्हाला डेटा संकलनातून कृती करण्याकडे संक्रमण करण्यास मदत करतो. क्लाउडमध्ये ऑफर केलेल्या डेटा एकत्रीकरण सेवांसह, तुम्ही विविध स्रोतांमधून डेटा संकलित, रूपांतरित आणि एकत्रित करून एकाच डेटा वेअरहाऊसमध्ये ठेवू शकता, जसे Data Factory.
  • डेटा प्रक्रिया करणे: मोठ्या प्रमाणात डेटा प्रक्रिया करण्यासाठी खूप संगणकीय शक्ती आवश्यक असते, आणि प्रत्येकाकडे ती शक्तिशाली यंत्रे उपलब्ध नसतात, म्हणूनच अनेक लोक त्यांच्या उपाययोजना चालवण्यासाठी आणि तैनात करण्यासाठी थेट क्लाउडची प्रचंड संगणकीय शक्ती वापरणे निवडतात.
  • डेटा अॅनालिटिक्स सेवा वापरणे: Azure Synapse Analytics, Azure Stream Analytics आणि Azure Databricks सारख्या क्लाउड सेवांचा वापर करून तुमचा डेटा कृतीशील अंतर्दृष्टीमध्ये बदलणे.
  • मशीन लर्निंग आणि डेटा इंटेलिजन्स सेवा वापरणे: सुरुवातीपासून सुरुवात करण्याऐवजी, तुम्ही क्लाउड प्रदात्याद्वारे ऑफर केलेले मशीन लर्निंग अल्गोरिदम वापरू शकता, जसे AzureML. तुम्ही स्पीच-टू-टेक्स्ट, टेक्स्ट टू स्पीच, कॉम्प्युटर व्हिजन आणि इतर कॉग्निटिव्ह सेवांचा वापर देखील करू शकता.

क्लाउडमधील डेटा सायन्सचे उदाहरणे

चला काही उदाहरणे पाहून हे अधिक स्पष्ट करूया.

रिअल-टाइम सोशल मीडिया भावना विश्लेषण

चला मशीन लर्निंगसह सुरुवात करणाऱ्या लोकांनी सामान्यतः अभ्यास केलेल्या एका उदाहरणाकडे पाहूया: रिअल-टाइम सोशल मीडिया भावना विश्लेषण.

समजा तुम्ही एक न्यूज मीडिया वेबसाइट चालवता आणि तुम्हाला तुमच्या वाचकांना कोणत्या प्रकारची सामग्री आवडेल हे समजण्यासाठी थेट डेटा वापरायचा आहे. याबद्दल अधिक जाणून घेण्यासाठी, तुम्ही एक प्रोग्राम तयार करू शकता जो ट्विटरवरील प्रकाशनांमधील डेटा विश्लेषण करून वाचकांसाठी संबंधित विषयांवर रिअल-टाइम भावना विश्लेषण करतो.

तुम्ही पाहणारे मुख्य निर्देशक म्हणजे विशिष्ट विषयांवरील (हॅशटॅग्स) ट्विट्सची संख्या आणि भावना, जी विशिष्ट विषयांभोवती भावना विश्लेषण करणाऱ्या अॅनालिटिक्स टूल्सद्वारे स्थापित केली जाते.

हा प्रकल्प तयार करण्यासाठी आवश्यक पायऱ्या खालीलप्रमाणे आहेत:

  • इनपुट स्ट्रीमिंगसाठी इव्हेंट हब तयार करा, जो ट्विटरमधून डेटा संकलित करेल.
  • ट्विटर स्ट्रीमिंग APIs कॉल करणारे ट्विटर क्लायंट अॅप्लिकेशन कॉन्फिगर करा आणि सुरू करा.
  • स्ट्रीम अॅनालिटिक्स जॉब तयार करा.
  • जॉब इनपुट आणि क्वेरी निर्दिष्ट करा.
  • आउटपुट सिंक तयार करा आणि जॉब आउटपुट निर्दिष्ट करा.
  • जॉब सुरू करा.

पूर्ण प्रक्रिया पाहण्यासाठी डॉक्युमेंटेशन पहा.

वैज्ञानिक पेपर्स विश्लेषण

चला या अभ्यासक्रमातील लेखकांपैकी एक दिमित्री सॉश्निकोव्ह यांनी तयार केलेल्या प्रकल्पाचे आणखी एक उदाहरण पाहूया.

दिमित्रीने COVID पेपर्सचे विश्लेषण करणारे एक टूल तयार केले. हा प्रकल्प पाहून तुम्हाला कळेल की वैज्ञानिक पेपर्समधून ज्ञान कसे काढायचे, अंतर्दृष्टी कशी मिळवायची आणि संशोधकांना मोठ्या प्रमाणात पेपर्सच्या संग्रहातून कार्यक्षमतेने नेव्हिगेट करण्यात कसे मदत करायचे.

या प्रकल्पासाठी वापरलेल्या विविध पायऱ्या पाहूया:

  • Text Analytics for Health वापरून माहिती काढणे आणि पूर्व-प्रक्रिया करणे.
  • Azure ML वापरून प्रक्रिया समांतरित करणे.
  • Cosmos DB वापरून माहिती संग्रहित करणे आणि क्वेरी करणे.
  • Power BI वापरून डेटा एक्सप्लोरेशन आणि व्हिज्युअलायझेशनसाठी इंटरॅक्टिव डॅशबोर्ड तयार करणे.

पूर्ण प्रक्रिया पाहण्यासाठी दिमित्रीचा ब्लॉग पहा.

जसे तुम्ही पाहू शकता, क्लाउड सेवांचा उपयोग करून डेटा सायन्स करण्याचे अनेक मार्ग आहेत.

फूटनोट

स्रोत:

व्याख्यानानंतरची प्रश्नमंजुषा

व्याख्यानानंतरची प्रश्नमंजुषा

असाइनमेंट

मार्केट रिसर्च


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.