|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
| notebook.ipynb | 5 months ago | |
README.md
डेटा सायन्स जीवनचक्राची ओळख
![]() |
|---|
| डेटा सायन्स जीवनचक्राची ओळख - Sketchnote by @nitya |
पूर्व-व्याख्यान प्रश्नमंजुषा
आतापर्यंत तुम्हाला कदाचित हे लक्षात आले असेल की डेटा सायन्स हा एक प्रक्रिया आहे. ही प्रक्रिया 5 टप्प्यांमध्ये विभागली जाऊ शकते:
- डेटा संकलन
- प्रक्रिया
- विश्लेषण
- संवाद
- देखभाल
या धड्यात जीवनचक्राच्या 3 भागांवर लक्ष केंद्रित केले आहे: डेटा संकलन, प्रक्रिया आणि देखभाल.
फोटो Berkeley School of Information यांच्याकडून
डेटा संकलन
जीवनचक्राचा पहिला टप्पा अत्यंत महत्त्वाचा आहे कारण पुढील टप्पे त्यावर अवलंबून असतात. हा प्रत्यक्षात दोन टप्प्यांचा एकत्रित भाग आहे: डेटा मिळवणे आणि उद्दिष्टे व समस्यांचे परिभाषित करणे ज्यावर काम करायचे आहे.
प्रकल्पाचे उद्दिष्टे परिभाषित करण्यासाठी समस्येचा किंवा प्रश्नाचा सखोल संदर्भ आवश्यक आहे. प्रथम, आपल्याला त्या व्यक्तींची ओळख पटवावी लागेल ज्यांना त्यांची समस्या सोडवायची आहे. हे व्यवसायातील भागधारक किंवा प्रकल्पाचे प्रायोजक असू शकतात, जे प्रकल्पाचा फायदा कोणाला होईल, काय आणि का आवश्यक आहे हे ओळखण्यात मदत करू शकतात. चांगले परिभाषित उद्दिष्ट मोजण्यायोग्य आणि प्रमाणित असावे जेणेकरून स्वीकारार्ह परिणाम परिभाषित करता येईल.
डेटा सायंटिस्ट विचारू शकणारे प्रश्न:
- ही समस्या यापूर्वी सोडवण्याचा प्रयत्न झाला आहे का? काय शोधले गेले?
- सर्व संबंधित व्यक्तींना उद्दिष्टे आणि हेतू समजले आहेत का?
- कोणती अस्पष्टता आहे आणि ती कशी कमी करता येईल?
- मर्यादा काय आहेत?
- अंतिम परिणाम कसा दिसेल?
- किती संसाधने (वेळ, लोक, संगणकीय) उपलब्ध आहेत?
यानंतर, परिभाषित उद्दिष्टे साध्य करण्यासाठी आवश्यक डेटा ओळखणे, गोळा करणे आणि त्याचा शोध घेणे आवश्यक आहे. डेटा मिळवण्याच्या या टप्प्यावर, डेटा सायंटिस्ट्सला डेटाची प्रमाणता आणि गुणवत्ता देखील तपासावी लागते. यासाठी डेटा एक्सप्लोरेशन आवश्यक आहे जेणेकरून मिळवलेला डेटा इच्छित परिणाम साध्य करण्यास मदत करेल याची खात्री करता येईल.
डेटाबद्दल डेटा सायंटिस्ट विचारू शकणारे प्रश्न:
- माझ्याकडे आधीच कोणता डेटा उपलब्ध आहे?
- हा डेटा कोणाचा आहे?
- गोपनीयतेशी संबंधित कोणते मुद्दे आहेत?
- ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का?
- ही समस्या सोडवण्यासाठी डेटा स्वीकारार्ह गुणवत्तेचा आहे का?
- जर मला या डेटामधून अतिरिक्त माहिती सापडली तर उद्दिष्टे बदलणे किंवा पुन्हा परिभाषित करणे विचारात घ्यावे का?
प्रक्रिया
जीवनचक्राचा प्रक्रिया टप्पा डेटामधील नमुने शोधणे तसेच मॉडेलिंगवर लक्ष केंद्रित करतो. प्रक्रिया टप्प्यात वापरल्या जाणाऱ्या काही तंत्रांमध्ये नमुने शोधण्यासाठी सांख्यिकीय पद्धतींचा समावेश असतो. मोठ्या डेटासेटसाठी हे काम माणसासाठी खूप कष्टदायक असते, त्यामुळे संगणकाचा वापर करून प्रक्रिया वेगवान केली जाते. या टप्प्यात डेटा सायन्स आणि मशीन लर्निंग एकत्र येतात. पहिल्या धड्यात तुम्ही शिकले की मशीन लर्निंग म्हणजे डेटा समजण्यासाठी मॉडेल तयार करण्याची प्रक्रिया आहे. मॉडेल्स म्हणजे डेटामधील व्हेरिएबल्समधील संबंधांचे प्रतिनिधित्व जे परिणामांची भविष्यवाणी करण्यात मदत करतात.
या टप्प्यात वापरल्या जाणाऱ्या सामान्य तंत्रांचा अभ्यास ML for Beginners अभ्यासक्रमात केला जातो. खालील लिंकद्वारे त्याबद्दल अधिक जाणून घ्या:
- Classification: डेटा अधिक कार्यक्षमतेने वापरण्यासाठी श्रेणींमध्ये वर्गीकृत करणे.
- Clustering: समान गटांमध्ये डेटा गटबद्ध करणे.
- Regression: व्हेरिएबल्समधील संबंध ठरवून मूल्यांची भविष्यवाणी किंवा अंदाज करणे.
देखभाल
जीवनचक्राच्या आकृतीमध्ये तुम्ही पाहिले असेल की देखभाल हा टप्पा डेटा संकलन आणि प्रक्रिया यामध्ये आहे. देखभाल म्हणजे प्रकल्पाच्या प्रक्रियेदरम्यान डेटा व्यवस्थापित करणे, साठवणे आणि सुरक्षित ठेवणे. प्रकल्पाच्या संपूर्ण कालावधीत याचा विचार केला पाहिजे.
डेटा साठवणे
डेटा कसा आणि कुठे साठवायचा याचा विचार साठवणीचा खर्च तसेच डेटा किती वेगाने प्रवेशयोग्य होईल यावर परिणाम करू शकतो. अशा निर्णयांमध्ये डेटा सायंटिस्ट एकटा निर्णय घेत नाही, परंतु डेटा कसा साठवला जातो यावर आधारित काम करण्याच्या पद्धती निवडण्याची गरज भासू शकते.
आधुनिक डेटा साठवण प्रणालींचे काही पैलू जे या निवडींवर परिणाम करू शकतात:
ऑन-प्रिमाइसेस विरुद्ध ऑफ-प्रिमाइसेस विरुद्ध सार्वजनिक किंवा खाजगी क्लाउड
ऑन-प्रिमाइसेस म्हणजे डेटा स्वतःच्या उपकरणांवर होस्ट करणे आणि व्यवस्थापित करणे, जसे की डेटा साठवण्यासाठी हार्ड ड्राइव्हसह सर्व्हर असणे. ऑफ-प्रिमाइसेस म्हणजे अशा उपकरणांवर अवलंबून राहणे जे तुमचे नाहीत, जसे की डेटा सेंटर. सार्वजनिक क्लाउड ही डेटा साठवण्यासाठी लोकप्रिय निवड आहे ज्यासाठी डेटा कसा आणि कुठे साठवला जातो याचे ज्ञान आवश्यक नसते. सार्वजनिक क्लाउडमध्ये एकसंध पायाभूत सुविधा असते जी क्लाउड वापरणाऱ्या सर्वांसाठी सामायिक असते. काही संस्थांमध्ये कठोर सुरक्षा धोरणे असतात ज्यामुळे त्यांना डेटा होस्ट केलेल्या उपकरणांवर पूर्ण प्रवेश आवश्यक असतो आणि ते स्वतःच्या क्लाउड सेवांसह खाजगी क्लाउडवर अवलंबून राहतात. तुम्ही पुढील धड्यांमध्ये क्लाउडमधील डेटाबद्दल अधिक शिकाल.
कोल्ड विरुद्ध हॉट डेटा
तुम्ही तुमचे मॉडेल्स प्रशिक्षण देत असताना तुम्हाला अधिक प्रशिक्षण डेटा आवश्यक असू शकतो. जर तुम्ही तुमच्या मॉडेलवर समाधानी असाल, तर मॉडेल त्याच्या उद्देशासाठी डेटा प्राप्त करेल. कोणत्याही परिस्थितीत, डेटा साठवण्याचा आणि त्याचा प्रवेश करण्याचा खर्च वाढेल कारण तुम्ही अधिक डेटा जमा करता. क्वचितच वापरला जाणारा डेटा, ज्याला कोल्ड डेटा म्हणतात, आणि वारंवार प्रवेश केला जाणारा हॉट डेटा वेगळे करणे हे हार्डवेअर किंवा सॉफ्टवेअर सेवांद्वारे स्वस्त डेटा साठवणीचा पर्याय असू शकतो. जर कोल्ड डेटाला प्रवेश करणे आवश्यक असेल, तर हॉट डेटाच्या तुलनेत ते पुनर्प्राप्त करण्यास थोडा वेळ लागू शकतो.
डेटा व्यवस्थापन
डेटासह काम करताना तुम्हाला असे आढळू शकते की काही डेटा स्वच्छ करणे आवश्यक आहे, जे डेटा तयारी धड्यात कव्हर केलेल्या तंत्रांचा वापर करून अचूक मॉडेल तयार करण्यासाठी केले जाते. जेव्हा नवीन डेटा येतो, तेव्हा गुणवत्ता सुसंगतता राखण्यासाठी त्याच पद्धती लागू कराव्या लागतील. काही प्रकल्पांमध्ये डेटा त्याच्या अंतिम स्थानावर हलवण्यापूर्वी स्वच्छता, एकत्रीकरण आणि संक्षेपणासाठी स्वयंचलित साधनांचा वापर होतो. Azure Data Factory हे अशा साधनांचे एक उदाहरण आहे.
डेटा सुरक्षित ठेवणे
डेटा सुरक्षित ठेवण्याचे मुख्य उद्दिष्ट म्हणजे डेटा कसा गोळा केला जातो आणि कोणत्या संदर्भात वापरला जातो यावर नियंत्रण ठेवणे. डेटा सुरक्षित ठेवणे म्हणजे डेटा फक्त गरज असलेल्या व्यक्तींनाच उपलब्ध करून देणे, स्थानिक कायदे आणि नियमांचे पालन करणे तसेच नैतिक मानदंडांचे पालन करणे, जे नैतिकता धड्यात कव्हर केले आहे.
सुरक्षेच्या दृष्टीने एखादी टीम करू शकणाऱ्या गोष्टी:
- सर्व डेटा एन्क्रिप्ट केला आहे याची खात्री करणे
- ग्राहकांना त्यांचा डेटा कसा वापरला जातो याची माहिती देणे
- प्रकल्प सोडलेल्या व्यक्तींना डेटा प्रवेश काढून टाकणे
- फक्त विशिष्ट प्रकल्प सदस्यांना डेटा बदलण्याची परवानगी देणे
🚀 आव्हान
डेटा सायन्स जीवनचक्राच्या अनेक आवृत्त्या आहेत, जिथे प्रत्येक टप्प्याला वेगवेगळी नावे आणि टप्प्यांची संख्या असते, परंतु या धड्यात नमूद केलेल्या प्रक्रियांचा समावेश असतो.
Team Data Science Process जीवनचक्र आणि Cross-industry standard process for data mining यांचा अभ्यास करा. त्यामधील 3 साम्ये आणि फरक सांगा.
| Team Data Science Process (TDSP) | Cross-industry standard process for data mining (CRISP-DM) |
|---|---|
![]() |
![]() |
| प्रतिमा Microsoft यांच्याकडून | प्रतिमा Data Science Process Alliance यांच्याकडून |
व्याख्यानानंतरची प्रश्नमंजुषा
पुनरावलोकन आणि स्व-अभ्यास
डेटा सायन्स जीवनचक्र लागू करणे म्हणजे अनेक भूमिका आणि कार्यांचा समावेश असतो, जिथे काही विशिष्ट टप्प्यांवर लक्ष केंद्रित करतात. Team Data Science Process काही संसाधने प्रदान करते जी प्रकल्पामध्ये एखाद्याची भूमिका आणि कार्ये स्पष्ट करतात.
- Team Data Science Process भूमिका आणि कार्ये
- डेटा सायन्स कार्ये अंमलात आणा: एक्सप्लोरेशन, मॉडेलिंग आणि डिप्लॉयमेंट
असाइनमेंट
अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.



