You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
123 lines
20 KiB
123 lines
20 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "07e12a25d20b8f191e3cb651c27fdb2b",
|
|
"translation_date": "2025-09-06T20:41:39+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
|
|
"language_code": "mr"
|
|
}
|
|
-->
|
|
# डेटा सायन्स जीवनचक्राची ओळख
|
|
|
|
| ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|
|
|:---:|
|
|
| डेटा सायन्स जीवनचक्राची ओळख - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
## [पूर्व-व्याख्यान प्रश्नमंजूषा](https://ff-quizzes.netlify.app/en/ds/quiz/26)
|
|
|
|
आतापर्यंत तुम्हाला कदाचित हे लक्षात आले असेल की डेटा सायन्स हा एक प्रक्रिया आहे. ही प्रक्रिया 5 टप्प्यांमध्ये विभागली जाऊ शकते:
|
|
|
|
- डेटा संकलन
|
|
- प्रक्रिया
|
|
- विश्लेषण
|
|
- संवाद
|
|
- देखभाल
|
|
|
|
या धड्यात जीवनचक्राच्या 3 भागांवर लक्ष केंद्रित केले आहे: डेटा संकलन, प्रक्रिया आणि देखभाल.
|
|
|
|

|
|
> फोटो [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) यांच्याकडून
|
|
|
|
## डेटा संकलन
|
|
|
|
जीवनचक्राचा पहिला टप्पा अत्यंत महत्त्वाचा आहे कारण पुढील टप्पे त्यावर अवलंबून असतात. हा टप्पा प्रत्यक्षात दोन टप्प्यांचा एकत्रित भाग आहे: डेटा मिळवणे आणि उद्दिष्टे व समस्यांचे परिभाषित करणे ज्यावर काम करायचे आहे.
|
|
प्रकल्पाचे उद्दिष्टे परिभाषित करण्यासाठी समस्येचा किंवा प्रश्नाचा सखोल संदर्भ आवश्यक आहे. प्रथम, आपल्याला त्या व्यक्तींची ओळख पटवावी लागेल ज्यांना त्यांची समस्या सोडवायची आहे. हे व्यवसायातील भागधारक किंवा प्रकल्पाचे प्रायोजक असू शकतात, जे प्रकल्पाचा लाभ कोणाला होईल, काय आणि का आवश्यक आहे हे ओळखण्यात मदत करू शकतात. चांगले परिभाषित उद्दिष्ट मोजता येण्याजोगे आणि प्रमाणित असावे जेणेकरून स्वीकारार्ह परिणाम परिभाषित करता येईल.
|
|
|
|
डेटा सायंटिस्ट विचार करू शकणारे प्रश्न:
|
|
- ही समस्या यापूर्वी सोडवण्याचा प्रयत्न झाला आहे का? काय शोधले गेले?
|
|
- उद्दिष्टे आणि हेतू सर्व संबंधितांना समजले आहेत का?
|
|
- अस्पष्टता आहे का आणि ती कशी कमी करता येईल?
|
|
- मर्यादा काय आहेत?
|
|
- अंतिम परिणाम कसा दिसेल?
|
|
- किती संसाधने (वेळ, लोक, संगणकीय) उपलब्ध आहेत?
|
|
|
|
यानंतर, परिभाषित उद्दिष्टे साध्य करण्यासाठी आवश्यक डेटा ओळखणे, गोळा करणे आणि त्याचा शोध घेणे आवश्यक आहे. डेटा मिळवण्याच्या या टप्प्यावर, डेटा सायंटिस्ट्सला डेटाची गुणवत्ता आणि प्रमाण देखील तपासावे लागते. यासाठी डेटा एक्सप्लोरेशन आवश्यक आहे जेणेकरून मिळवलेला डेटा अपेक्षित परिणाम साध्य करण्यात मदत करेल याची खात्री करता येईल.
|
|
|
|
डेटाबद्दल डेटा सायंटिस्ट विचार करू शकणारे प्रश्न:
|
|
- माझ्याकडे आधीच कोणता डेटा उपलब्ध आहे?
|
|
- हा डेटा कोणाचा आहे?
|
|
- गोपनीयतेशी संबंधित चिंता काय आहेत?
|
|
- ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का?
|
|
- हा डेटा या समस्येसाठी स्वीकारार्ह गुणवत्तेचा आहे का?
|
|
- जर मला या डेटामधून अतिरिक्त माहिती सापडली तर उद्दिष्टे बदलणे किंवा पुन्हा परिभाषित करणे विचारात घ्यावे का?
|
|
|
|
## प्रक्रिया
|
|
|
|
जीवनचक्राचा प्रक्रिया टप्पा डेटामधील नमुने शोधणे तसेच मॉडेलिंगवर लक्ष केंद्रित करतो. प्रक्रिया टप्प्यात वापरल्या जाणाऱ्या काही तंत्रांमध्ये सांख्यिकीय पद्धतींचा समावेश असतो जे नमुने शोधण्यात मदत करतात. मोठ्या डेटासेटसाठी हे काम माणसासाठी खूप कष्टाचे असते, त्यामुळे संगणकाचा वापर करून प्रक्रिया वेगवान केली जाते. या टप्प्यात डेटा सायन्स आणि मशीन लर्निंग एकत्र येतात. पहिल्या धड्यात तुम्ही शिकले की मशीन लर्निंग म्हणजे डेटा समजण्यासाठी मॉडेल तयार करण्याची प्रक्रिया आहे. मॉडेल्स म्हणजे डेटामधील व्हेरिएबल्समधील संबंधांचे प्रतिनिधित्व जे परिणामांची भविष्यवाणी करण्यात मदत करतात.
|
|
|
|
या टप्प्यात वापरल्या जाणाऱ्या सामान्य तंत्रांचा अभ्यास ML for Beginners अभ्यासक्रमात केला जातो. खालील लिंकद्वारे अधिक जाणून घ्या:
|
|
|
|
- [Classification](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): डेटा अधिक कार्यक्षमतेने वापरण्यासाठी श्रेणींमध्ये वर्गीकृत करणे.
|
|
- [Clustering](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): समान गटांमध्ये डेटा गटबद्ध करणे.
|
|
- [Regression](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): व्हेरिएबल्समधील संबंध निश्चित करणे जेणेकरून मूल्ये अंदाज किंवा पूर्वानुमान करता येतील.
|
|
|
|
## देखभाल
|
|
|
|
जीवनचक्राच्या आकृतीमध्ये तुम्ही पाहिले असेल की देखभाल हा टप्पा डेटा संकलन आणि प्रक्रिया यामध्ये आहे. देखभाल म्हणजे प्रकल्पाच्या प्रक्रियेदरम्यान डेटा व्यवस्थापित करणे, साठवणे आणि सुरक्षित ठेवणे. प्रकल्पाच्या संपूर्ण कालावधीत याचा विचार केला पाहिजे.
|
|
|
|
### डेटा साठवणे
|
|
|
|
डेटा कसा आणि कुठे साठवायचा याचा विचार साठवणीचा खर्च तसेच डेटा किती वेगाने प्रवेश करता येईल यावर परिणाम करू शकतो. अशा निर्णयांमध्ये डेटा सायंटिस्ट एकटा निर्णय घेणार नाही, परंतु डेटा कसा साठवला जातो यावर आधारित काम करण्याच्या पद्धती निवडण्याची गरज भासू शकते.
|
|
|
|
आधुनिक डेटा साठवण प्रणालींचे काही पैलू जे या निवडींवर परिणाम करू शकतात:
|
|
|
|
**ऑन-प्रिमाइसेस विरुद्ध ऑफ-प्रिमाइसेस विरुद्ध सार्वजनिक किंवा खाजगी क्लाउड**
|
|
|
|
ऑन-प्रिमाइसेस म्हणजे डेटा स्वतःच्या उपकरणांवर होस्ट करणे आणि व्यवस्थापित करणे, जसे की डेटा साठवण्यासाठी हार्ड ड्राइव्हसह सर्व्हर असणे. ऑफ-प्रिमाइसेस म्हणजे अशा उपकरणांवर अवलंबून राहणे जे तुमचे नाहीत, जसे की डेटा सेंटर. सार्वजनिक क्लाउड ही डेटा साठवण्यासाठी लोकप्रिय निवड आहे ज्यासाठी डेटा कसा किंवा कुठे साठवला जातो याची माहिती आवश्यक नसते. सार्वजनिक क्लाउडमध्ये एकसंध पायाभूत सुविधा असते जी सर्व वापरकर्त्यांसाठी समान असते. काही संस्थांमध्ये कडक सुरक्षा धोरणे असतात ज्यामुळे त्यांना डेटा होस्ट केलेल्या उपकरणांवर पूर्ण प्रवेश आवश्यक असतो आणि ते खाजगी क्लाउडवर अवलंबून असतात जे स्वतःची क्लाउड सेवा प्रदान करते. तुम्ही [पुढील धड्यांमध्ये](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud) क्लाउडमधील डेटाबद्दल अधिक शिकाल.
|
|
|
|
**कोल्ड विरुद्ध हॉट डेटा**
|
|
|
|
तुमच्या मॉडेल्ससाठी प्रशिक्षण डेटा आवश्यक असतो. जर तुम्ही तुमच्या मॉडेलवर समाधानी असाल, तरीही मॉडेलच्या उद्देशासाठी नवीन डेटा येत राहील. अशा परिस्थितीत डेटा साठवण्याचा आणि त्याचा प्रवेश करण्याचा खर्च वाढतो. क्वचित वापरला जाणारा डेटा, ज्याला कोल्ड डेटा म्हणतात, आणि वारंवार वापरला जाणारा हॉट डेटा वेगळा करणे हे हार्डवेअर किंवा सॉफ्टवेअर सेवांद्वारे स्वस्त साठवणीचा पर्याय असू शकतो. जर कोल्ड डेटा आवश्यक असेल, तर हॉट डेटाच्या तुलनेत तो मिळवण्यासाठी थोडा अधिक वेळ लागू शकतो.
|
|
|
|
### डेटा व्यवस्थापन
|
|
|
|
डेटासह काम करताना तुम्हाला कदाचित असे आढळेल की काही डेटा स्वच्छ करणे आवश्यक आहे, ज्यासाठी [डेटा तयारी](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) धड्यात कव्हर केलेल्या तंत्रांचा वापर करावा लागतो, जेणेकरून अचूक मॉडेल तयार करता येतील. नवीन डेटा आल्यावर त्याच गुणवत्तेची सुसंगतता राखण्यासाठी त्याच तंत्रांचा वापर करावा लागेल. काही प्रकल्पांमध्ये डेटा स्वच्छ करणे, एकत्र करणे आणि संकुचित करणे यासाठी स्वयंचलित साधनांचा वापर केला जातो, जेणेकरून डेटा त्याच्या अंतिम स्थानावर हलवला जाऊ शकतो. Azure Data Factory हे अशा साधनांचे एक उदाहरण आहे.
|
|
|
|
### डेटा सुरक्षित ठेवणे
|
|
|
|
डेटा सुरक्षित ठेवण्याचे मुख्य उद्दिष्ट म्हणजे डेटा कसा गोळा केला जातो आणि कोणत्या संदर्भात वापरला जातो यावर नियंत्रण ठेवणे. डेटा सुरक्षित ठेवणे म्हणजे डेटा फक्त गरज असलेल्या व्यक्तींनाच उपलब्ध करून देणे, स्थानिक कायदे आणि नियमांचे पालन करणे तसेच नैतिक मानदंडांचे पालन करणे, जे [नैतिकता धड्यात](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics) कव्हर केले आहे.
|
|
|
|
सुरक्षेच्या दृष्टीने एखादी टीम करू शकणाऱ्या गोष्टी:
|
|
- सर्व डेटा एन्क्रिप्ट केला आहे याची खात्री करणे
|
|
- ग्राहकांना त्यांचा डेटा कसा वापरला जातो याची माहिती देणे
|
|
- प्रकल्प सोडलेल्या व्यक्तींचा डेटा प्रवेश काढून टाकणे
|
|
- फक्त विशिष्ट प्रकल्प सदस्यांना डेटा बदलण्याची परवानगी देणे
|
|
|
|
## 🚀 आव्हान
|
|
|
|
डेटा सायन्स जीवनचक्राच्या अनेक आवृत्त्या आहेत, जिथे प्रत्येक टप्प्याला वेगवेगळी नावे आणि टप्प्यांची संख्या असते, परंतु या धड्यात नमूद केलेल्या प्रक्रियांचा समावेश असतो.
|
|
|
|
[Team Data Science Process जीवनचक्र](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) आणि [Cross-industry standard process for data mining](https://www.datascience-pm.com/crisp-dm-2/) यांचा अभ्यास करा. त्यामधील 3 साम्य आणि 3 फरक सांगा.
|
|
|
|
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|
|
|--|--|
|
|
| |  |
|
|
| प्रतिमा [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) यांच्याकडून | प्रतिमा [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) यांच्याकडून |
|
|
|
|
## [व्याख्यानानंतरची प्रश्नमंजूषा](https://ff-quizzes.netlify.app/en/ds/quiz/27)
|
|
|
|
## पुनरावलोकन आणि स्व-अभ्यास
|
|
|
|
डेटा सायन्स जीवनचक्र लागू करणे म्हणजे अनेक भूमिका आणि कार्यांचा समावेश असतो, जिथे काही विशिष्ट टप्प्यांवर लक्ष केंद्रित करतात. Team Data Science Process काही संसाधने प्रदान करते जी प्रकल्पामध्ये एखाद्याची भूमिका आणि कार्ये स्पष्ट करतात.
|
|
|
|
* [Team Data Science Process roles and tasks](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
|
|
* [Execute data science tasks: exploration, modeling, and deployment](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
|
|
|
|
## असाइनमेंट
|
|
|
|
[डेटासेटचे मूल्यांकन करणे](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही. |