|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
| notebook.ipynb | 5 months ago | |
README.md
डेटा साइंस जीवनचक्र का परिचय
![]() |
|---|
| डेटा साइंस जीवनचक्र का परिचय - स्केच नोट @nitya द्वारा |
प्री-लेक्चर क्विज़
इस बिंदु पर, आपने शायद महसूस किया होगा कि डेटा साइंस एक प्रक्रिया है। इस प्रक्रिया को 5 चरणों में विभाजित किया जा सकता है:
- डेटा संग्रहण
- डेटा प्रसंस्करण
- विश्लेषण
- संचार
- रखरखाव
यह पाठ जीवनचक्र के 3 भागों पर केंद्रित है: डेटा संग्रहण, प्रसंस्करण और रखरखाव।
फोटो Berkeley School of Information द्वारा
डेटा संग्रहण
जीवनचक्र का पहला चरण बहुत महत्वपूर्ण है क्योंकि अगले चरण इस पर निर्भर करते हैं। यह वास्तव में दो चरणों को एक में जोड़ता है: डेटा प्राप्त करना और उस उद्देश्य और समस्याओं को परिभाषित करना जिन्हें संबोधित करने की आवश्यकता है।
परियोजना के लक्ष्यों को परिभाषित करने के लिए समस्या या प्रश्न की गहरी समझ की आवश्यकता होगी। सबसे पहले, हमें उन लोगों की पहचान और प्राप्ति करनी होगी जिनकी समस्या को हल करने की आवश्यकता है। ये व्यवसाय में हितधारक या परियोजना के प्रायोजक हो सकते हैं, जो यह पहचानने में मदद कर सकते हैं कि इस परियोजना से कौन या क्या लाभान्वित होगा और उन्हें इसकी आवश्यकता क्यों है। एक अच्छी तरह से परिभाषित लक्ष्य को मापने योग्य और मात्रात्मक होना चाहिए ताकि स्वीकार्य परिणाम को परिभाषित किया जा सके।
डेटा वैज्ञानिक द्वारा पूछे जाने वाले प्रश्न:
- क्या इस समस्या को पहले भी हल करने का प्रयास किया गया है? क्या खोजा गया था?
- क्या उद्देश्य और लक्ष्य सभी संबंधित लोगों द्वारा समझे गए हैं?
- क्या कोई अस्पष्टता है और इसे कैसे कम किया जा सकता है?
- क्या बाधाएं हैं?
- संभावित अंतिम परिणाम कैसा दिखेगा?
- कितने संसाधन (समय, लोग, कंप्यूटेशनल) उपलब्ध हैं?
इसके बाद, उन लक्ष्यों को प्राप्त करने के लिए आवश्यक डेटा की पहचान करना, संग्रह करना और अंततः उसका अन्वेषण करना आता है। इस संग्रहण चरण में, डेटा वैज्ञानिकों को डेटा की मात्रा और गुणवत्ता का भी मूल्यांकन करना होगा। यह पुष्टि करने के लिए कुछ डेटा अन्वेषण की आवश्यकता होती है कि जो डेटा प्राप्त किया गया है वह वांछित परिणाम तक पहुंचने में मदद करेगा।
डेटा के बारे में डेटा वैज्ञानिक द्वारा पूछे जाने वाले प्रश्न:
- मेरे पास पहले से कौन सा डेटा उपलब्ध है?
- इस डेटा का मालिक कौन है?
- गोपनीयता संबंधी चिंताएं क्या हैं?
- क्या इस समस्या को हल करने के लिए मेरे पास पर्याप्त डेटा है?
- क्या यह डेटा इस समस्या के लिए स्वीकार्य गुणवत्ता का है?
- यदि मैं इस डेटा के माध्यम से अतिरिक्त जानकारी खोजता हूं, तो क्या हमें लक्ष्यों को बदलने या पुनः परिभाषित करने पर विचार करना चाहिए?
डेटा प्रसंस्करण
जीवनचक्र का प्रसंस्करण चरण डेटा में पैटर्न खोजने और मॉडलिंग पर केंद्रित है। प्रसंस्करण चरण में उपयोग की जाने वाली कुछ तकनीकों को पैटर्न खोजने के लिए सांख्यिकीय विधियों की आवश्यकता होती है। आमतौर पर, यह एक बड़े डेटा सेट के साथ मानव के लिए एक थकाऊ कार्य होगा और प्रक्रिया को तेज करने के लिए कंप्यूटर पर निर्भर करेगा। यह चरण वह जगह है जहां डेटा साइंस और मशीन लर्निंग एक-दूसरे से जुड़ते हैं। जैसा कि आपने पहले पाठ में सीखा, मशीन लर्निंग डेटा को समझने के लिए मॉडल बनाने की प्रक्रिया है। मॉडल डेटा में चर के बीच संबंधों का प्रतिनिधित्व करते हैं जो परिणामों की भविष्यवाणी करने में मदद करते हैं।
इस चरण में उपयोग की जाने वाली सामान्य तकनीकों को ML for Beginners पाठ्यक्रम में शामिल किया गया है। इनके बारे में अधिक जानने के लिए लिंक का अनुसरण करें:
- Classification: डेटा को श्रेणियों में व्यवस्थित करना ताकि इसे अधिक कुशलता से उपयोग किया जा सके।
- Clustering: डेटा को समान समूहों में वर्गीकृत करना।
- Regression: चर के बीच संबंधों को निर्धारित करना ताकि मूल्यों की भविष्यवाणी या पूर्वानुमान लगाया जा सके।
डेटा रखरखाव
जीवनचक्र के आरेख में, आपने देखा होगा कि रखरखाव डेटा संग्रहण और प्रसंस्करण के बीच स्थित है। रखरखाव परियोजना की प्रक्रिया के दौरान डेटा का प्रबंधन, संग्रहण और सुरक्षा करने की एक सतत प्रक्रिया है और इसे परियोजना की पूरी अवधि के दौरान ध्यान में रखा जाना चाहिए।
डेटा संग्रहण
डेटा को कैसे और कहां संग्रहित किया जाता है, इस पर विचार करना इसके संग्रहण की लागत और डेटा तक पहुंचने की गति को प्रभावित कर सकता है। ऐसे निर्णय केवल डेटा वैज्ञानिक द्वारा नहीं किए जाते हैं, लेकिन वे डेटा के संग्रहण के तरीके के आधार पर इसके साथ काम करने के तरीके चुनने में खुद को शामिल कर सकते हैं।
आधुनिक डेटा संग्रहण प्रणालियों के कुछ पहलू जो इन विकल्पों को प्रभावित कर सकते हैं:
ऑन-प्रिमाइसेस बनाम ऑफ-प्रिमाइसेस बनाम सार्वजनिक या निजी क्लाउड
ऑन-प्रिमाइसेस का मतलब है कि डेटा को अपने उपकरणों पर होस्ट और प्रबंधित करना, जैसे कि अपने सर्वर पर हार्ड ड्राइव के साथ डेटा संग्रहित करना, जबकि ऑफ-प्रिमाइसेस उन उपकरणों पर निर्भर करता है जो आपके स्वामित्व में नहीं हैं, जैसे कि डेटा सेंटर। सार्वजनिक क्लाउड डेटा संग्रहण के लिए एक लोकप्रिय विकल्प है जिसमें यह जानने की आवश्यकता नहीं होती कि डेटा कैसे या कहां संग्रहित किया गया है। सार्वजनिक क्लाउड एक साझा बुनियादी ढांचा प्रदान करता है जिसे सभी उपयोगकर्ता साझा करते हैं। कुछ संगठनों की सख्त सुरक्षा नीतियां होती हैं जो उन्हें उस उपकरण तक पूरी पहुंच की आवश्यकता होती है जहां डेटा होस्ट किया गया है, और वे निजी क्लाउड पर निर्भर करते हैं जो अपनी क्लाउड सेवाएं प्रदान करता है। आप आगे के पाठों में क्लाउड में डेटा के बारे में अधिक जानेंगे।
कोल्ड बनाम हॉट डेटा
जब आप अपने मॉडल को प्रशिक्षित कर रहे होते हैं, तो आपको अधिक प्रशिक्षण डेटा की आवश्यकता हो सकती है। यदि आप अपने मॉडल से संतुष्ट हैं, तो मॉडल को अपने उद्देश्य की पूर्ति के लिए अधिक डेटा प्राप्त होगा। किसी भी स्थिति में, जैसे-जैसे आप अधिक डेटा जमा करते हैं, डेटा संग्रहण और पहुंचने की लागत बढ़ जाएगी। शायद ही कभी उपयोग किए जाने वाले डेटा, जिसे कोल्ड डेटा कहा जाता है, को अक्सर उपयोग किए जाने वाले हॉट डेटा से अलग करना हार्डवेयर या सॉफ़्टवेयर सेवाओं के माध्यम से सस्ता डेटा संग्रहण विकल्प हो सकता है। यदि कोल्ड डेटा तक पहुंचने की आवश्यकता होती है, तो इसे हॉट डेटा की तुलना में पुनः प्राप्त करने में थोड़ा अधिक समय लग सकता है।
डेटा प्रबंधन
जैसे-जैसे आप डेटा के साथ काम करते हैं, आप पा सकते हैं कि कुछ डेटा को सटीक मॉडल बनाने के लिए साफ करने की आवश्यकता है। डेटा तैयारी पर केंद्रित पाठ में शामिल तकनीकों का उपयोग करके इसे किया जा सकता है। जब नया डेटा आता है, तो गुणवत्ता में निरंतरता बनाए रखने के लिए इसे समान अनुप्रयोगों की आवश्यकता होगी। कुछ परियोजनाओं में डेटा को उसकी अंतिम स्थिति में ले जाने से पहले सफाई, समेकन और संपीड़न के लिए स्वचालित उपकरण का उपयोग शामिल होगा। Azure Data Factory इन उपकरणों में से एक का उदाहरण है।
डेटा सुरक्षा
डेटा को सुरक्षित रखने का मुख्य उद्देश्य यह सुनिश्चित करना है कि जो लोग इसके साथ काम कर रहे हैं, वे यह नियंत्रित कर सकें कि क्या एकत्र किया गया है और इसे किस संदर्भ में उपयोग किया जा रहा है। डेटा को सुरक्षित रखना केवल उन लोगों तक पहुंच सीमित करना शामिल करता है जिन्हें इसकी आवश्यकता है, स्थानीय कानूनों और विनियमों का पालन करना, साथ ही नैतिकता पाठ में शामिल नैतिक मानकों को बनाए रखना।
टीम सुरक्षा को ध्यान में रखते हुए निम्नलिखित कार्य कर सकती है:
- सुनिश्चित करें कि सभी डेटा एन्क्रिप्टेड है
- ग्राहकों को यह जानकारी प्रदान करें कि उनका डेटा कैसे उपयोग किया जा रहा है
- परियोजना छोड़ चुके लोगों से डेटा तक पहुंच हटा दें
- केवल कुछ परियोजना सदस्यों को डेटा बदलने की अनुमति दें
🚀 चुनौती
डेटा साइंस जीवनचक्र के कई संस्करण हैं, जहां प्रत्येक चरण के अलग-अलग नाम और चरणों की संख्या हो सकती है, लेकिन इस पाठ में उल्लिखित प्रक्रियाएं समान होती हैं।
टीम डेटा साइंस प्रक्रिया जीवनचक्र और क्रॉस-इंडस्ट्री स्टैंडर्ड प्रक्रिया फॉर डेटा माइनिंग का अन्वेषण करें। इन दोनों के बीच 3 समानताएं और अंतर बताएं।
| टीम डेटा साइंस प्रक्रिया (TDSP) | क्रॉस-इंडस्ट्री स्टैंडर्ड प्रक्रिया फॉर डेटा माइनिंग (CRISP-DM) |
|---|---|
![]() |
![]() |
| छवि Microsoft द्वारा | छवि Data Science Process Alliance द्वारा |
पोस्ट-लेक्चर क्विज़
समीक्षा और स्व-अध्ययन
डेटा साइंस जीवनचक्र को लागू करने में कई भूमिकाएं और कार्य शामिल होते हैं, जहां कुछ प्रत्येक चरण के विशेष भागों पर ध्यान केंद्रित कर सकते हैं। टीम डेटा साइंस प्रक्रिया कुछ संसाधन प्रदान करती है जो बताते हैं कि किसी परियोजना में किसी के पास किस प्रकार की भूमिकाएं और कार्य हो सकते हैं।
- टीम डेटा साइंस प्रक्रिया की भूमिकाएं और कार्य
- डेटा साइंस कार्यों को निष्पादित करें: अन्वेषण, मॉडलिंग, और परिनियोजन
असाइनमेंट
अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल दस्तावेज़, जो इसकी मूल भाषा में है, को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।



