You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
120 lines
22 KiB
120 lines
22 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "07e12a25d20b8f191e3cb651c27fdb2b",
|
|
"translation_date": "2025-09-06T20:37:11+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
|
|
"language_code": "hi"
|
|
}
|
|
-->
|
|
# डेटा साइंस जीवनचक्र का परिचय
|
|
|
|
| द्वारा ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|
|
|:---:|
|
|
| डेटा साइंस जीवनचक्र का परिचय - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ |
|
|
|
|
## [प्री-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/26)
|
|
|
|
इस बिंदु पर, आपने शायद महसूस किया होगा कि डेटा साइंस एक प्रक्रिया है। इस प्रक्रिया को 5 चरणों में विभाजित किया जा सकता है:
|
|
|
|
- डेटा संग्रहण
|
|
- प्रोसेसिंग
|
|
- विश्लेषण
|
|
- संचार
|
|
- रखरखाव
|
|
|
|
यह पाठ जीवनचक्र के 3 भागों पर केंद्रित है: डेटा संग्रहण, प्रोसेसिंग और रखरखाव।
|
|
|
|

|
|
> फोटो [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) द्वारा
|
|
|
|
## डेटा संग्रहण
|
|
|
|
जीवनचक्र का पहला चरण बहुत महत्वपूर्ण है क्योंकि अगले चरण इस पर निर्भर करते हैं। यह वास्तव में दो चरणों को एक में मिलाकर बनाया गया है: डेटा प्राप्त करना और उस उद्देश्य और समस्याओं को परिभाषित करना जिन्हें संबोधित करने की आवश्यकता है।
|
|
परियोजना के लक्ष्यों को परिभाषित करने के लिए समस्या या प्रश्न की गहरी समझ की आवश्यकता होगी। सबसे पहले, हमें उन लोगों की पहचान और प्राप्ति करनी होगी जिनकी समस्या को हल करने की आवश्यकता है। ये व्यवसाय में हितधारक या परियोजना के प्रायोजक हो सकते हैं, जो यह पहचानने में मदद कर सकते हैं कि इस परियोजना से कौन या क्या लाभान्वित होगा और उन्हें इसकी आवश्यकता क्यों है। एक अच्छी तरह से परिभाषित लक्ष्य को मापने योग्य और मात्रात्मक होना चाहिए ताकि स्वीकार्य परिणाम को परिभाषित किया जा सके।
|
|
|
|
डेटा वैज्ञानिक द्वारा पूछे जाने वाले प्रश्न:
|
|
- क्या इस समस्या को पहले भी हल करने की कोशिश की गई है? क्या खोजा गया था?
|
|
- क्या उद्देश्य और लक्ष्य सभी संबंधित लोगों द्वारा समझा गया है?
|
|
- क्या कोई अस्पष्टता है और इसे कैसे कम किया जा सकता है?
|
|
- क्या बाधाएं हैं?
|
|
- अंतिम परिणाम संभावित रूप से कैसा दिखेगा?
|
|
- कितने संसाधन (समय, लोग, कंप्यूटेशनल) उपलब्ध हैं?
|
|
|
|
अगला कदम है डेटा की पहचान करना, उसे इकट्ठा करना और अंततः उस डेटा का अन्वेषण करना जो इन परिभाषित लक्ष्यों को प्राप्त करने के लिए आवश्यक है। इस अधिग्रहण चरण में, डेटा वैज्ञानिकों को डेटा की मात्रा और गुणवत्ता का भी मूल्यांकन करना होगा। यह पुष्टि करने के लिए कुछ डेटा अन्वेषण की आवश्यकता होती है कि जो डेटा प्राप्त किया गया है वह वांछित परिणाम तक पहुंचने में मदद करेगा।
|
|
|
|
डेटा के बारे में डेटा वैज्ञानिक द्वारा पूछे जाने वाले प्रश्न:
|
|
- मेरे पास पहले से कौन सा डेटा उपलब्ध है?
|
|
- इस डेटा का मालिक कौन है?
|
|
- गोपनीयता संबंधी चिंताएं क्या हैं?
|
|
- क्या इस समस्या को हल करने के लिए मेरे पास पर्याप्त डेटा है?
|
|
- क्या यह डेटा इस समस्या के लिए स्वीकार्य गुणवत्ता का है?
|
|
- यदि मैं इस डेटा के माध्यम से अतिरिक्त जानकारी खोजता हूं, तो क्या हमें लक्ष्यों को बदलने या पुनः परिभाषित करने पर विचार करना चाहिए?
|
|
|
|
## प्रोसेसिंग
|
|
|
|
जीवनचक्र का प्रोसेसिंग चरण डेटा में पैटर्न खोजने और मॉडलिंग पर केंद्रित है। प्रोसेसिंग चरण में उपयोग की जाने वाली कुछ तकनीकों में सांख्यिकीय विधियों की आवश्यकता होती है ताकि पैटर्न का पता लगाया जा सके। आमतौर पर, यह एक बड़े डेटा सेट के साथ मानव के लिए एक थकाऊ कार्य होगा और प्रक्रिया को तेज करने के लिए कंप्यूटर पर निर्भर करेगा। यह चरण वह जगह है जहां डेटा साइंस और मशीन लर्निंग एक-दूसरे से जुड़ते हैं। जैसा कि आपने पहले पाठ में सीखा, मशीन लर्निंग डेटा को समझने के लिए मॉडल बनाने की प्रक्रिया है। मॉडल डेटा में चर के बीच संबंधों का प्रतिनिधित्व करते हैं जो परिणामों की भविष्यवाणी करने में मदद करते हैं।
|
|
|
|
इस चरण में उपयोग की जाने वाली सामान्य तकनीकों को ML for Beginners पाठ्यक्रम में शामिल किया गया है। इनके बारे में अधिक जानने के लिए लिंक पर जाएं:
|
|
|
|
- [Classification](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): डेटा को श्रेणियों में व्यवस्थित करना ताकि इसे अधिक कुशलता से उपयोग किया जा सके।
|
|
- [Clustering](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): डेटा को समान समूहों में वर्गीकृत करना।
|
|
- [Regression](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): चर के बीच संबंधों को निर्धारित करना ताकि मूल्यों की भविष्यवाणी या पूर्वानुमान लगाया जा सके।
|
|
|
|
## रखरखाव
|
|
|
|
जीवनचक्र के आरेख में, आपने देखा होगा कि रखरखाव डेटा संग्रहण और प्रोसेसिंग के बीच स्थित है। रखरखाव परियोजना की प्रक्रिया के दौरान डेटा को प्रबंधित, संग्रहीत और सुरक्षित रखने की एक सतत प्रक्रिया है और इसे परियोजना की पूरी अवधि के दौरान ध्यान में रखा जाना चाहिए।
|
|
|
|
### डेटा संग्रहीत करना
|
|
डेटा को कैसे और कहां संग्रहीत किया जाए, इस पर विचार करना इसके भंडारण की लागत और डेटा तक पहुंचने की गति को प्रभावित कर सकता है। ऐसे निर्णय केवल डेटा वैज्ञानिक द्वारा नहीं किए जाते हैं, लेकिन वे डेटा के साथ काम करने के तरीके पर निर्णय ले सकते हैं कि यह कैसे संग्रहीत किया गया है।
|
|
|
|
आधुनिक डेटा भंडारण प्रणालियों के कुछ पहलू जो इन विकल्पों को प्रभावित कर सकते हैं:
|
|
|
|
**ऑन-प्रिमाइसेस बनाम ऑफ-प्रिमाइसेस बनाम सार्वजनिक या निजी क्लाउड**
|
|
|
|
ऑन-प्रिमाइसेस का मतलब है कि डेटा को अपने उपकरणों पर होस्ट और प्रबंधित करना, जैसे कि एक सर्वर का मालिक होना जिसमें डेटा संग्रहीत करने के लिए हार्ड ड्राइव हो, जबकि ऑफ-प्रिमाइसेस उन उपकरणों पर निर्भर करता है जो आपके स्वामित्व में नहीं हैं, जैसे कि डेटा सेंटर। सार्वजनिक क्लाउड डेटा संग्रहीत करने के लिए एक लोकप्रिय विकल्प है जिसमें यह जानने की आवश्यकता नहीं होती कि डेटा कैसे या कहां संग्रहीत किया गया है। सार्वजनिक क्लाउड एक साझा बुनियादी ढांचे पर आधारित होता है जिसे सभी उपयोगकर्ता साझा करते हैं। कुछ संगठनों की सख्त सुरक्षा नीतियां होती हैं जो उन्हें उस उपकरण तक पूरी पहुंच की आवश्यकता होती है जहां डेटा होस्ट किया गया है और वे निजी क्लाउड पर निर्भर करते हैं जो अपनी क्लाउड सेवाएं प्रदान करता है। आप [आगे के पाठों](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud) में क्लाउड में डेटा के बारे में अधिक जानेंगे।
|
|
|
|
**कोल्ड बनाम हॉट डेटा**
|
|
|
|
जब आप अपने मॉडल को प्रशिक्षित कर रहे होते हैं, तो आपको अधिक प्रशिक्षण डेटा की आवश्यकता हो सकती है। यदि आप अपने मॉडल से संतुष्ट हैं, तो मॉडल को अपने उद्देश्य की पूर्ति के लिए अधिक डेटा प्राप्त होगा। किसी भी स्थिति में, जैसे-जैसे आप अधिक डेटा जमा करते हैं, डेटा को संग्रहीत और एक्सेस करने की लागत बढ़ जाएगी। शायद ही कभी उपयोग किए जाने वाले डेटा, जिसे कोल्ड डेटा कहा जाता है, को अक्सर एक्सेस किए जाने वाले हॉट डेटा से अलग करना हार्डवेयर या सॉफ़्टवेयर सेवाओं के माध्यम से सस्ता डेटा भंडारण विकल्प हो सकता है। यदि कोल्ड डेटा को एक्सेस करने की आवश्यकता होती है, तो इसे हॉट डेटा की तुलना में पुनः प्राप्त करने में थोड़ा अधिक समय लग सकता है।
|
|
|
|
### डेटा प्रबंधन
|
|
जैसे-जैसे आप डेटा के साथ काम करते हैं, आप देख सकते हैं कि कुछ डेटा को साफ करने की आवश्यकता है। [डेटा तैयारी](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) पर केंद्रित पाठ में शामिल तकनीकों का उपयोग करके सटीक मॉडल बनाने के लिए डेटा को साफ किया जा सकता है। जब नया डेटा आता है, तो इसे गुणवत्ता में स्थिरता बनाए रखने के लिए समान अनुप्रयोगों की आवश्यकता होगी। कुछ परियोजनाओं में डेटा को उसकी अंतिम स्थिति में ले जाने से पहले इसे साफ करने, एकत्रित करने और संपीड़ित करने के लिए स्वचालित उपकरण का उपयोग शामिल होगा। Azure Data Factory इन उपकरणों में से एक का उदाहरण है।
|
|
|
|
### डेटा को सुरक्षित रखना
|
|
डेटा को सुरक्षित रखने का मुख्य उद्देश्य यह सुनिश्चित करना है कि जो लोग इसके साथ काम कर रहे हैं, वे इस बात पर नियंत्रण में हैं कि क्या एकत्र किया गया है और इसे किस संदर्भ में उपयोग किया जा रहा है। डेटा को सुरक्षित रखना इसमें शामिल है कि केवल उन्हीं लोगों को डेटा तक पहुंचने की अनुमति दी जाए जिन्हें इसकी आवश्यकता है, स्थानीय कानूनों और विनियमों का पालन किया जाए, और नैतिक मानकों को बनाए रखा जाए, जैसा कि [नैतिकता पाठ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics) में शामिल किया गया है।
|
|
|
|
टीम सुरक्षा को ध्यान में रखते हुए निम्नलिखित कार्य कर सकती है:
|
|
- सुनिश्चित करें कि सभी डेटा एन्क्रिप्टेड है
|
|
- ग्राहकों को यह जानकारी प्रदान करें कि उनका डेटा कैसे उपयोग किया जा रहा है
|
|
- परियोजना छोड़ चुके लोगों से डेटा तक पहुंच को हटा दें
|
|
- केवल कुछ परियोजना सदस्यों को डेटा बदलने की अनुमति दें
|
|
|
|
## 🚀 चुनौती
|
|
|
|
डेटा साइंस जीवनचक्र के कई संस्करण हैं, जहां प्रत्येक चरण के अलग-अलग नाम और चरणों की संख्या हो सकती है, लेकिन इस पाठ में उल्लिखित प्रक्रियाएं समान होती हैं।
|
|
|
|
[टीम डेटा साइंस प्रक्रिया जीवनचक्र](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) और [क्रॉस-इंडस्ट्री स्टैंडर्ड प्रक्रिया फॉर डेटा माइनिंग](https://www.datascience-pm.com/crisp-dm-2/) का अन्वेषण करें। इन दोनों के बीच 3 समानताएं और 3 अंतर बताएं।
|
|
|
|
|टीम डेटा साइंस प्रक्रिया (TDSP)|क्रॉस-इंडस्ट्री स्टैंडर्ड प्रक्रिया फॉर डेटा माइनिंग (CRISP-DM)|
|
|
|--|--|
|
|
| |  |
|
|
| छवि [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) द्वारा | छवि [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) द्वारा |
|
|
|
|
## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/27)
|
|
|
|
## समीक्षा और स्व-अध्ययन
|
|
|
|
डेटा साइंस जीवनचक्र को लागू करने में कई भूमिकाएं और कार्य शामिल होते हैं, जहां कुछ प्रत्येक चरण के विशेष भागों पर ध्यान केंद्रित कर सकते हैं। टीम डेटा साइंस प्रक्रिया कुछ संसाधन प्रदान करती है जो बताते हैं कि किसी परियोजना में किसी की भूमिकाएं और कार्य क्या हो सकते हैं।
|
|
|
|
* [टीम डेटा साइंस प्रक्रिया की भूमिकाएं और कार्य](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
|
|
* [डेटा साइंस कार्यों को निष्पादित करें: अन्वेषण, मॉडलिंग, और परिनियोजन](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
|
|
|
|
## असाइनमेंट
|
|
|
|
[डेटासेट का मूल्यांकन](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं। |