You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ne/4-Data-Science-Lifecycle/14-Introduction
leestott 8029ff828a
🌐 Update translations via Co-op Translator
5 months ago
..
README.md 🌐 Update translations via Co-op Translator 5 months ago
assignment.md 🌐 Update translations via Co-op Translator 5 months ago
notebook.ipynb 🌐 Update translations via Co-op Translator 5 months ago

README.md

डाटा साइन्स जीवनचक्रको परिचय

 स्केच नोट (@sketchthedocs) द्वारा
डाटा साइन्स जीवनचक्रको परिचय - @nitya द्वारा स्केच नोट

पाठ अघि क्विज

यस बिन्दुमा तपाईंले सम्भवतः महसुस गर्नुभएको छ कि डाटा साइन्स एक प्रक्रिया हो। यो प्रक्रिया पाँच चरणमा विभाजित गर्न सकिन्छ:

  • डाटा संकलन
  • प्रशोधन
  • विश्लेषण
  • सञ्चार
  • मर्मत

यो पाठ जीवनचक्रका तीन भागहरूमा केन्द्रित छ: डाटा संकलन, प्रशोधन, र मर्मत।

डाटा साइन्स जीवनचक्रको चित्र

Berkeley School of Information द्वारा फोटो

डाटा संकलन

जीवनचक्रको पहिलो चरण धेरै महत्त्वपूर्ण छ किनकि बाँकी चरणहरू यसमा निर्भर हुन्छन्। यो व्यवहारमा दुई चरणहरूलाई एकमा जोडिएको छ: डाटा प्राप्त गर्नु र परियोजनाको उद्देश्य तथा समाधान गर्नुपर्ने समस्याहरू परिभाषित गर्नु।
परियोजनाको लक्ष्य परिभाषित गर्न समस्या वा प्रश्नको गहिरो सन्दर्भ आवश्यक हुन्छ। पहिलो चरणमा, हामीले समस्या समाधान गर्न चाहने व्यक्तिहरूलाई पहिचान गर्न र प्राप्त गर्न आवश्यक छ। यी व्यक्तिहरू व्यवसायका हितधारक वा परियोजनाका प्रायोजक हुन सक्छन्, जसले परियोजनाबाट कसलाई वा केलाई फाइदा हुनेछ भनेर पहिचान गर्न मद्दत गर्न सक्छन्। साथै, किन र केका लागि यो आवश्यक छ भन्ने कुरा पनि स्पष्ट गर्न सक्छन्। राम्रोसँग परिभाषित लक्ष्य मापनयोग्य र परिमाणात्मक हुनुपर्छ ताकि स्वीकार्य परिणाम परिभाषित गर्न सकियोस्।

डाटा वैज्ञानिकले सोध्न सक्ने प्रश्नहरू:

  • के यो समस्या पहिले समाधान गरिएको छ? के पत्ता लगाइएको थियो?
  • के उद्देश्य र लक्ष्य सबै सहभागीहरूले बुझेका छन्?
  • के अस्पष्टता छ, र यसलाई कसरी घटाउन सकिन्छ?
  • के सीमाहरू छन्?
  • अन्तिम परिणाम कस्तो देखिन सक्छ?
  • कति स्रोतहरू (समय, मानिस, कम्प्युटेशनल) उपलब्ध छन्?

अर्को चरण भनेको डाटा पहिचान गर्नु, संकलन गर्नु, र अन्ततः परियोजनाका परिभाषित लक्ष्यहरू प्राप्त गर्न आवश्यक डाटाको अन्वेषण गर्नु हो। यस चरणमा, डाटा वैज्ञानिकहरूले डाटाको मात्रा र गुणस्तर मूल्याङ्कन गर्नुपर्छ। यसले डाटा अन्वेषणको आवश्यकता पर्छ ताकि प्राप्त गरिएको डाटाले इच्छित परिणाम प्राप्त गर्न सहयोग गर्ने कुरा सुनिश्चित गर्न सकियोस्।

डाटाबारे डाटा वैज्ञानिकले सोध्न सक्ने प्रश्नहरू:

  • मेरो लागि पहिले नै उपलब्ध डाटा के हो?
  • यो डाटाको मालिक को हो?
  • गोपनीयता सम्बन्धी चिन्ताहरू के छन्?
  • के यो समस्या समाधान गर्न पर्याप्त छ?
  • के यो डाटा यस समस्याको लागि स्वीकार्य गुणस्तरको छ?
  • यदि मैले यस डाटाबाट थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्य परिवर्तन वा पुनः परिभाषित गर्न विचार गर्नुपर्छ?

प्रशोधन

जीवनचक्रको प्रशोधन चरण डाटामा ढाँचाहरू पत्ता लगाउने र मोडेलिङमा केन्द्रित छ। प्रशोधन चरणमा प्रयोग गरिने केही प्रविधिहरूले ढाँचाहरू पत्ता लगाउन सांख्यिकीय विधिहरूको आवश्यकता पर्छ। सामान्यतया, यो ठूलो डाटा सेटको साथमा मानिसले गर्नुपर्ने थकाउने काम हुनेछ, र प्रक्रिया छिटो बनाउन कम्प्युटरमा निर्भर हुनेछ। यो चरणमा डाटा साइन्स र मेसिन लर्निङ एकअर्कासँग जोडिन्छ। पहिलो पाठमा सिकिएअनुसार, मेसिन लर्निङ भनेको डाटालाई बुझ्न मोडेल निर्माण गर्ने प्रक्रिया हो। मोडेल भनेको डाटाका भेरिएबलहरू बीचको सम्बन्धको प्रतिनिधित्व हो, जसले परिणामको भविष्यवाणी गर्न मद्दत गर्छ।

यस चरणमा प्रयोग गरिने सामान्य प्रविधिहरू ML for Beginners पाठ्यक्रममा समेटिएका छन्। थप जान्नका लागि लिंकहरू अनुसरण गर्नुहोस्:

  • Classification: डाटालाई वर्गहरूमा व्यवस्थित गरेर अधिक प्रभावकारी बनाउने।
  • Clustering: डाटालाई समान समूहहरूमा वर्गीकृत गर्ने।
  • Regression: भेरिएबलहरू बीचको सम्बन्ध निर्धारण गरेर मूल्यहरूको भविष्यवाणी वा पूर्वानुमान गर्ने।

मर्मत

जीवनचक्रको चित्रमा, तपाईंले देख्नुभएको हुन सक्छ कि मर्मत डाटा संकलन र प्रशोधनको बीचमा छ। मर्मत भनेको परियोजनाको प्रक्रिया भरि डाटाको व्यवस्थापन, भण्डारण, र सुरक्षा गर्ने निरन्तर प्रक्रिया हो। यो परियोजनाको सम्पूर्ण अवधिमा विचार गर्नुपर्छ।

डाटा भण्डारण

डाटा कहाँ र कसरी भण्डारण गरिन्छ भन्ने कुराले यसको लागत र प्रदर्शनमा प्रभाव पार्न सक्छ। डाटा कति छिटो पहुँच गर्न सकिन्छ भन्ने कुरामा पनि प्रभाव पार्छ। यस्ता निर्णयहरू डाटा वैज्ञानिकले मात्र गर्ने सम्भावना कम हुन्छ, तर डाटा कसरी भण्डारण गरिएको छ भन्ने आधारमा काम गर्ने तरिका चयन गर्नुपर्ने हुन सक्छ।

आधुनिक डाटा भण्डारण प्रणालीका केही पक्षहरू जसले यी निर्णयहरूलाई प्रभावित गर्न सक्छन्:

On premise vs off premise vs public or private cloud

On premise भनेको आफ्नै उपकरणमा डाटा होस्ट र व्यवस्थापन गर्नु हो, जस्तै डाटा भण्डारण गर्ने हार्ड ड्राइभ भएको सर्भरको मालिक हुनु। Off premise भनेको तपाईंको स्वामित्वमा नभएको उपकरणमा निर्भर हुनु हो, जस्तै डाटा केन्द्र। सार्वजनिक क्लाउड भनेको डाटा भण्डारणको लोकप्रिय विकल्प हो, जसले डाटा कहाँ र कसरी भण्डारण गरिएको छ भन्ने ज्ञान आवश्यक पर्दैन। सार्वजनिक क्लाउडमा सबैले साझा गर्ने एकीकृत आधारभूत संरचना हुन्छ। केही संस्थाहरूमा कडा सुरक्षा नीतिहरू हुन्छन्, जसले उनीहरूको डाटा होस्ट गरिएको उपकरणमा पूर्ण पहुँच आवश्यक पर्छ। यसले निजी क्लाउडमा निर्भर गर्दछ, जसले आफ्नै क्लाउड सेवाहरू प्रदान गर्दछ। तपाईंले पछिल्ला पाठहरूमा क्लाउडमा डाटाबारे थप जान्नुहुनेछ।

Cold vs hot data

जब तपाईं आफ्नो मोडेलहरू प्रशिक्षण गर्दै हुनुहुन्छ, तपाईंलाई थप प्रशिक्षण डाटाको आवश्यकता हुन सक्छ। यदि तपाईं आफ्नो मोडेलसँग सन्तुष्ट हुनुहुन्छ भने, मोडेलले आफ्नो उद्देश्य पूरा गर्न थप डाटा प्राप्त गर्नेछ। कुनै पनि अवस्थामा, डाटा भण्डारण र पहुँचको लागत बढ्नेछ। कम प्रयोग गरिने डाटालाई, जसलाई "cold data" भनिन्छ, बारम्बार प्रयोग गरिने "hot data" बाट अलग गरेर हार्डवेयर वा सफ्टवेयर सेवाहरू मार्फत सस्तो भण्डारण विकल्प बनाउन सकिन्छ। यदि "cold data" पहुँच गर्न आवश्यक छ भने, "hot data" को तुलनामा यसलाई पुनः प्राप्त गर्न केही समय लाग्न सक्छ।

डाटा व्यवस्थापन

डाटासँग काम गर्दा तपाईंले पत्ता लगाउन सक्नुहुन्छ कि केही डाटालाई सफा गर्न आवश्यक छ। डाटा तयारी मा समेटिएका प्रविधिहरू प्रयोग गरेर सही मोडेल निर्माण गर्न यो आवश्यक हुन्छ। नयाँ डाटा आउँदा, गुणस्तरमा निरन्तरता कायम गर्न समान प्रविधिहरू लागू गर्न आवश्यक हुनेछ। केही परियोजनाहरूमा डाटालाई अन्तिम स्थानमा सार्नुअघि सफा गर्ने, समग्र बनाउने, र कम्प्रेस गर्ने स्वचालित उपकरणको प्रयोग समावेश हुनेछ। Azure Data Factory यस्ता उपकरणहरूको उदाहरण हो।

डाटा सुरक्षा

डाटा सुरक्षित राख्ने मुख्य लक्ष्य भनेको डाटाको सन्दर्भमा के सङ्कलन गरिएको छ र कसरी प्रयोग भइरहेको छ भन्ने कुरामा काम गर्ने व्यक्तिहरूलाई नियन्त्रणमा राख्नु हो। डाटालाई सुरक्षित राख्नका लागि केवल आवश्यक व्यक्तिहरूलाई पहुँच दिनु, स्थानीय कानुन र नियमहरूको पालना गर्नु, साथै नैतिक मापदण्डहरू कायम राख्नु आवश्यक छ। नैतिकता पाठ मा यसबारे चर्चा गरिएको छ।

सुरक्षालाई ध्यानमा राखेर टोलीले गर्न सक्ने केही कामहरू:

  • सुनिश्चित गर्नु कि सबै डाटा इन्क्रिप्ट गरिएको छ।
  • ग्राहकहरूलाई उनीहरूको डाटा कसरी प्रयोग भइरहेको छ भन्ने जानकारी प्रदान गर्नु।
  • परियोजनाबाट बाहिरिएका व्यक्तिहरूको डाटा पहुँच हटाउनु।
  • केवल निश्चित परियोजना सदस्यहरूलाई डाटामा परिवर्तन गर्न अनुमति दिनु।

🚀 चुनौती

डाटा साइन्स जीवनचक्रका धेरै संस्करणहरू छन्, जहाँ प्रत्येक चरणका नाम र चरणहरूको संख्या फरक हुन सक्छ। तर यस पाठमा उल्लेख गरिएका प्रक्रियाहरू समावेश गरिएका हुन्छन्।

Team Data Science Process जीवनचक्रCross-industry standard process for data mining अन्वेषण गर्नुहोस्। यी दुईबीच तीन समानता र फरकता नाम दिनुहोस्।

Team Data Science Process (TDSP) Cross-industry standard process for data mining (CRISP-DM)
Team Data Science Lifecycle Data Science Process Alliance Image
Microsoft द्वारा छवि Data Science Process Alliance द्वारा छवि

पाठ पछि क्विज

समीक्षा र आत्म अध्ययन

डाटा साइन्स जीवनचक्र लागू गर्दा विभिन्न भूमिकाहरू र कार्यहरू समावेश हुन्छन्, जहाँ केहीले प्रत्येक चरणका विशेष भागहरूमा ध्यान केन्द्रित गर्न सक्छन्। Team Data Science Process ले परियोजनामा कसैले गर्न सक्ने भूमिकाहरू र कार्यहरूको प्रकारहरू व्याख्या गर्ने केही स्रोतहरू प्रदान गर्दछ।

असाइनमेन्ट

डाटासेटको मूल्याङ्कन


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।