# डेटा साइन्स जीवनचक्र: विश्लेषण |![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)| |:---:| | डेटा साइन्स जीवनचक्र: विश्लेषण - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | ## प्रि-लेक्चर क्विज ## [प्रि-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28) डेटा जीवनचक्रमा विश्लेषणले पुष्टि गर्छ कि डेटा प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ कि छैन भनेर पुष्टि गर्न पनि ध्यान दिन सक्छ। यो पाठ अन्वेषणात्मक डेटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डेटा भित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र मोडेलिङको लागि डेटा तयार गर्न प्रयोग गर्न सकिन्छ। हामी [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) बाट एउटा उदाहरण डेटासेट प्रयोग गर्नेछौं जसले देखाउँछ कि Python र Pandas लाइब्रेरीको साथमा यसलाई कसरी लागू गर्न सकिन्छ। यो डेटासेटले इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश गर्दछ, यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको [notebook](notebook.ipynb) प्रयोग गरेर साथमा काम गर्नुहोस्। ## अन्वेषणात्मक डेटा विश्लेषण जीवनचक्रको क्याप्चर चरणमा डेटा प्राप्त गरिन्छ साथै समस्याहरू र प्रश्नहरू पनि। तर हामी कसरी थाहा पाउन सक्छौं कि डेटा अन्तिम परिणामलाई समर्थन गर्न सक्छ? स्मरण गर्नुहोस् कि डेटा वैज्ञानिकले डेटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ: - के मसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ? - के यो समस्याको लागि डेटा स्वीकार्य गुणस्तरको छ? - यदि मैले यस डेटा मार्फत थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन वा पुनः परिभाषित गर्न विचार गर्नुपर्छ? अन्वेषणात्मक डेटा विश्लेषण भनेको डेटा बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिन प्रयोग गर्न सकिन्छ, साथै डेटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न सकिन्छ। यसलाई प्राप्त गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं। ## डेटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas हामीसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ कि छैन भनेर कसरी मूल्यांकन गर्ने? डेटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डेटासेटको सामान्य समग्र जानकारी संक्षेपमा प्रस्तुत गर्न र संकलन गर्न सक्छ। डेटा प्रोफाइलिङले हामीलाई के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीलाई कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ। केही अघिल्लो पाठहरूमा, हामीले Pandas प्रयोग गरेर [`describe()` function]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन र संख्यात्मक डेटामा क्वान्टाइलहरू प्रदान गर्दछ। `describe()` जस्ता वर्णनात्मक तथ्यांकले तपाईंलाई कति डेटा छ र थप आवश्यक छ कि छैन भनेर मूल्यांकन गर्न मद्दत गर्न सक्छ। ## स्याम्पलिङ र क्वेरीङ ठूलो डेटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र सामान्यतया कम्प्युटरले गर्ने काम हो। तर, स्याम्पलिङ डेटा बुझ्नको लागि उपयोगी उपकरण हो र यसले डेटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भन्ने राम्रो समझ दिन्छ। स्याम्पलको साथमा, तपाईंले सम्भाव्यता र तथ्यांक लागू गरेर आफ्नो डेटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डेटा स्याम्पल गर्नुपर्छ भन्ने कुनै परिभाषित नियम छैन, यो महत्त्वपूर्ण छ कि तपाईंले जति धेरै डेटा स्याम्पल गर्नुहुन्छ, डेटाबारे सामान्यीकरण गर्न त्यति नै सटीक निष्कर्ष निकाल्न सक्नुहुन्छ। Pandas लाइब्रेरीमा [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) छ जहाँ तपाईंले कति र्यान्डम स्याम्पलहरू प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ। डेटाको सामान्य क्वेरीङले तपाईंलाई केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। स्याम्पलिङको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंको डेटाको विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ जसबारे तपाईंलाई प्रश्नहरू छन्। Pandas लाइब्रेरीमा [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) छ जसले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डेटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ। ## भिजुअलाइजेसनको साथ अन्वेषण डेटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म तपाईंले भिजुअलाइजेसन बनाउन पर्खनु पर्दैन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले डेटामा ढाँचा, सम्बन्धहरू, र समस्याहरू पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डेटा व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर हुन सक्छ। भिजुअलाइजेसनको बारेमा थप जान्न [Visualizations को खण्ड](../../../../../../../../../3-Data-Visualization) हेर्नुहोस्। ## असंगतता पहिचान गर्न अन्वेषण यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। [isna() वा isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) ले हराएका मानहरू जाँच गर्न सक्छ। तपाईंको डेटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई [तिनीहरूलाई समाधान गर्नका लागि कदमहरू लिन](/2-Working-With-Data/08-data-preparation/notebook.ipynb) निर्णय गर्न मद्दत गर्न सक्छ। ## [प्रि-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27) ## असाइनमेन्ट [उत्तरहरूको लागि अन्वेषण गर्नुहोस्](assignment.md) --- **अस्वीकरण**: यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।