Data-Science-For-Beginners/translations/ne/4-Data-Science-Lifecycle/15-analyzing/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "661dad02c3ac239644d34c1eb51e76f8",
  "translation_date": "2025-09-06T20:43:05+00:00",
  "source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
  "language_code": "ne"
}
-->
# डाटा साइन्स जीवनचक्र: विश्लेषण

|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)|
|:---:|
| डाटा साइन्स जीवनचक्र: विश्लेषण - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |

## [पूर्व-व्याख्यान प्रश्नोत्तरी](https://ff-quizzes.netlify.app/en/ds/quiz/28)

डाटा जीवनचक्रको विश्लेषण चरणले यो सुनिश्चित गर्दछ कि डाटाले प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले यो पनि सुनिश्चित गर्न ध्यान दिन सक्छ कि कुनै मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ। यो पाठ अन्वेषणात्मक डाटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डाटाभित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र डाटालाई मोडेलिङको लागि तयार गर्न प्रयोग गर्न सकिन्छ।

हामी [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) बाट एउटा उदाहरण डाटासेट प्रयोग गर्नेछौं, जसले कसरी Python र Pandas लाइब्रेरीको साथमा यो लागू गर्न सकिन्छ भनेर देखाउँछ। यो डाटासेटमा इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश छ, र यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको [notebook](notebook.ipynb) प्रयोग गरेर अनुसरण गर्नुहोस्।

## अन्वेषणात्मक डाटा विश्लेषण

जीवनचक्रको क्याप्चर चरणमा डाटा प्राप्त गरिन्छ र समस्याहरू र प्रश्नहरू परिभाषित गरिन्छ, तर हामीलाई कसरी थाहा हुन्छ कि डाटाले अन्तिम परिणामलाई समर्थन गर्न सक्छ?
डाटा वैज्ञानिकले डाटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:
- के यो समस्या समाधान गर्न पर्याप्त डाटा छ?
- के यो समस्याको लागि डाटाको गुणस्तर स्वीकार्य छ?
- यदि मैले यस डाटाबाट थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन गर्ने वा पुनः परिभाषित गर्ने विचार गर्नुपर्छ?

अन्वेषणात्मक डाटा विश्लेषण भनेको डाटालाई बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिनका लागि प्रयोग गर्न सकिन्छ, साथै डाटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न पनि। आउनुहोस्, यसलाई हासिल गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।

## डाटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas
हामीसँग यो समस्या समाधान गर्न पर्याप्त डाटा छ कि छैन भनेर कसरी मूल्याङ्कन गर्ने? डाटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डाटासेटको सामान्य जानकारी संक्षेपमा दिन सक्छ। डाटा प्रोफाइलिङले हामीसँग के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीसँग कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।

केही अघिल्ला पाठहरूमा, हामीले Pandas प्रयोग गरेर [`describe()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन, र संख्यात्मक डाटामा क्वान्टाइलहरू प्रदान गर्दछ। `describe()` जस्ता वर्णनात्मक तथ्यांक प्रयोग गरेर तपाईंले कति डाटा छ र थप आवश्यक छ कि छैन भनेर मूल्याङ्कन गर्न सक्नुहुन्छ।

## नमूना र क्वेरी
ठूलो डाटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र यो प्रायः कम्प्युटरलाई गर्न दिइन्छ। तर, नमूना लिनु डाटालाई बुझ्नका लागि उपयोगी उपकरण हो र यसले डाटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भनेर राम्रोसँग बुझ्न मद्दत गर्दछ। नमूनाको साथ, तपाईंले सम्भाव्यता र तथ्यांक प्रयोग गरेर आफ्नो डाटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डाटा नमूना लिनुपर्छ भन्ने कुनै निश्चित नियम छैन, तर तपाईंले जति धेरै डाटा नमूना लिनुहुन्छ, त्यति नै सटीक सामान्यीकरण गर्न सक्नुहुन्छ।
Pandas लाईब्ररीमा [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) छ, जहाँ तपाईंले कति वटा र्यान्डम नमूना प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।

डाटाको सामान्य क्वेरीले तपाईंले केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। नमूनाको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंलाई चासो भएका डाटाका विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ।
Pandas लाईब्ररीको [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) ले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डाटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।

## भिजुअलाइजेसनको साथ अन्वेषण
डाटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म पर्खनु पर्दैन भिजुअलाइजेसन बनाउन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले ढाँचाहरू, सम्बन्धहरू, र डाटामा समस्या पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डाटाको व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर प्रदान गर्न सक्छ। भिजुअलाइजेसनका लोकप्रिय तरिकाहरू सिक्न [Visualizations को खण्ड](../../../../../../../../../3-Data-Visualization) हेर्नुहोस्।

## असंगतताहरू पहिचान गर्न अन्वेषण
यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। [isna() वा isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) ले हराएका मानहरूको जाँच गर्न सक्छ। डाटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई [यी समस्याहरू समाधान गर्नका लागि कदम चाल्ने]( /2-Working-With-Data/08-data-preparation/notebook.ipynb) निर्णय गर्न मद्दत गर्न सक्छ।

## [पश्च-व्याख्यान प्रश्नोत्तरी](https://ff-quizzes.netlify.app/en/ds/quiz/29)

## असाइनमेन्ट

[उत्तरहरूको लागि अन्वेषण गर्नुहोस्](assignment.md)

---

**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।