Data-Science-For-Beginners/translations/ne/4-Data-Science-Lifecycle/15-analyzing/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "d92f57eb110dc7f765c05cbf0f837c77",
  "translation_date": "2025-08-27T18:01:33+00:00",
  "source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
  "language_code": "ne"
}
-->
# डेटा साइन्स जीवनचक्र: विश्लेषण

|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)|
|:---:|
| डेटा साइन्स जीवनचक्र: विश्लेषण - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |

## प्रि-लेक्चर क्विज

## [प्रि-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28)

डेटा जीवनचक्रमा विश्लेषणले पुष्टि गर्छ कि डेटा प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ कि छैन भनेर पुष्टि गर्न पनि ध्यान दिन सक्छ। यो पाठ अन्वेषणात्मक डेटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डेटा भित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र मोडेलिङको लागि डेटा तयार गर्न प्रयोग गर्न सकिन्छ।

हामी [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) बाट एउटा उदाहरण डेटासेट प्रयोग गर्नेछौं जसले देखाउँछ कि Python र Pandas लाइब्रेरीको साथमा यसलाई कसरी लागू गर्न सकिन्छ। यो डेटासेटले इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश गर्दछ, यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको [notebook](notebook.ipynb) प्रयोग गरेर साथमा काम गर्नुहोस्।

## अन्वेषणात्मक डेटा विश्लेषण

जीवनचक्रको क्याप्चर चरणमा डेटा प्राप्त गरिन्छ साथै समस्याहरू र प्रश्नहरू पनि। तर हामी कसरी थाहा पाउन सक्छौं कि डेटा अन्तिम परिणामलाई समर्थन गर्न सक्छ?
स्मरण गर्नुहोस् कि डेटा वैज्ञानिकले डेटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:
-   के मसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ?
-   के यो समस्याको लागि डेटा स्वीकार्य गुणस्तरको छ?
-   यदि मैले यस डेटा मार्फत थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन वा पुनः परिभाषित गर्न विचार गर्नुपर्छ?
अन्वेषणात्मक डेटा विश्लेषण भनेको डेटा बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिन प्रयोग गर्न सकिन्छ, साथै डेटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न सकिन्छ। यसलाई प्राप्त गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।

## डेटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas
हामीसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ कि छैन भनेर कसरी मूल्यांकन गर्ने? डेटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डेटासेटको सामान्य समग्र जानकारी संक्षेपमा प्रस्तुत गर्न र संकलन गर्न सक्छ। डेटा प्रोफाइलिङले हामीलाई के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीलाई कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।

केही अघिल्लो पाठहरूमा, हामीले Pandas प्रयोग गरेर [`describe()` function]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन र संख्यात्मक डेटामा क्वान्टाइलहरू प्रदान गर्दछ। `describe()` जस्ता वर्णनात्मक तथ्यांकले तपाईंलाई कति डेटा छ र थप आवश्यक छ कि छैन भनेर मूल्यांकन गर्न मद्दत गर्न सक्छ।

## स्याम्पलिङ र क्वेरीङ
ठूलो डेटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र सामान्यतया कम्प्युटरले गर्ने काम हो। तर, स्याम्पलिङ डेटा बुझ्नको लागि उपयोगी उपकरण हो र यसले डेटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भन्ने राम्रो समझ दिन्छ। स्याम्पलको साथमा, तपाईंले सम्भाव्यता र तथ्यांक लागू गरेर आफ्नो डेटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डेटा स्याम्पल गर्नुपर्छ भन्ने कुनै परिभाषित नियम छैन, यो महत्त्वपूर्ण छ कि तपाईंले जति धेरै डेटा स्याम्पल गर्नुहुन्छ, डेटाबारे सामान्यीकरण गर्न त्यति नै सटीक निष्कर्ष निकाल्न सक्नुहुन्छ।
Pandas लाइब्रेरीमा [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) छ जहाँ तपाईंले कति र्यान्डम स्याम्पलहरू प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।

डेटाको सामान्य क्वेरीङले तपाईंलाई केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। स्याम्पलिङको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंको डेटाको विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ जसबारे तपाईंलाई प्रश्नहरू छन्।
Pandas लाइब्रेरीमा [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) छ जसले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डेटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।

## भिजुअलाइजेसनको साथ अन्वेषण
डेटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म तपाईंले भिजुअलाइजेसन बनाउन पर्खनु पर्दैन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले डेटामा ढाँचा, सम्बन्धहरू, र समस्याहरू पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डेटा व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर हुन सक्छ। भिजुअलाइजेसनको बारेमा थप जान्न [Visualizations को खण्ड](../../../../../../../../../3-Data-Visualization) हेर्नुहोस्।

## असंगतता पहिचान गर्न अन्वेषण
यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। [isna() वा isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) ले हराएका मानहरू जाँच गर्न सक्छ। तपाईंको डेटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई [तिनीहरूलाई समाधान गर्नका लागि कदमहरू लिन](/2-Working-With-Data/08-data-preparation/notebook.ipynb) निर्णय गर्न मद्दत गर्न सक्छ।

## [प्रि-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27)

## असाइनमेन्ट

[उत्तरहरूको लागि अन्वेषण गर्नुहोस्](assignment.md)

---

**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।