You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
60 lines
13 KiB
60 lines
13 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "d92f57eb110dc7f765c05cbf0f837c77",
|
|
"translation_date": "2025-08-27T18:01:33+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
|
|
"language_code": "ne"
|
|
}
|
|
-->
|
|
# डेटा साइन्स जीवनचक्र: विश्लेषण
|
|
|
|
| ](../../sketchnotes/15-Analyzing.png)|
|
|
|:---:|
|
|
| डेटा साइन्स जीवनचक्र: विश्लेषण - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
## प्रि-लेक्चर क्विज
|
|
|
|
## [प्रि-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28)
|
|
|
|
डेटा जीवनचक्रमा विश्लेषणले पुष्टि गर्छ कि डेटा प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ कि छैन भनेर पुष्टि गर्न पनि ध्यान दिन सक्छ। यो पाठ अन्वेषणात्मक डेटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डेटा भित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र मोडेलिङको लागि डेटा तयार गर्न प्रयोग गर्न सकिन्छ।
|
|
|
|
हामी [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) बाट एउटा उदाहरण डेटासेट प्रयोग गर्नेछौं जसले देखाउँछ कि Python र Pandas लाइब्रेरीको साथमा यसलाई कसरी लागू गर्न सकिन्छ। यो डेटासेटले इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश गर्दछ, यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको [notebook](notebook.ipynb) प्रयोग गरेर साथमा काम गर्नुहोस्।
|
|
|
|
## अन्वेषणात्मक डेटा विश्लेषण
|
|
|
|
जीवनचक्रको क्याप्चर चरणमा डेटा प्राप्त गरिन्छ साथै समस्याहरू र प्रश्नहरू पनि। तर हामी कसरी थाहा पाउन सक्छौं कि डेटा अन्तिम परिणामलाई समर्थन गर्न सक्छ?
|
|
स्मरण गर्नुहोस् कि डेटा वैज्ञानिकले डेटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:
|
|
- के मसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ?
|
|
- के यो समस्याको लागि डेटा स्वीकार्य गुणस्तरको छ?
|
|
- यदि मैले यस डेटा मार्फत थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन वा पुनः परिभाषित गर्न विचार गर्नुपर्छ?
|
|
अन्वेषणात्मक डेटा विश्लेषण भनेको डेटा बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिन प्रयोग गर्न सकिन्छ, साथै डेटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न सकिन्छ। यसलाई प्राप्त गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।
|
|
|
|
## डेटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas
|
|
हामीसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ कि छैन भनेर कसरी मूल्यांकन गर्ने? डेटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डेटासेटको सामान्य समग्र जानकारी संक्षेपमा प्रस्तुत गर्न र संकलन गर्न सक्छ। डेटा प्रोफाइलिङले हामीलाई के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीलाई कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।
|
|
|
|
केही अघिल्लो पाठहरूमा, हामीले Pandas प्रयोग गरेर [`describe()` function]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन र संख्यात्मक डेटामा क्वान्टाइलहरू प्रदान गर्दछ। `describe()` जस्ता वर्णनात्मक तथ्यांकले तपाईंलाई कति डेटा छ र थप आवश्यक छ कि छैन भनेर मूल्यांकन गर्न मद्दत गर्न सक्छ।
|
|
|
|
## स्याम्पलिङ र क्वेरीङ
|
|
ठूलो डेटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र सामान्यतया कम्प्युटरले गर्ने काम हो। तर, स्याम्पलिङ डेटा बुझ्नको लागि उपयोगी उपकरण हो र यसले डेटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भन्ने राम्रो समझ दिन्छ। स्याम्पलको साथमा, तपाईंले सम्भाव्यता र तथ्यांक लागू गरेर आफ्नो डेटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डेटा स्याम्पल गर्नुपर्छ भन्ने कुनै परिभाषित नियम छैन, यो महत्त्वपूर्ण छ कि तपाईंले जति धेरै डेटा स्याम्पल गर्नुहुन्छ, डेटाबारे सामान्यीकरण गर्न त्यति नै सटीक निष्कर्ष निकाल्न सक्नुहुन्छ।
|
|
Pandas लाइब्रेरीमा [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) छ जहाँ तपाईंले कति र्यान्डम स्याम्पलहरू प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।
|
|
|
|
डेटाको सामान्य क्वेरीङले तपाईंलाई केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। स्याम्पलिङको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंको डेटाको विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ जसबारे तपाईंलाई प्रश्नहरू छन्।
|
|
Pandas लाइब्रेरीमा [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) छ जसले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डेटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।
|
|
|
|
## भिजुअलाइजेसनको साथ अन्वेषण
|
|
डेटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म तपाईंले भिजुअलाइजेसन बनाउन पर्खनु पर्दैन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले डेटामा ढाँचा, सम्बन्धहरू, र समस्याहरू पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डेटा व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर हुन सक्छ। भिजुअलाइजेसनको बारेमा थप जान्न [Visualizations को खण्ड](../../../../../../../../../3-Data-Visualization) हेर्नुहोस्।
|
|
|
|
## असंगतता पहिचान गर्न अन्वेषण
|
|
यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। [isna() वा isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) ले हराएका मानहरू जाँच गर्न सक्छ। तपाईंको डेटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई [तिनीहरूलाई समाधान गर्नका लागि कदमहरू लिन](/2-Working-With-Data/08-data-preparation/notebook.ipynb) निर्णय गर्न मद्दत गर्न सक्छ।
|
|
|
|
## [प्रि-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27)
|
|
|
|
## असाइनमेन्ट
|
|
|
|
[उत्तरहरूको लागि अन्वेषण गर्नुहोस्](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। |