You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ne/4-Data-Science-Lifecycle/15-analyzing/README.md

13 KiB

डेटा साइन्स जीवनचक्र: विश्लेषण

 Sketchnote by (@sketchthedocs)
डेटा साइन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya

प्रि-लेक्चर क्विज

प्रि-लेक्चर क्विज

डेटा जीवनचक्रमा विश्लेषणले पुष्टि गर्छ कि डेटा प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ कि छैन भनेर पुष्टि गर्न पनि ध्यान दिन सक्छ। यो पाठ अन्वेषणात्मक डेटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डेटा भित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र मोडेलिङको लागि डेटा तयार गर्न प्रयोग गर्न सकिन्छ।

हामी Kaggle बाट एउटा उदाहरण डेटासेट प्रयोग गर्नेछौं जसले देखाउँछ कि Python र Pandas लाइब्रेरीको साथमा यसलाई कसरी लागू गर्न सकिन्छ। यो डेटासेटले इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश गर्दछ, यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको notebook प्रयोग गरेर साथमा काम गर्नुहोस्।

अन्वेषणात्मक डेटा विश्लेषण

जीवनचक्रको क्याप्चर चरणमा डेटा प्राप्त गरिन्छ साथै समस्याहरू र प्रश्नहरू पनि। तर हामी कसरी थाहा पाउन सक्छौं कि डेटा अन्तिम परिणामलाई समर्थन गर्न सक्छ? स्मरण गर्नुहोस् कि डेटा वैज्ञानिकले डेटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:

  • के मसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ?
  • के यो समस्याको लागि डेटा स्वीकार्य गुणस्तरको छ?
  • यदि मैले यस डेटा मार्फत थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन वा पुनः परिभाषित गर्न विचार गर्नुपर्छ? अन्वेषणात्मक डेटा विश्लेषण भनेको डेटा बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिन प्रयोग गर्न सकिन्छ, साथै डेटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न सकिन्छ। यसलाई प्राप्त गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।

डेटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas

हामीसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ कि छैन भनेर कसरी मूल्यांकन गर्ने? डेटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डेटासेटको सामान्य समग्र जानकारी संक्षेपमा प्रस्तुत गर्न र संकलन गर्न सक्छ। डेटा प्रोफाइलिङले हामीलाई के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीलाई कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।

केही अघिल्लो पाठहरूमा, हामीले Pandas प्रयोग गरेर describe() function मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन र संख्यात्मक डेटामा क्वान्टाइलहरू प्रदान गर्दछ। describe() जस्ता वर्णनात्मक तथ्यांकले तपाईंलाई कति डेटा छ र थप आवश्यक छ कि छैन भनेर मूल्यांकन गर्न मद्दत गर्न सक्छ।

स्याम्पलिङ र क्वेरीङ

ठूलो डेटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र सामान्यतया कम्प्युटरले गर्ने काम हो। तर, स्याम्पलिङ डेटा बुझ्नको लागि उपयोगी उपकरण हो र यसले डेटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भन्ने राम्रो समझ दिन्छ। स्याम्पलको साथमा, तपाईंले सम्भाव्यता र तथ्यांक लागू गरेर आफ्नो डेटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डेटा स्याम्पल गर्नुपर्छ भन्ने कुनै परिभाषित नियम छैन, यो महत्त्वपूर्ण छ कि तपाईंले जति धेरै डेटा स्याम्पल गर्नुहुन्छ, डेटाबारे सामान्यीकरण गर्न त्यति नै सटीक निष्कर्ष निकाल्न सक्नुहुन्छ। Pandas लाइब्रेरीमा sample() function छ जहाँ तपाईंले कति र्यान्डम स्याम्पलहरू प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।

डेटाको सामान्य क्वेरीङले तपाईंलाई केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। स्याम्पलिङको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंको डेटाको विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ जसबारे तपाईंलाई प्रश्नहरू छन्। Pandas लाइब्रेरीमा query() function छ जसले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डेटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।

भिजुअलाइजेसनको साथ अन्वेषण

डेटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म तपाईंले भिजुअलाइजेसन बनाउन पर्खनु पर्दैन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले डेटामा ढाँचा, सम्बन्धहरू, र समस्याहरू पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डेटा व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर हुन सक्छ। भिजुअलाइजेसनको बारेमा थप जान्न Visualizations को खण्ड हेर्नुहोस्।

असंगतता पहिचान गर्न अन्वेषण

यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। isna() वा isnull() ले हराएका मानहरू जाँच गर्न सक्छ। तपाईंको डेटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई तिनीहरूलाई समाधान गर्नका लागि कदमहरू लिन निर्णय गर्न मद्दत गर्न सक्छ।

प्रि-लेक्चर क्विज

असाइनमेन्ट

उत्तरहरूको लागि अन्वेषण गर्नुहोस्


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।