You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ne/4-Data-Science-Lifecycle/15-analyzing/README.md

13 KiB

डाटा साइन्स जीवनचक्र: विश्लेषण

 Sketchnote by (@sketchthedocs)
डाटा साइन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya

पूर्व-व्याख्यान प्रश्नोत्तरी

डाटा जीवनचक्रको विश्लेषण चरणले यो सुनिश्चित गर्दछ कि डाटाले प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले यो पनि सुनिश्चित गर्न ध्यान दिन सक्छ कि कुनै मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ। यो पाठ अन्वेषणात्मक डाटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डाटाभित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र डाटालाई मोडेलिङको लागि तयार गर्न प्रयोग गर्न सकिन्छ।

हामी Kaggle बाट एउटा उदाहरण डाटासेट प्रयोग गर्नेछौं, जसले कसरी Python र Pandas लाइब्रेरीको साथमा यो लागू गर्न सकिन्छ भनेर देखाउँछ। यो डाटासेटमा इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश छ, र यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको notebook प्रयोग गरेर अनुसरण गर्नुहोस्।

अन्वेषणात्मक डाटा विश्लेषण

जीवनचक्रको क्याप्चर चरणमा डाटा प्राप्त गरिन्छ र समस्याहरू र प्रश्नहरू परिभाषित गरिन्छ, तर हामीलाई कसरी थाहा हुन्छ कि डाटाले अन्तिम परिणामलाई समर्थन गर्न सक्छ?
डाटा वैज्ञानिकले डाटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:

  • के यो समस्या समाधान गर्न पर्याप्त डाटा छ?
  • के यो समस्याको लागि डाटाको गुणस्तर स्वीकार्य छ?
  • यदि मैले यस डाटाबाट थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन गर्ने वा पुनः परिभाषित गर्ने विचार गर्नुपर्छ?

अन्वेषणात्मक डाटा विश्लेषण भनेको डाटालाई बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिनका लागि प्रयोग गर्न सकिन्छ, साथै डाटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न पनि। आउनुहोस्, यसलाई हासिल गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।

डाटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas

हामीसँग यो समस्या समाधान गर्न पर्याप्त डाटा छ कि छैन भनेर कसरी मूल्याङ्कन गर्ने? डाटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डाटासेटको सामान्य जानकारी संक्षेपमा दिन सक्छ। डाटा प्रोफाइलिङले हामीसँग के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीसँग कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।

केही अघिल्ला पाठहरूमा, हामीले Pandas प्रयोग गरेर describe() function मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन, र संख्यात्मक डाटामा क्वान्टाइलहरू प्रदान गर्दछ। describe() जस्ता वर्णनात्मक तथ्यांक प्रयोग गरेर तपाईंले कति डाटा छ र थप आवश्यक छ कि छैन भनेर मूल्याङ्कन गर्न सक्नुहुन्छ।

नमूना र क्वेरी

ठूलो डाटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र यो प्रायः कम्प्युटरलाई गर्न दिइन्छ। तर, नमूना लिनु डाटालाई बुझ्नका लागि उपयोगी उपकरण हो र यसले डाटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भनेर राम्रोसँग बुझ्न मद्दत गर्दछ। नमूनाको साथ, तपाईंले सम्भाव्यता र तथ्यांक प्रयोग गरेर आफ्नो डाटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डाटा नमूना लिनुपर्छ भन्ने कुनै निश्चित नियम छैन, तर तपाईंले जति धेरै डाटा नमूना लिनुहुन्छ, त्यति नै सटीक सामान्यीकरण गर्न सक्नुहुन्छ।
Pandas लाईब्ररीमा sample() function छ, जहाँ तपाईंले कति वटा र्यान्डम नमूना प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।

डाटाको सामान्य क्वेरीले तपाईंले केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। नमूनाको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंलाई चासो भएका डाटाका विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ।
Pandas लाईब्ररीको query() function ले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डाटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।

भिजुअलाइजेसनको साथ अन्वेषण

डाटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म पर्खनु पर्दैन भिजुअलाइजेसन बनाउन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले ढाँचाहरू, सम्बन्धहरू, र डाटामा समस्या पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डाटाको व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर प्रदान गर्न सक्छ। भिजुअलाइजेसनका लोकप्रिय तरिकाहरू सिक्न Visualizations को खण्ड हेर्नुहोस्।

असंगतताहरू पहिचान गर्न अन्वेषण

यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। isna() वा isnull() ले हराएका मानहरूको जाँच गर्न सक्छ। डाटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई यी समस्याहरू समाधान गर्नका लागि कदम चाल्ने निर्णय गर्न मद्दत गर्न सक्छ।

पश्च-व्याख्यान प्रश्नोत्तरी

असाइनमेन्ट

उत्तरहरूको लागि अन्वेषण गर्नुहोस्


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।