13 KiB

Raw Permalink Blame History

डाटा साइन्स जीवनचक्र: विश्लेषण


डाटा साइन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya

पूर्व-व्याख्यान प्रश्नोत्तरी

डाटा जीवनचक्रको विश्लेषण चरणले यो सुनिश्चित गर्दछ कि डाटाले प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले यो पनि सुनिश्चित गर्न ध्यान दिन सक्छ कि कुनै मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ। यो पाठ अन्वेषणात्मक डाटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डाटाभित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र डाटालाई मोडेलिङको लागि तयार गर्न प्रयोग गर्न सकिन्छ।

हामी Kaggle बाट एउटा उदाहरण डाटासेट प्रयोग गर्नेछौं, जसले कसरी Python र Pandas लाइब्रेरीको साथमा यो लागू गर्न सकिन्छ भनेर देखाउँछ। यो डाटासेटमा इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश छ, र यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको notebook प्रयोग गरेर अनुसरण गर्नुहोस्।

अन्वेषणात्मक डाटा विश्लेषण

जीवनचक्रको क्याप्चर चरणमा डाटा प्राप्त गरिन्छ र समस्याहरू र प्रश्नहरू परिभाषित गरिन्छ, तर हामीलाई कसरी थाहा हुन्छ कि डाटाले अन्तिम परिणामलाई समर्थन गर्न सक्छ?
डाटा वैज्ञानिकले डाटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:

के यो समस्या समाधान गर्न पर्याप्त डाटा छ?
के यो समस्याको लागि डाटाको गुणस्तर स्वीकार्य छ?
यदि मैले यस डाटाबाट थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन गर्ने वा पुनः परिभाषित गर्ने विचार गर्नुपर्छ?

अन्वेषणात्मक डाटा विश्लेषण भनेको डाटालाई बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिनका लागि प्रयोग गर्न सकिन्छ, साथै डाटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न पनि। आउनुहोस्, यसलाई हासिल गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।

डाटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas

हामीसँग यो समस्या समाधान गर्न पर्याप्त डाटा छ कि छैन भनेर कसरी मूल्याङ्कन गर्ने? डाटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डाटासेटको सामान्य जानकारी संक्षेपमा दिन सक्छ। डाटा प्रोफाइलिङले हामीसँग के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीसँग कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।

केही अघिल्ला पाठहरूमा, हामीले Pandas प्रयोग गरेर describe() function मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन, र संख्यात्मक डाटामा क्वान्टाइलहरू प्रदान गर्दछ। describe() जस्ता वर्णनात्मक तथ्यांक प्रयोग गरेर तपाईंले कति डाटा छ र थप आवश्यक छ कि छैन भनेर मूल्याङ्कन गर्न सक्नुहुन्छ।

नमूना र क्वेरी

ठूलो डाटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र यो प्रायः कम्प्युटरलाई गर्न दिइन्छ। तर, नमूना लिनु डाटालाई बुझ्नका लागि उपयोगी उपकरण हो र यसले डाटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भनेर राम्रोसँग बुझ्न मद्दत गर्दछ। नमूनाको साथ, तपाईंले सम्भाव्यता र तथ्यांक प्रयोग गरेर आफ्नो डाटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डाटा नमूना लिनुपर्छ भन्ने कुनै निश्चित नियम छैन, तर तपाईंले जति धेरै डाटा नमूना लिनुहुन्छ, त्यति नै सटीक सामान्यीकरण गर्न सक्नुहुन्छ।
Pandas लाईब्ररीमा sample() function छ, जहाँ तपाईंले कति वटा र्यान्डम नमूना प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।

डाटाको सामान्य क्वेरीले तपाईंले केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। नमूनाको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंलाई चासो भएका डाटाका विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ।
Pandas लाईब्ररीको query() function ले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डाटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।

भिजुअलाइजेसनको साथ अन्वेषण

डाटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म पर्खनु पर्दैन भिजुअलाइजेसन बनाउन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले ढाँचाहरू, सम्बन्धहरू, र डाटामा समस्या पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डाटाको व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर प्रदान गर्न सक्छ। भिजुअलाइजेसनका लोकप्रिय तरिकाहरू सिक्न Visualizations को खण्ड हेर्नुहोस्।

असंगतताहरू पहिचान गर्न अन्वेषण

यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। isna() वा isnull() ले हराएका मानहरूको जाँच गर्न सक्छ। डाटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई यी समस्याहरू समाधान गर्नका लागि कदम चाल्ने निर्णय गर्न मद्दत गर्न सक्छ।

पश्च-व्याख्यान प्रश्नोत्तरी

असाइनमेन्ट

उत्तरहरूको लागि अन्वेषण गर्नुहोस्

अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।

13 KiB Raw Permalink Blame History