13 KiB
डेटा साइन्स जीवनचक्र: विश्लेषण
![]() |
---|
डेटा साइन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya |
प्रि-लेक्चर क्विज
प्रि-लेक्चर क्विज
डेटा जीवनचक्रमा विश्लेषणले पुष्टि गर्छ कि डेटा प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ कि छैन भनेर पुष्टि गर्न पनि ध्यान दिन सक्छ। यो पाठ अन्वेषणात्मक डेटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डेटा भित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र मोडेलिङको लागि डेटा तयार गर्न प्रयोग गर्न सकिन्छ।
हामी Kaggle बाट एउटा उदाहरण डेटासेट प्रयोग गर्नेछौं जसले देखाउँछ कि Python र Pandas लाइब्रेरीको साथमा यसलाई कसरी लागू गर्न सकिन्छ। यो डेटासेटले इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश गर्दछ, यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको notebook प्रयोग गरेर साथमा काम गर्नुहोस्।
अन्वेषणात्मक डेटा विश्लेषण
जीवनचक्रको क्याप्चर चरणमा डेटा प्राप्त गरिन्छ साथै समस्याहरू र प्रश्नहरू पनि। तर हामी कसरी थाहा पाउन सक्छौं कि डेटा अन्तिम परिणामलाई समर्थन गर्न सक्छ? स्मरण गर्नुहोस् कि डेटा वैज्ञानिकले डेटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:
- के मसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ?
- के यो समस्याको लागि डेटा स्वीकार्य गुणस्तरको छ?
- यदि मैले यस डेटा मार्फत थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन वा पुनः परिभाषित गर्न विचार गर्नुपर्छ? अन्वेषणात्मक डेटा विश्लेषण भनेको डेटा बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिन प्रयोग गर्न सकिन्छ, साथै डेटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न सकिन्छ। यसलाई प्राप्त गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।
डेटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas
हामीसँग यो समस्या समाधान गर्न पर्याप्त डेटा छ कि छैन भनेर कसरी मूल्यांकन गर्ने? डेटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डेटासेटको सामान्य समग्र जानकारी संक्षेपमा प्रस्तुत गर्न र संकलन गर्न सक्छ। डेटा प्रोफाइलिङले हामीलाई के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीलाई कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।
केही अघिल्लो पाठहरूमा, हामीले Pandas प्रयोग गरेर describe()
function मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन र संख्यात्मक डेटामा क्वान्टाइलहरू प्रदान गर्दछ। describe()
जस्ता वर्णनात्मक तथ्यांकले तपाईंलाई कति डेटा छ र थप आवश्यक छ कि छैन भनेर मूल्यांकन गर्न मद्दत गर्न सक्छ।
स्याम्पलिङ र क्वेरीङ
ठूलो डेटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र सामान्यतया कम्प्युटरले गर्ने काम हो। तर, स्याम्पलिङ डेटा बुझ्नको लागि उपयोगी उपकरण हो र यसले डेटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भन्ने राम्रो समझ दिन्छ। स्याम्पलको साथमा, तपाईंले सम्भाव्यता र तथ्यांक लागू गरेर आफ्नो डेटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डेटा स्याम्पल गर्नुपर्छ भन्ने कुनै परिभाषित नियम छैन, यो महत्त्वपूर्ण छ कि तपाईंले जति धेरै डेटा स्याम्पल गर्नुहुन्छ, डेटाबारे सामान्यीकरण गर्न त्यति नै सटीक निष्कर्ष निकाल्न सक्नुहुन्छ।
Pandas लाइब्रेरीमा sample()
function छ जहाँ तपाईंले कति र्यान्डम स्याम्पलहरू प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।
डेटाको सामान्य क्वेरीङले तपाईंलाई केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। स्याम्पलिङको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंको डेटाको विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ जसबारे तपाईंलाई प्रश्नहरू छन्।
Pandas लाइब्रेरीमा query()
function छ जसले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डेटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।
भिजुअलाइजेसनको साथ अन्वेषण
डेटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म तपाईंले भिजुअलाइजेसन बनाउन पर्खनु पर्दैन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले डेटामा ढाँचा, सम्बन्धहरू, र समस्याहरू पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डेटा व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर हुन सक्छ। भिजुअलाइजेसनको बारेमा थप जान्न Visualizations को खण्ड हेर्नुहोस्।
असंगतता पहिचान गर्न अन्वेषण
यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। isna() वा isnull() ले हराएका मानहरू जाँच गर्न सक्छ। तपाईंको डेटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई तिनीहरूलाई समाधान गर्नका लागि कदमहरू लिन निर्णय गर्न मद्दत गर्न सक्छ।
प्रि-लेक्चर क्विज
असाइनमेन्ट
उत्तरहरूको लागि अन्वेषण गर्नुहोस्
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।