# डेटा साइंस जीवनचक्र: विश्लेषण |![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)| |:---:| | डेटा साइंस जीवनचक्र: विश्लेषण - _स्केच नोट [@nitya](https://twitter.com/nitya) द्वारा_ | ## प्री-लेक्चर क्विज़ ## [प्री-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28) डेटा जीवनचक्र में विश्लेषण यह सुनिश्चित करता है कि डेटा उन सवालों का उत्तर दे सकता है जो प्रस्तावित किए गए हैं या किसी विशेष समस्या को हल कर सकता है। यह चरण यह भी सुनिश्चित करने पर केंद्रित हो सकता है कि कोई मॉडल इन सवालों और समस्याओं को सही तरीके से संबोधित कर रहा है। यह पाठ मुख्य रूप से एक्सप्लोरेटरी डेटा एनालिसिस (EDA) पर केंद्रित है, जो डेटा के भीतर विशेषताओं और संबंधों को परिभाषित करने की तकनीकें हैं और मॉडलिंग के लिए डेटा तैयार करने में उपयोगी हो सकती हैं। हम [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) से एक उदाहरण डेटासेट का उपयोग करेंगे यह दिखाने के लिए कि इसे Python और Pandas लाइब्रेरी के साथ कैसे लागू किया जा सकता है। यह डेटासेट ईमेल में पाए जाने वाले कुछ सामान्य शब्दों की गिनती को शामिल करता है, और इन ईमेल के स्रोत गुमनाम हैं। इस निर्देशिका में [notebook](../../../../4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) का उपयोग करके साथ चलें। ## एक्सप्लोरेटरी डेटा एनालिसिस जीवनचक्र का कैप्चर चरण वह है जहां डेटा प्राप्त किया जाता है और समस्याओं और सवालों को परिभाषित किया जाता है, लेकिन हम कैसे जानें कि डेटा अंतिम परिणाम का समर्थन कर सकता है? याद करें कि एक डेटा वैज्ञानिक डेटा प्राप्त करते समय निम्नलिखित सवाल पूछ सकता है: - क्या मेरे पास इस समस्या को हल करने के लिए पर्याप्त डेटा है? - क्या यह डेटा इस समस्या के लिए स्वीकार्य गुणवत्ता का है? - यदि मैं इस डेटा के माध्यम से अतिरिक्त जानकारी खोजता हूं, तो क्या हमें लक्ष्यों को बदलने या पुनः परिभाषित करने पर विचार करना चाहिए? एक्सप्लोरेटरी डेटा एनालिसिस डेटा को समझने की प्रक्रिया है और इन सवालों का उत्तर देने के लिए उपयोग किया जा सकता है, साथ ही डेटासेट के साथ काम करने की चुनौतियों की पहचान करने के लिए भी। आइए इस लक्ष्य को प्राप्त करने के लिए उपयोग की जाने वाली कुछ तकनीकों पर ध्यान दें। ## डेटा प्रोफाइलिंग, वर्णनात्मक सांख्यिकी, और Pandas हम कैसे मूल्यांकन करें कि हमारे पास इस समस्या को हल करने के लिए पर्याप्त डेटा है? डेटा प्रोफाइलिंग हमारे डेटासेट के बारे में सामान्य जानकारी को संक्षेप में प्रस्तुत कर सकता है और वर्णनात्मक सांख्यिकी की तकनीकों के माध्यम से इसे एकत्र कर सकता है। डेटा प्रोफाइलिंग हमें यह समझने में मदद करता है कि हमारे पास क्या उपलब्ध है, और वर्णनात्मक सांख्यिकी हमें यह समझने में मदद करता है कि हमारे पास कितनी चीजें उपलब्ध हैं। पिछले कुछ पाठों में, हमने Pandas का उपयोग करके [`describe()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) के साथ कुछ वर्णनात्मक सांख्यिकी प्रदान की हैं। यह गिनती, अधिकतम और न्यूनतम मान, औसत, मानक विचलन और संख्यात्मक डेटा पर क्वांटाइल्स प्रदान करता है। `describe()` जैसे वर्णनात्मक सांख्यिकी का उपयोग करके आप यह आकलन कर सकते हैं कि आपके पास कितना डेटा है और क्या आपको और अधिक की आवश्यकता है। ## सैंपलिंग और क्वेरी करना एक बड़े डेटासेट में सब कुछ खोजना बहुत समय लेने वाला हो सकता है और यह आमतौर पर कंप्यूटर पर छोड़ दिया जाता है। हालांकि, सैंपलिंग डेटा को समझने का एक उपयोगी उपकरण है और यह हमें यह समझने में मदद करता है कि डेटासेट में क्या है और यह क्या दर्शाता है। एक सैंपल के साथ, आप अपने डेटा के बारे में सामान्य निष्कर्ष पर पहुंचने के लिए संभावना और सांख्यिकी लागू कर सकते हैं। हालांकि इस बात का कोई परिभाषित नियम नहीं है कि आपको कितना डेटा सैंपल करना चाहिए, यह ध्यान रखना महत्वपूर्ण है कि जितना अधिक डेटा आप सैंपल करेंगे, उतना ही सटीक सामान्यीकरण आप डेटा के बारे में कर सकते हैं। Pandas में [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) है, जहां आप यह तर्क दे सकते हैं कि आप कितने रैंडम सैंपल प्राप्त करना और उपयोग करना चाहते हैं। डेटा की सामान्य क्वेरी करना आपके कुछ सामान्य सवालों और सिद्धांतों का उत्तर देने में मदद कर सकता है। सैंपलिंग के विपरीत, क्वेरी आपको नियंत्रण और डेटा के विशिष्ट भागों पर ध्यान केंद्रित करने की अनुमति देती है जिनके बारे में आपके पास सवाल हैं। Pandas लाइब्रेरी में [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) आपको कॉलम का चयन करने और पंक्तियों के माध्यम से डेटा के बारे में सरल उत्तर प्राप्त करने की अनुमति देता है। ## विज़ुअलाइज़ेशन के साथ एक्सप्लोर करना आपको डेटा को पूरी तरह से साफ और विश्लेषण करने तक इंतजार करने की आवश्यकता नहीं है कि आप विज़ुअलाइज़ेशन बनाना शुरू करें। वास्तव में, एक्सप्लोर करते समय एक दृश्य प्रतिनिधित्व होना पैटर्न, संबंधों और डेटा में समस्याओं की पहचान करने में मदद कर सकता है। इसके अलावा, विज़ुअलाइज़ेशन उन लोगों के साथ संवाद करने का एक साधन प्रदान करते हैं जो डेटा प्रबंधन में शामिल नहीं हैं और यह एक अवसर हो सकता है उन अतिरिक्त सवालों को साझा करने और स्पष्ट करने का जो कैप्चर चरण में संबोधित नहीं किए गए थे। विज़ुअलाइज़ेशन के कुछ लोकप्रिय तरीकों के बारे में अधिक जानने के लिए [विज़ुअलाइज़ेशन अनुभाग](../../../../../../../../../3-Data-Visualization) देखें। ## असंगतियों की पहचान के लिए एक्सप्लोर करना इस पाठ के सभी विषय गायब या असंगत मानों की पहचान करने में मदद कर सकते हैं, लेकिन Pandas कुछ ऐसे मानों की जांच करने के लिए फ़ंक्शन प्रदान करता है। [isna() या isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) गायब मानों की जांच कर सकते हैं। आपके डेटा के भीतर इन मानों की खोज का एक महत्वपूर्ण हिस्सा यह पता लगाना है कि वे पहली बार में इस तरह क्यों समाप्त हुए। यह आपको यह तय करने में मदद कर सकता है कि उन्हें हल करने के लिए [क्या कार्रवाई करनी है](../../../../../../../../../2-Working-With-Data/08-data-preparation/notebook.ipynb)। ## [प्री-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27) ## असाइनमेंट [उत्तर खोजने के लिए एक्सप्लोर करना](assignment.md) **अस्वीकरण**: यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।