You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hi/4-Data-Science-Lifecycle/15-analyzing/README.md

59 lines
14 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "661dad02c3ac239644d34c1eb51e76f8",
"translation_date": "2025-09-06T20:36:23+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
"language_code": "hi"
}
-->
# डेटा साइंस जीवनचक्र: विश्लेषण
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)|
|:---:|
| डेटा साइंस जीवनचक्र: विश्लेषण - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
## [प्री-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/28)
डेटा जीवनचक्र में विश्लेषण यह सुनिश्चित करता है कि डेटा उन सवालों का जवाब दे सकता है जो प्रस्तावित किए गए हैं या किसी विशेष समस्या को हल कर सकता है। यह चरण यह पुष्टि करने पर भी केंद्रित हो सकता है कि कोई मॉडल इन सवालों और समस्याओं को सही तरीके से संबोधित कर रहा है या नहीं। यह पाठ मुख्य रूप से एक्सप्लोरेटरी डेटा एनालिसिस (EDA) पर केंद्रित है, जो डेटा के भीतर विशेषताओं और संबंधों को परिभाषित करने की तकनीकें हैं और मॉडलिंग के लिए डेटा तैयार करने में उपयोगी हो सकती हैं।
हम [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) से एक उदाहरण डेटासेट का उपयोग करेंगे ताकि यह दिखाया जा सके कि इसे Python और Pandas लाइब्रेरी के साथ कैसे लागू किया जा सकता है। इस डेटासेट में ईमेल में पाए जाने वाले कुछ सामान्य शब्दों की गिनती है, और इन ईमेल के स्रोत गुमनाम हैं। इस निर्देशिका में दिए गए [नोटबुक](notebook.ipynb) का उपयोग करके इसे फॉलो करें।
## एक्सप्लोरेटरी डेटा एनालिसिस
जीवनचक्र का डेटा कैप्चर चरण वह है जहां डेटा प्राप्त किया जाता है और समस्याओं और सवालों को परिभाषित किया जाता है, लेकिन हम कैसे जानें कि डेटा अंतिम परिणाम का समर्थन कर सकता है?
याद करें कि एक डेटा वैज्ञानिक डेटा प्राप्त करते समय निम्नलिखित सवाल पूछ सकता है:
- क्या मेरे पास इस समस्या को हल करने के लिए पर्याप्त डेटा है?
- क्या यह डेटा इस समस्या के लिए स्वीकार्य गुणवत्ता का है?
- यदि मुझे इस डेटा के माध्यम से अतिरिक्त जानकारी मिलती है, तो क्या हमें लक्ष्यों को बदलने या पुनः परिभाषित करने पर विचार करना चाहिए?
एक्सप्लोरेटरी डेटा एनालिसिस डेटा को समझने की प्रक्रिया है और इन सवालों का जवाब देने के लिए उपयोग किया जा सकता है, साथ ही डेटासेट के साथ काम करने की चुनौतियों की पहचान करने के लिए भी। आइए इसे प्राप्त करने के लिए उपयोग की जाने वाली कुछ तकनीकों पर ध्यान केंद्रित करें।
## डेटा प्रोफाइलिंग, वर्णनात्मक सांख्यिकी, और Pandas
हम कैसे मूल्यांकन करें कि हमारे पास इस समस्या को हल करने के लिए पर्याप्त डेटा है या नहीं? डेटा प्रोफाइलिंग हमारे डेटासेट के बारे में सामान्य जानकारी को संक्षेपित और एकत्र कर सकता है, जो वर्णनात्मक सांख्यिकी की तकनीकों के माध्यम से किया जाता है। डेटा प्रोफाइलिंग हमें यह समझने में मदद करता है कि हमारे पास क्या उपलब्ध है, और वर्णनात्मक सांख्यिकी हमें यह समझने में मदद करता है कि हमारे पास कितनी चीजें उपलब्ध हैं।
पिछले कुछ पाठों में, हमने Pandas का उपयोग करके [`describe()` फंक्शन](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) के साथ कुछ वर्णनात्मक सांख्यिकी प्रदान की हैं। यह गिनती, अधिकतम और न्यूनतम मान, औसत, मानक विचलन और क्वांटाइल्स को संख्यात्मक डेटा पर प्रदान करता है। `describe()` जैसे वर्णनात्मक सांख्यिकी का उपयोग करके आप यह आकलन कर सकते हैं कि आपके पास कितना डेटा है और क्या आपको और अधिक की आवश्यकता है।
## सैंपलिंग और क्वेरी करना
किसी बड़े डेटासेट में सब कुछ खोजना बहुत समय लेने वाला हो सकता है और यह आमतौर पर कंप्यूटर पर छोड़ दिया जाता है। हालांकि, सैंपलिंग डेटा को समझने का एक उपयोगी उपकरण है और यह हमें यह बेहतर समझने की अनुमति देता है कि डेटासेट में क्या है और यह क्या दर्शाता है। एक सैंपल के साथ, आप अपने डेटा के बारे में कुछ सामान्य निष्कर्ष निकालने के लिए संभावना और सांख्यिकी लागू कर सकते हैं। जबकि इस बात का कोई निश्चित नियम नहीं है कि आपको कितना डेटा सैंपल करना चाहिए, यह ध्यान रखना महत्वपूर्ण है कि जितना अधिक डेटा आप सैंपल करेंगे, उतनी ही सटीक सामान्यीकरण आप डेटा के बारे में कर सकते हैं।
Pandas में [`sample()` फंक्शन](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) है, जहां आप यह तर्क दे सकते हैं कि आप कितने रैंडम सैंपल प्राप्त करना और उपयोग करना चाहते हैं।
डेटा की सामान्य क्वेरी करना आपको कुछ सामान्य सवालों और सिद्धांतों का उत्तर देने में मदद कर सकता है। सैंपलिंग के विपरीत, क्वेरी आपको नियंत्रण और डेटा के विशिष्ट हिस्सों पर ध्यान केंद्रित करने की अनुमति देता है जिनके बारे में आपके पास सवाल हैं।
Pandas लाइब्रेरी में [`query()` फंक्शन](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) आपको कॉलम का चयन करने और पंक्तियों के माध्यम से डेटा के बारे में सरल उत्तर प्राप्त करने की अनुमति देता है।
## विज़ुअलाइज़ेशन के साथ एक्सप्लोर करना
आपको डेटा को पूरी तरह से साफ और विश्लेषण करने तक इंतजार करने की आवश्यकता नहीं है ताकि विज़ुअलाइज़ेशन बनाना शुरू कर सकें। वास्तव में, एक्सप्लोर करते समय एक विज़ुअल प्रतिनिधित्व होना पैटर्न, संबंधों और डेटा में समस्याओं की पहचान करने में मदद कर सकता है। इसके अलावा, विज़ुअलाइज़ेशन उन लोगों के साथ संवाद करने का एक साधन प्रदान करते हैं जो डेटा प्रबंधन में शामिल नहीं हैं और यह एक अवसर हो सकता है कि कैप्चर चरण में संबोधित नहीं किए गए अतिरिक्त सवालों को साझा और स्पष्ट किया जाए। विज़ुअलाइज़ेशन के कुछ लोकप्रिय तरीकों के बारे में जानने के लिए [विज़ुअलाइज़ेशन अनुभाग](../../../../../../../../../3-Data-Visualization) देखें।
## असंगतियों की पहचान के लिए एक्सप्लोर करना
इस पाठ के सभी विषय गायब या असंगत मानों की पहचान करने में मदद कर सकते हैं, लेकिन Pandas कुछ मानों की जांच करने के लिए फंक्शन प्रदान करता है। [isna() या isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) गायब मानों की जांच कर सकते हैं। आपके डेटा में इन मानों की खोज का एक महत्वपूर्ण हिस्सा यह पता लगाना है कि वे पहली बार में इस तरह क्यों समाप्त हुए। यह आपको यह तय करने में मदद कर सकता है कि उन्हें हल करने के लिए [क्या कार्रवाई करनी है](/2-Working-With-Data/08-data-preparation/notebook.ipynb)।
## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/quiz/29)
## असाइनमेंट
[उत्तर खोजने के लिए एक्सप्लोर करना](assignment.md)
---
**अस्वीकरण**:
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।