You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mr/4-Data-Science-Lifecycle/15-analyzing/README.md

13 KiB

डेटा सायन्स जीवनचक्र: विश्लेषण

 Sketchnote by (@sketchthedocs)
डेटा सायन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya

पूर्व-व्याख्यान प्रश्नमंजुषा

पूर्व-व्याख्यान प्रश्नमंजुषा

डेटा जीवनचक्रातील विश्लेषण टप्पा हे सुनिश्चित करतो की डेटा प्रस्तावित प्रश्नांची उत्तरे देऊ शकतो किंवा विशिष्ट समस्येचे निराकरण करू शकतो. या टप्प्यात हे देखील तपासले जाते की एखादे मॉडेल योग्यरित्या या प्रश्नांना आणि समस्यांना संबोधित करत आहे का. हा धडा मुख्यतः एक्सप्लोरेटरी डेटा अ‍ॅनालिसिस (EDA) वर केंद्रित आहे, जे डेटा मधील वैशिष्ट्ये आणि नातेसंबंध परिभाषित करण्याच्या तंत्रांवर आधारित आहे आणि डेटा मॉडेलिंगसाठी तयार करण्यासाठी वापरले जाऊ शकते.

आम्ही Kaggle मधील एक उदाहरण डेटासेट वापरणार आहोत, ज्याद्वारे Python आणि Pandas लायब्ररीचा उपयोग करून हे कसे लागू करता येईल हे दाखवले जाईल. या डेटासेटमध्ये ईमेलमध्ये आढळणाऱ्या काही सामान्य शब्दांची संख्या आहे, आणि या ईमेल्सचे स्रोत गुप्त ठेवले गेले आहेत. या डिरेक्टरीतील notebook वापरून तुम्ही याचा अभ्यास करू शकता.

एक्सप्लोरेटरी डेटा अ‍ॅनालिसिस

जीवनचक्रातील डेटा कॅप्चर टप्प्यात डेटा गोळा केला जातो तसेच समस्यांचे आणि प्रश्नांचे स्वरूप निश्चित केले जाते, पण आपण कसे ठरवणार की हा डेटा अंतिम निकालासाठी उपयुक्त आहे? डेटा सायंटिस्ट डेटा मिळाल्यावर खालीलप्रमाणे प्रश्न विचारू शकतो:

  • माझ्याकडे ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का?
  • ही समस्या सोडवण्यासाठी डेटा स्वीकारार्ह गुणवत्तेचा आहे का?
  • जर या डेटामधून अतिरिक्त माहिती सापडली, तर आपल्याला उद्दिष्टे बदलणे किंवा पुन्हा परिभाषित करणे आवश्यक आहे का? एक्सप्लोरेटरी डेटा अ‍ॅनालिसिस हा डेटा समजून घेण्याची प्रक्रिया आहे आणि याचा उपयोग वरील प्रश्नांची उत्तरे देण्यासाठी तसेच डेटासेटशी संबंधित आव्हाने ओळखण्यासाठी केला जाऊ शकतो. चला, हे साध्य करण्यासाठी वापरल्या जाणाऱ्या काही तंत्रांवर लक्ष केंद्रित करूया.

डेटा प्रोफाइलिंग, वर्णनात्मक आकडेवारी, आणि Pandas

आपल्याकडे ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का हे आपण कसे ठरवणार? डेटा प्रोफाइलिंग तंत्राचा उपयोग करून आपण आपल्या डेटासेटबद्दल सामान्य माहिती गोळा करू शकतो. डेटा प्रोफाइलिंग आपल्याला काय उपलब्ध आहे हे समजून घेण्यास मदत करते, तर वर्णनात्मक आकडेवारी आपल्याला किती गोष्टी उपलब्ध आहेत हे समजून घेण्यास मदत करते.

मागील काही धड्यांमध्ये, आम्ही Pandas चा उपयोग करून describe() फंक्शन वापरून काही वर्णनात्मक आकडेवारी प्रदान केली आहे. हे फंक्शन मोजणी, कमाल आणि किमान मूल्ये, सरासरी, मानक विचलन आणि क्वांटाइल्स यासारखी माहिती देते. describe() सारख्या वर्णनात्मक आकडेवारीचा उपयोग करून तुम्ही तुमच्याकडे किती डेटा आहे आणि तुम्हाला आणखी डेटा आवश्यक आहे का हे ठरवू शकता.

सॅम्पलिंग आणि क्वेरींग

मोठ्या डेटासेटमधील सर्वकाही तपासणे खूप वेळखाऊ असते आणि हे काम सहसा संगणकावर सोपवले जाते. मात्र, सॅम्पलिंग हा डेटा समजून घेण्यासाठी उपयुक्त साधन आहे आणि यामुळे डेटासेटमध्ये काय आहे आणि ते काय दर्शवते याचा चांगला अंदाज येतो. सॅम्पलिंगद्वारे, तुम्ही संभाव्यता आणि आकडेवारीचा उपयोग करून तुमच्या डेटाबद्दल काही सामान्य निष्कर्ष काढू शकता. सॅम्पलिंगसाठी ठराविक नियम नाही, परंतु जितका अधिक डेटा तुम्ही सॅम्पल कराल, तितके अधिक अचूक निष्कर्ष तुम्ही काढू शकता. Pandas मध्ये sample() फंक्शन आहे, ज्यामध्ये तुम्ही किती रँडम सॅम्पल्स घ्यायचे आहेत हे ठरवू शकता.

डेटावर सामान्य क्वेरींग केल्याने तुम्हाला काही सामान्य प्रश्नांची उत्तरे मिळू शकतात. सॅम्पलिंगच्या विपरीत, क्वेरीज तुम्हाला डेटा मधील विशिष्ट भागांवर लक्ष केंद्रित करण्याची आणि त्याबद्दल प्रश्न विचारण्याची परवानगी देतात. Pandas लायब्ररीमधील query() फंक्शन तुम्हाला कॉलम निवडण्याची आणि पंक्तींद्वारे डेटा संबंधित सोपे उत्तर मिळवण्याची परवानगी देते.

व्हिज्युअलायझेशनसह एक्सप्लोरेशन

डेटा पूर्णपणे स्वच्छ आणि विश्लेषित होईपर्यंत तुम्हाला व्हिज्युअलायझेशन तयार करण्याची वाट पाहण्याची गरज नाही. खरं तर, एक्सप्लोरेशन करताना व्हिज्युअल रिप्रेझेंटेशन तयार केल्याने डेटा मधील पॅटर्न्स, नातेसंबंध, आणि समस्या ओळखण्यास मदत होऊ शकते. याशिवाय, व्हिज्युअलायझेशन हे डेटा व्यवस्थापनात सहभागी नसलेल्या लोकांशी संवाद साधण्याचे एक साधन आहे आणि कॅप्चर टप्प्यात विचारात न घेतलेल्या अतिरिक्त प्रश्नांना सामोरे जाण्याची संधी प्रदान करते. व्हिज्युअलायझेशनबद्दल अधिक जाणून घेण्यासाठी व्हिज्युअलायझेशन विभाग पहा.

विसंगती ओळखण्यासाठी एक्सप्लोरेशन

या धड्यातील सर्व विषय तुम्हाला गहाळ किंवा विसंगत मूल्ये ओळखण्यास मदत करू शकतात, परंतु Pandas काही यासाठी फंक्शन्स प्रदान करते. isna() किंवा isnull() गहाळ मूल्ये तपासण्यासाठी वापरले जाऊ शकते. तुमच्या डेटामधील या मूल्यांचा शोध घेताना, ती मूल्ये प्रथम स्थानावर का आली याचा शोध घेणे महत्त्वाचे आहे. यामुळे तुम्हाला त्यांना सोडवण्यासाठी काय करावे हे ठरवण्यास मदत होईल.

पूर्व-व्याख्यान प्रश्नमंजुषा

असाइनमेंट

उत्तरांसाठी एक्सप्लोरेशन


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.