13 KiB
डेटा सायन्स जीवनचक्र: विश्लेषण
![]() |
---|
डेटा सायन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya |
पूर्व-व्याख्यान प्रश्नमंजुषा
पूर्व-व्याख्यान प्रश्नमंजुषा
डेटा जीवनचक्रातील विश्लेषण टप्पा हे सुनिश्चित करतो की डेटा प्रस्तावित प्रश्नांची उत्तरे देऊ शकतो किंवा विशिष्ट समस्येचे निराकरण करू शकतो. या टप्प्यात हे देखील तपासले जाते की एखादे मॉडेल योग्यरित्या या प्रश्नांना आणि समस्यांना संबोधित करत आहे का. हा धडा मुख्यतः एक्सप्लोरेटरी डेटा अॅनालिसिस (EDA) वर केंद्रित आहे, जे डेटा मधील वैशिष्ट्ये आणि नातेसंबंध परिभाषित करण्याच्या तंत्रांवर आधारित आहे आणि डेटा मॉडेलिंगसाठी तयार करण्यासाठी वापरले जाऊ शकते.
आम्ही Kaggle मधील एक उदाहरण डेटासेट वापरणार आहोत, ज्याद्वारे Python आणि Pandas लायब्ररीचा उपयोग करून हे कसे लागू करता येईल हे दाखवले जाईल. या डेटासेटमध्ये ईमेलमध्ये आढळणाऱ्या काही सामान्य शब्दांची संख्या आहे, आणि या ईमेल्सचे स्रोत गुप्त ठेवले गेले आहेत. या डिरेक्टरीतील notebook वापरून तुम्ही याचा अभ्यास करू शकता.
एक्सप्लोरेटरी डेटा अॅनालिसिस
जीवनचक्रातील डेटा कॅप्चर टप्प्यात डेटा गोळा केला जातो तसेच समस्यांचे आणि प्रश्नांचे स्वरूप निश्चित केले जाते, पण आपण कसे ठरवणार की हा डेटा अंतिम निकालासाठी उपयुक्त आहे? डेटा सायंटिस्ट डेटा मिळाल्यावर खालीलप्रमाणे प्रश्न विचारू शकतो:
- माझ्याकडे ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का?
- ही समस्या सोडवण्यासाठी डेटा स्वीकारार्ह गुणवत्तेचा आहे का?
- जर या डेटामधून अतिरिक्त माहिती सापडली, तर आपल्याला उद्दिष्टे बदलणे किंवा पुन्हा परिभाषित करणे आवश्यक आहे का? एक्सप्लोरेटरी डेटा अॅनालिसिस हा डेटा समजून घेण्याची प्रक्रिया आहे आणि याचा उपयोग वरील प्रश्नांची उत्तरे देण्यासाठी तसेच डेटासेटशी संबंधित आव्हाने ओळखण्यासाठी केला जाऊ शकतो. चला, हे साध्य करण्यासाठी वापरल्या जाणाऱ्या काही तंत्रांवर लक्ष केंद्रित करूया.
डेटा प्रोफाइलिंग, वर्णनात्मक आकडेवारी, आणि Pandas
आपल्याकडे ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का हे आपण कसे ठरवणार? डेटा प्रोफाइलिंग तंत्राचा उपयोग करून आपण आपल्या डेटासेटबद्दल सामान्य माहिती गोळा करू शकतो. डेटा प्रोफाइलिंग आपल्याला काय उपलब्ध आहे हे समजून घेण्यास मदत करते, तर वर्णनात्मक आकडेवारी आपल्याला किती गोष्टी उपलब्ध आहेत हे समजून घेण्यास मदत करते.
मागील काही धड्यांमध्ये, आम्ही Pandas चा उपयोग करून describe()
फंक्शन वापरून काही वर्णनात्मक आकडेवारी प्रदान केली आहे. हे फंक्शन मोजणी, कमाल आणि किमान मूल्ये, सरासरी, मानक विचलन आणि क्वांटाइल्स यासारखी माहिती देते. describe()
सारख्या वर्णनात्मक आकडेवारीचा उपयोग करून तुम्ही तुमच्याकडे किती डेटा आहे आणि तुम्हाला आणखी डेटा आवश्यक आहे का हे ठरवू शकता.
सॅम्पलिंग आणि क्वेरींग
मोठ्या डेटासेटमधील सर्वकाही तपासणे खूप वेळखाऊ असते आणि हे काम सहसा संगणकावर सोपवले जाते. मात्र, सॅम्पलिंग हा डेटा समजून घेण्यासाठी उपयुक्त साधन आहे आणि यामुळे डेटासेटमध्ये काय आहे आणि ते काय दर्शवते याचा चांगला अंदाज येतो. सॅम्पलिंगद्वारे, तुम्ही संभाव्यता आणि आकडेवारीचा उपयोग करून तुमच्या डेटाबद्दल काही सामान्य निष्कर्ष काढू शकता. सॅम्पलिंगसाठी ठराविक नियम नाही, परंतु जितका अधिक डेटा तुम्ही सॅम्पल कराल, तितके अधिक अचूक निष्कर्ष तुम्ही काढू शकता.
Pandas मध्ये sample()
फंक्शन आहे, ज्यामध्ये तुम्ही किती रँडम सॅम्पल्स घ्यायचे आहेत हे ठरवू शकता.
डेटावर सामान्य क्वेरींग केल्याने तुम्हाला काही सामान्य प्रश्नांची उत्तरे मिळू शकतात. सॅम्पलिंगच्या विपरीत, क्वेरीज तुम्हाला डेटा मधील विशिष्ट भागांवर लक्ष केंद्रित करण्याची आणि त्याबद्दल प्रश्न विचारण्याची परवानगी देतात. Pandas लायब्ररीमधील query()
फंक्शन तुम्हाला कॉलम निवडण्याची आणि पंक्तींद्वारे डेटा संबंधित सोपे उत्तर मिळवण्याची परवानगी देते.
व्हिज्युअलायझेशनसह एक्सप्लोरेशन
डेटा पूर्णपणे स्वच्छ आणि विश्लेषित होईपर्यंत तुम्हाला व्हिज्युअलायझेशन तयार करण्याची वाट पाहण्याची गरज नाही. खरं तर, एक्सप्लोरेशन करताना व्हिज्युअल रिप्रेझेंटेशन तयार केल्याने डेटा मधील पॅटर्न्स, नातेसंबंध, आणि समस्या ओळखण्यास मदत होऊ शकते. याशिवाय, व्हिज्युअलायझेशन हे डेटा व्यवस्थापनात सहभागी नसलेल्या लोकांशी संवाद साधण्याचे एक साधन आहे आणि कॅप्चर टप्प्यात विचारात न घेतलेल्या अतिरिक्त प्रश्नांना सामोरे जाण्याची संधी प्रदान करते. व्हिज्युअलायझेशनबद्दल अधिक जाणून घेण्यासाठी व्हिज्युअलायझेशन विभाग पहा.
विसंगती ओळखण्यासाठी एक्सप्लोरेशन
या धड्यातील सर्व विषय तुम्हाला गहाळ किंवा विसंगत मूल्ये ओळखण्यास मदत करू शकतात, परंतु Pandas काही यासाठी फंक्शन्स प्रदान करते. isna() किंवा isnull() गहाळ मूल्ये तपासण्यासाठी वापरले जाऊ शकते. तुमच्या डेटामधील या मूल्यांचा शोध घेताना, ती मूल्ये प्रथम स्थानावर का आली याचा शोध घेणे महत्त्वाचे आहे. यामुळे तुम्हाला त्यांना सोडवण्यासाठी काय करावे हे ठरवण्यास मदत होईल.
पूर्व-व्याख्यान प्रश्नमंजुषा
असाइनमेंट
अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.