You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mr/4-Data-Science-Lifecycle/15-analyzing/README.md

13 KiB

डेटा सायन्स जीवनचक्र: विश्लेषण

 Sketchnote by (@sketchthedocs)
डेटा सायन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya

पूर्व-व्याख्यान प्रश्नमंजुषा

डेटा जीवनचक्रातील विश्लेषण टप्पा हे सुनिश्चित करतो की डेटा प्रस्तावित प्रश्नांची उत्तरे देऊ शकतो किंवा विशिष्ट समस्येचे निराकरण करू शकतो. या टप्प्यात हे देखील तपासले जाते की एखादे मॉडेल योग्यरित्या या प्रश्नांना आणि समस्यांना संबोधित करत आहे का. या धड्यात आपण एक्सप्लोरेटरी डेटा अ‍ॅनालिसिस (EDA) वर लक्ष केंद्रित करणार आहोत, जे डेटा मधील वैशिष्ट्ये आणि नातेसंबंध परिभाषित करण्यासाठी वापरल्या जाणाऱ्या तंत्रांचा समावेश करतो आणि डेटा मॉडेलिंगसाठी तयार करण्यासाठी उपयुक्त ठरतो.

आम्ही Kaggle मधील एक उदाहरण डेटासेट वापरणार आहोत, ज्याद्वारे Python आणि Pandas लायब्ररीचा उपयोग करून हे कसे लागू करता येईल हे दाखवले जाईल. या डेटासेटमध्ये ईमेलमध्ये आढळणाऱ्या काही सामान्य शब्दांची संख्या आहे, आणि या ईमेल्सचे स्रोत गुप्त ठेवले गेले आहेत. या संचिकेमधील notebook वापरून आपण याचा अभ्यास करू शकता.

एक्सप्लोरेटरी डेटा अ‍ॅनालिसिस

जीवनचक्रातील डेटा कॅप्चर टप्प्यात डेटा गोळा केला जातो तसेच समस्यांचे आणि प्रश्नांचे स्वरूप निश्चित केले जाते, परंतु आपण कसे ठरवणार की हा डेटा अंतिम निकालासाठी उपयुक्त ठरेल? डेटा सायंटिस्ट डेटा मिळाल्यावर खालीलप्रमाणे प्रश्न विचारू शकतो:

  • माझ्याकडे ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का?
  • या समस्येसाठी डेटा स्वीकारार्ह गुणवत्तेचा आहे का?
  • जर या डेटामधून अतिरिक्त माहिती मिळाली, तर आपल्याला उद्दिष्टे बदलणे किंवा पुन्हा परिभाषित करणे आवश्यक आहे का? एक्सप्लोरेटरी डेटा अ‍ॅनालिसिस हा डेटा समजून घेण्याची प्रक्रिया आहे आणि याच्याद्वारे वरील प्रश्नांची उत्तरे मिळवता येतात तसेच डेटासेटशी संबंधित आव्हाने ओळखता येतात. चला, हे साध्य करण्यासाठी वापरल्या जाणाऱ्या काही तंत्रांवर लक्ष केंद्रित करूया.

डेटा प्रोफाइलिंग, वर्णनात्मक आकडेवारी, आणि Pandas

आपल्याकडे ही समस्या सोडवण्यासाठी पुरेसा डेटा आहे का हे आपण कसे ठरवणार? डेटा प्रोफाइलिंग तंत्राद्वारे आपल्या डेटासेटबद्दल सामान्य माहिती गोळा करता येते, तर वर्णनात्मक आकडेवारी तंत्राद्वारे डेटामधील घटकांची संख्या समजून घेता येते.

मागील काही धड्यांमध्ये, आपण Pandas च्या describe() function चा वापर करून वर्णनात्मक आकडेवारी मिळवली आहे. हे फंक्शन संख्यात्मक डेटावर गणना, कमाल आणि किमान मूल्ये, सरासरी, मानक विचलन आणि क्वांटाइल्स प्रदान करते. describe() सारख्या वर्णनात्मक आकडेवारीचा वापर करून आपण आपल्याकडे किती डेटा आहे आणि अधिक डेटा आवश्यक आहे का हे ठरवू शकतो.

सॅम्पलिंग आणि क्वेरींग

मोठ्या डेटासेटमधील प्रत्येक गोष्ट तपासणे वेळखाऊ असते आणि हे काम सहसा संगणकावर सोपवले जाते. तथापि, सॅम्पलिंग हा डेटा समजून घेण्यासाठी उपयुक्त साधन आहे आणि यामुळे डेटासेटमध्ये काय आहे आणि ते काय दर्शवते याचा चांगला अंदाज येतो. सॅम्पलिंगद्वारे आपण संभाव्यता आणि आकडेवारीचा वापर करून आपल्या डेटाबद्दल काही सामान्य निष्कर्ष काढू शकतो. जरी सॅम्पलिंगसाठी ठराविक नियम नसला तरी, जितका अधिक डेटा आपण सॅम्पल करता तितकी अधिक अचूक सामान्यीकरणे करता येतात. Pandas मध्ये sample() function उपलब्ध आहे, ज्यामध्ये आपण किती रँडम सॅम्पल्स घ्यायचे आहेत हे निर्दिष्ट करू शकता.

डेटावर सामान्य क्वेरींग केल्याने आपल्याला काही सामान्य प्रश्नांची उत्तरे मिळू शकतात. सॅम्पलिंगच्या विपरीत, क्वेरीज आपल्याला डेटाच्या विशिष्ट भागांवर लक्ष केंद्रित करण्याची आणि त्याबद्दल प्रश्न विचारण्याची परवानगी देतात. Pandas लायब्ररीतील query() function चा वापर करून आपण कॉलम निवडू शकता आणि पंक्तींद्वारे डेटाबद्दल सोप्या उत्तरांपर्यंत पोहोचू शकता.

व्हिज्युअलायझेशन्ससह एक्सप्लोरेशन

डेटा पूर्णपणे स्वच्छ आणि विश्लेषित होईपर्यंत व्हिज्युअलायझेशन्स तयार करण्याची वाट पाहण्याची गरज नाही. खरं तर, एक्सप्लोरेशन करताना व्हिज्युअल प्रतिनिधित्व तयार केल्याने पॅटर्न्स, नातेसंबंध, आणि डेटामधील समस्या ओळखण्यास मदत होते. याशिवाय, व्हिज्युअलायझेशन्स डेटाचे व्यवस्थापन न करणाऱ्या लोकांशी संवाद साधण्यासाठी एक साधन म्हणून काम करतात आणि कॅप्चर टप्प्यात विचारात न घेतलेल्या अतिरिक्त प्रश्नांना सामोरे जाण्याची संधी प्रदान करतात. व्हिज्युअलायझेशनच्या लोकप्रिय पद्धतींबद्दल अधिक जाणून घेण्यासाठी Visualizations विभाग पहा.

विसंगती ओळखण्यासाठी एक्सप्लोरेशन

या धड्यातील सर्व विषय गहाळ किंवा विसंगत मूल्ये ओळखण्यास मदत करू शकतात, परंतु Pandas काही यासाठी फंक्शन्स प्रदान करतो. isna() किंवा isnull() फंक्शन्स गहाळ मूल्ये तपासू शकतात. डेटामधील ही मूल्ये का आली याचे अन्वेषण करणे महत्त्वाचे आहे. यामुळे तुम्हाला त्यांचे निराकरण करण्यासाठी काय करावे याचा निर्णय घेण्यास मदत होईल.

व्याख्यानानंतरची प्रश्नमंजुषा

असाइनमेंट

उत्तरांसाठी एक्सप्लोरेशन


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.