You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

16 KiB

डेटा प्रकार

जसे आपण आधीच उल्लेख केले आहे, डेटा सर्वत्र आहे. फक्त योग्य पद्धतीने तो पकडण्याची गरज आहे! संरचित आणि असंरचित डेटामध्ये फरक करणे उपयुक्त ठरते. संरचित डेटा सामान्यतः चांगल्या प्रकारे संरचित स्वरूपात सादर केला जातो, जसे की टेबल किंवा अनेक टेबल्स, तर असंरचित डेटा फक्त फाइल्सचा संग्रह असतो. कधी कधी आपण अर्ध-संरचित डेटाबद्दलही बोलतो, ज्यामध्ये काही प्रकारची रचना असते, परंतु ती खूप वेगवेगळ्या प्रकारे बदलू शकते.

संरचित अर्ध-संरचित असंरचित
लोकांची यादी त्यांच्या फोन नंबरसह विकिपीडिया पृष्ठे लिंकसह एनसायक्लोपीडिया ब्रिटानिका मजकूर
एका इमारतीतील प्रत्येक खोलीतील तापमान मागील २० वर्षांतील प्रत्येक मिनिटासाठी JSON स्वरूपात वैज्ञानिक पेपरांचा संग्रह, ज्यामध्ये लेखक, प्रकाशनाची तारीख, आणि सारांश आहे कॉर्पोरेट दस्तऐवजांसह फाइल शेअर
इमारतीत प्रवेश करणाऱ्या सर्व लोकांचे वय आणि लिंग डेटा इंटरनेट पृष्ठे देखरेख कॅमेऱ्याचा कच्चा व्हिडिओ फीड

डेटा कुठून मिळवायचा

डेटा मिळवण्यासाठी अनेक संभाव्य स्रोत आहेत, आणि त्यांची यादी करणे अशक्य आहे! परंतु, आपण काही सामान्य ठिकाणांचा उल्लेख करूया जिथे डेटा मिळवता येतो:

  • संरचित
    • इंटरनेट ऑफ थिंग्स (IoT), ज्यामध्ये विविध सेन्सर्समधून डेटा मिळतो, जसे की तापमान किंवा दाब सेन्सर्स. उदाहरणार्थ, जर ऑफिस इमारत IoT सेन्सर्सने सुसज्ज असेल, तर आपण खर्च कमी करण्यासाठी स्वयंचलितपणे हीटिंग आणि लाइटिंग नियंत्रित करू शकतो.
    • सर्वेक्षण, जे आपण वापरकर्त्यांना खरेदी केल्यानंतर किंवा वेबसाइटला भेट दिल्यानंतर पूर्ण करण्यास सांगतो.
    • वर्तन विश्लेषण, ज्यामुळे आपण समजू शकतो की वापरकर्ता साइटमध्ये किती खोलवर जातो आणि साइट सोडण्याचे सामान्य कारण काय आहे.
  • असंरचित
    • मजकूर, जो समग्र भावना स्कोअर किंवा कीवर्ड आणि अर्थपूर्ण अर्थ काढण्यासाठी समृद्ध स्रोत असू शकतो.
    • प्रतिमा किंवा व्हिडिओ. देखरेख कॅमेऱ्याचा व्हिडिओ रस्त्यावरच्या वाहतुकीचा अंदाज घेण्यासाठी वापरला जाऊ शकतो आणि लोकांना संभाव्य वाहतूक कोंडीबद्दल माहिती दिली जाऊ शकते.
    • वेब सर्व्हर लॉग्स, ज्यामुळे आपण समजू शकतो की आमच्या साइटवरील कोणती पृष्ठे सर्वाधिक वेळा भेट दिली जातात आणि किती वेळासाठी.
  • अर्ध-संरचित
    • सोशल नेटवर्क ग्राफ्स, जे वापरकर्त्यांच्या व्यक्तिमत्त्वाबद्दल आणि माहिती पसरविण्याच्या संभाव्य प्रभावीतेबद्दल डेटा मिळवण्यासाठी उत्कृष्ट स्रोत असू शकतात.
    • जर आपल्याकडे पार्टीतील छायाचित्रांचा संग्रह असेल, तर आपण लोक एकमेकांसोबत छायाचित्रे घेत असल्याचा ग्राफ तयार करून गट गतिकी डेटा काढण्याचा प्रयत्न करू शकतो.

डेटाचे विविध संभाव्य स्रोत माहित असल्याने, आपण विविध परिस्थितींबद्दल विचार करू शकतो जिथे डेटा सायन्स तंत्रे लागू केली जाऊ शकतात, परिस्थिती अधिक चांगल्या प्रकारे जाणून घेण्यासाठी आणि व्यवसाय प्रक्रिया सुधारण्यासाठी.

डेटा सह काय करता येईल

डेटा सायन्समध्ये, आम्ही डेटा प्रवासाच्या खालील टप्प्यांवर लक्ष केंद्रित करतो:

डिजिटलायझेशन आणि डिजिटल ट्रान्सफॉर्मेशन

गेल्या दशकात, अनेक व्यवसायांनी व्यवसाय निर्णय घेताना डेटाचे महत्त्व ओळखले आहे. व्यवसाय चालवण्यासाठी डेटा सायन्स तत्त्वे लागू करण्यासाठी, प्रथम काही डेटा गोळा करणे आवश्यक आहे, म्हणजेच व्यवसाय प्रक्रियांना डिजिटल स्वरूपात अनुवादित करणे. याला डिजिटलायझेशन म्हणतात. या डेटावर डेटा सायन्स तंत्रे लागू करून निर्णयांचे मार्गदर्शन करणे उत्पादकतेत लक्षणीय वाढ (किंवा व्यवसायाचा बदल) करू शकते, ज्याला डिजिटल ट्रान्सफॉर्मेशन म्हणतात.

चला एक उदाहरण विचार करूया. समजा आमच्याकडे एक डेटा सायन्स कोर्स आहे (जसे की हा), जो आम्ही विद्यार्थ्यांना ऑनलाइन वितरित करतो, आणि आम्हाला तो सुधारण्यासाठी डेटा सायन्स वापरायचा आहे. आपण ते कसे करू शकतो?

आपण विचारू शकतो "काय डिजिटल स्वरूपात बदलता येईल?" सर्वात सोपी पद्धत म्हणजे प्रत्येक विद्यार्थ्याला प्रत्येक मॉड्यूल पूर्ण करण्यासाठी लागणारा वेळ मोजणे आणि प्रत्येक मॉड्यूलच्या शेवटी बहुपर्यायी चाचणी देऊन मिळवलेले ज्ञान मोजणे. सर्व विद्यार्थ्यांमध्ये पूर्ण करण्यासाठी लागणारा वेळ सरासरी करून, आम्ही शोधू शकतो की कोणते मॉड्यूल्स विद्यार्थ्यांसाठी सर्वाधिक अडचणी निर्माण करतात आणि त्यांना सोपे करण्यासाठी काम करू शकतो. आपण असा युक्तिवाद करू शकता की हा दृष्टिकोन आदर्श नाही, कारण मॉड्यूल्स वेगवेगळ्या लांबीचे असू शकतात. कदाचित मॉड्यूलच्या लांबीने (अक्षरांच्या संख्येने) वेळ विभागणे अधिक न्याय्य ठरेल आणि त्या मूल्यांची तुलना करणे अधिक योग्य ठरेल. जेव्हा आपण बहुपर्यायी परीक्षांच्या निकालांचे विश्लेषण करायला सुरुवात करतो, तेव्हा आपण हे ठरवू शकतो की विद्यार्थ्यांना कोणत्या संकल्पना समजण्यात अडचण येत आहे आणि त्या माहितीचा उपयोग सामग्री सुधारण्यासाठी करू शकतो. हे करण्यासाठी, आपल्याला परीक्षांचे असे डिझाइन करणे आवश्यक आहे की प्रत्येक प्रश्न विशिष्ट संकल्पना किंवा ज्ञानाच्या भागाशी संबंधित असेल.

जर आपण आणखी गुंतागुंतीचे व्हायचे ठरवले, तर आपण प्रत्येक मॉड्यूलसाठी घेतलेल्या वेळेचा विद्यार्थ्यांच्या वयोगटाशी संबंध लावू शकतो. कदाचित आपल्याला असे आढळेल की काही वयोगटांसाठी मॉड्यूल पूर्ण करण्यासाठी अनावश्यकपणे जास्त वेळ लागतो, किंवा विद्यार्थी ते पूर्ण करण्याआधीच सोडून देतात. यामुळे आपल्याला मॉड्यूलसाठी वयोमर्यादा शिफारसी देण्यात मदत होईल आणि चुकीच्या अपेक्षांमुळे होणारी असमाधानता कमी करता येईल.

🚀 आव्हान

या आव्हानात, आपण डेटा सायन्स क्षेत्राशी संबंधित संकल्पना शोधण्याचा प्रयत्न करू, आणि त्यासाठी मजकुराचा अभ्यास करू. आपण डेटा सायन्सवरील विकिपीडिया लेख घेऊ, मजकूर डाउनलोड करून प्रक्रिया करू, आणि नंतर खालीलप्रमाणे वर्ड क्लाउड तयार करू:

डेटा सायन्ससाठी वर्ड क्लाउड

कोड वाचण्यासाठी notebook.ipynb ला भेट द्या. तुम्ही कोड चालवून पाहू शकता आणि तो डेटा ट्रान्सफॉर्मेशन कसे करतो हे रिअल टाइममध्ये पाहू शकता.

जर तुम्हाला जुपिटर नोटबुकमध्ये कोड कसा चालवायचा हे माहित नसेल, तर हा लेख वाचा.

व्याख्यानानंतरची क्विझ

असाइनमेंट्स

श्रेय

ही धडा दिमित्री सॉश्निकोव्ह यांनी ♥️ सह तयार केली आहे.


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.