You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
85 lines
20 KiB
85 lines
20 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "12339119c0165da569a93ddba05f9339",
|
|
"translation_date": "2025-09-06T07:37:12+00:00",
|
|
"source_file": "1-Introduction/03-defining-data/README.md",
|
|
"language_code": "mr"
|
|
}
|
|
-->
|
|
# डेटा परिभाषित करणे
|
|
|
|
| ](../../sketchnotes/03-DefiningData.png)|
|
|
|:---:|
|
|
|डेटा परिभाषित करणे - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
डेटा म्हणजे तथ्ये, माहिती, निरीक्षणे आणि मोजमापे, जी शोध लावण्यासाठी आणि माहितीपूर्ण निर्णयांना पाठिंबा देण्यासाठी वापरली जातात. डेटा पॉइंट म्हणजे डेटासेटमधील एकक डेटा युनिट, जो डेटा पॉइंट्सच्या संग्रहाचा भाग असतो. डेटासेट्स वेगवेगळ्या स्वरूपात आणि संरचनांमध्ये येऊ शकतात आणि सामान्यतः त्याच्या स्रोतावर आधारित असतात, म्हणजे डेटा कुठून आला आहे. उदाहरणार्थ, एखाद्या कंपनीचे मासिक उत्पन्न स्प्रेडशीटमध्ये असू शकते, तर स्मार्टवॉचमधील तासागणिक हृदय गती डेटा [JSON](https://stackoverflow.com/a/383699) स्वरूपात असू शकतो. डेटा वैज्ञानिकांना डेटासेटमध्ये वेगवेगळ्या प्रकारच्या डेटासोबत काम करणे सामान्य आहे.
|
|
|
|
या धड्याचा उद्देश डेटाच्या वैशिष्ट्यांनुसार आणि त्याच्या स्रोतांनुसार डेटा ओळखणे आणि वर्गीकरण करणे आहे.
|
|
|
|
## [पूर्व-व्याख्यान प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ds/quiz/4)
|
|
|
|
## डेटा कसा वर्णन केला जातो
|
|
|
|
### कच्चा डेटा
|
|
कच्चा डेटा म्हणजे त्याच्या स्रोतातून आलेला डेटा, जो त्याच्या सुरुवातीच्या अवस्थेत असतो आणि ज्याचे विश्लेषण किंवा आयोजन केलेले नसते. डेटासेटमधील घडणाऱ्या गोष्टींचा अर्थ लावण्यासाठी, तो अशा स्वरूपात आयोजित करणे आवश्यक आहे, जो मानवांसाठी तसेच तंत्रज्ञानासाठी समजण्यास सोपा असेल, जे पुढील विश्लेषणासाठी वापरले जाऊ शकते. डेटासेटची रचना त्याचे आयोजन कसे केले जाते हे वर्णन करते आणि ती संरचित, असंरचित आणि अर्ध-संरचित अशा प्रकारांमध्ये वर्गीकृत केली जाऊ शकते. या प्रकारांची रचना स्रोतावर अवलंबून बदलते, परंतु शेवटी ती या तीन श्रेणींमध्ये बसते.
|
|
|
|
### परिमाणात्मक डेटा
|
|
परिमाणात्मक डेटा म्हणजे डेटासेटमधील संख्यात्मक निरीक्षणे, जी सामान्यतः विश्लेषित, मोजली आणि गणितीय पद्धतीने वापरली जाऊ शकतात. परिमाणात्मक डेटाचे काही उदाहरणे म्हणजे: देशाची लोकसंख्या, व्यक्तीची उंची किंवा कंपनीचे तिमाही उत्पन्न. काही अतिरिक्त विश्लेषणासह, परिमाणात्मक डेटा हवेच्या गुणवत्तेचा निर्देशांक (AQI) यामधील हंगामी ट्रेंड शोधण्यासाठी किंवा कामाच्या सामान्य दिवशी ट्रॅफिक जाम होण्याची शक्यता अंदाज करण्यासाठी वापरला जाऊ शकतो.
|
|
|
|
### गुणात्मक डेटा
|
|
गुणात्मक डेटा, ज्याला श्रेणीबद्ध डेटा असेही म्हणतात, तो परिमाणात्मक डेटासारखा वस्तुनिष्ठपणे मोजता येत नाही. हा सामान्यतः विविध स्वरूपातील व्यक्तिनिष्ठ डेटा असतो, जो एखाद्या उत्पादनाची किंवा प्रक्रियेची गुणवत्ता कॅप्चर करतो. कधी कधी, गुणात्मक डेटा संख्यात्मक असतो, परंतु तो सामान्यतः गणितीय पद्धतीने वापरला जात नाही, जसे की फोन नंबर किंवा टाइमस्टॅम्प. गुणात्मक डेटाचे काही उदाहरणे म्हणजे: व्हिडिओवरील टिप्पण्या, कारचा ब्रँड आणि मॉडेल किंवा तुमच्या जवळच्या मित्रांचा आवडता रंग. गुणात्मक डेटा ग्राहकांना कोणते उत्पादने सर्वाधिक आवडतात हे समजण्यासाठी किंवा नोकरी अर्जातील लोकप्रिय कीवर्ड ओळखण्यासाठी वापरला जाऊ शकतो.
|
|
|
|
### संरचित डेटा
|
|
संरचित डेटा म्हणजे पंक्ती आणि स्तंभांमध्ये आयोजित केलेला डेटा, जिथे प्रत्येक पंक्तीमध्ये समान सेटचे स्तंभ असतात. स्तंभ विशिष्ट प्रकाराच्या मूल्याचे प्रतिनिधित्व करतात आणि ते मूल्य काय दर्शवते याचे वर्णन करणारे नाव असते, तर पंक्तीमध्ये वास्तविक मूल्ये असतात. स्तंभांमध्ये मूल्यांवर विशिष्ट नियम किंवा निर्बंध असतात, जेणेकरून मूल्ये स्तंभाचे अचूक प्रतिनिधित्व करतात. उदाहरणार्थ, ग्राहकांच्या स्प्रेडशीटची कल्पना करा, जिथे प्रत्येक पंक्तीमध्ये फोन नंबर असणे आवश्यक आहे आणि फोन नंबरमध्ये कधीही अक्षरे नसावीत. फोन नंबर स्तंभावर असे नियम लागू केले जाऊ शकतात की तो कधीही रिकामा नसावा आणि फक्त संख्याच असाव्यात.
|
|
|
|
संरचित डेटाचा एक फायदा म्हणजे तो अशा प्रकारे आयोजित केला जाऊ शकतो की तो इतर संरचित डेटाशी संबंधित असू शकतो. परंतु, डेटा विशिष्ट पद्धतीने आयोजित करण्यासाठी डिझाइन केलेला असल्यामुळे, त्याच्या एकूण संरचनेत बदल करणे कठीण होऊ शकते. उदाहरणार्थ, ग्राहकांच्या स्प्रेडशीटमध्ये रिकामा नसलेला ईमेल स्तंभ जोडणे म्हणजे तुम्हाला विद्यमान ग्राहकांच्या पंक्तींमध्ये ही मूल्ये कशी जोडायची याचा विचार करावा लागेल.
|
|
|
|
संरचित डेटाची उदाहरणे: स्प्रेडशीट्स, रिलेशनल डेटाबेस, फोन नंबर, बँक स्टेटमेंट्स
|
|
|
|
### असंरचित डेटा
|
|
असंरचित डेटा सामान्यतः पंक्ती किंवा स्तंभांमध्ये वर्गीकृत केला जाऊ शकत नाही आणि त्यामध्ये कोणतेही स्वरूप किंवा नियमांचा संच नसतो. असंरचित डेटावर संरचनेवर कमी निर्बंध असल्यामुळे, संरचित डेटासेटच्या तुलनेत नवीन माहिती जोडणे सोपे असते. उदाहरणार्थ, जर एखाद्या सेन्सरने दर 2 मिनिटांनी बारोमेट्रिक प्रेशर डेटा कॅप्चर केला आणि आता तापमान मोजण्याची आणि नोंदवण्याची क्षमता मिळाली, तर असंरचित असल्यास विद्यमान डेटामध्ये बदल करण्याची आवश्यकता नाही. परंतु, यामुळे अशा प्रकारच्या डेटाचे विश्लेषण किंवा तपास करणे अधिक वेळखाऊ होऊ शकते. उदाहरणार्थ, एखाद्या वैज्ञानिकाला सेन्सरच्या डेटामधून मागील महिन्याचे सरासरी तापमान शोधायचे आहे, परंतु त्याला असे आढळते की सेन्सरने काही डेटा "e" म्हणून नोंदवला आहे, ज्याचा अर्थ तो खराब झाला होता, त्यामुळे डेटा अपूर्ण आहे.
|
|
|
|
असंरचित डेटाची उदाहरणे: टेक्स्ट फाइल्स, टेक्स्ट मेसेजेस, व्हिडिओ फाइल्स
|
|
|
|
### अर्ध-संरचित डेटा
|
|
अर्ध-संरचित डेटामध्ये संरचित आणि असंरचित डेटाचे वैशिष्ट्ये असतात. तो सामान्यतः पंक्ती आणि स्तंभांच्या स्वरूपात नसतो, परंतु तो अशा प्रकारे आयोजित केला जातो, जो संरचित मानला जातो आणि निश्चित स्वरूप किंवा नियमांचा संच अनुसरण करू शकतो. संरचना स्रोतांमध्ये बदलते, जसे की चांगल्या प्रकारे परिभाषित केलेली श्रेणी ते अधिक लवचिक स्वरूप, जे नवीन माहिती सहजपणे समाकलित करण्यास अनुमती देते. मेटाडेटा हे संकेतक असतात, जे डेटा कसा आयोजित आणि संग्रहित केला जातो हे ठरवण्यास मदत करतात आणि डेटाच्या प्रकारावर आधारित विविध नावे असतात. मेटाडेटासाठी काही सामान्य नावे म्हणजे टॅग्स, घटक, घटक आणि गुणधर्म. उदाहरणार्थ, एक सामान्य ईमेल संदेशामध्ये विषय, मजकूर आणि प्राप्तकर्त्यांचा संच असतो आणि तो कोणाकडून किंवा कधी पाठवला गेला यावर आधारित आयोजित केला जाऊ शकतो.
|
|
|
|
अर्ध-संरचित डेटाची उदाहरणे: HTML, CSV फाइल्स, JavaScript Object Notation (JSON)
|
|
|
|
## डेटाचे स्रोत
|
|
|
|
डेटा स्रोत म्हणजे डेटा जिथे तयार झाला किंवा "राहतो" आणि तो कसा आणि कधी गोळा केला गेला यावर आधारित बदलतो. वापरकर्त्यांनी तयार केलेला डेटा प्राथमिक डेटा म्हणून ओळखला जातो, तर माध्यमिक डेटा असा असतो, जो सामान्य वापरासाठी डेटा गोळा करणाऱ्या स्रोताकडून येतो. उदाहरणार्थ, वैज्ञानिकांचा एक गट जंगलात निरीक्षणे गोळा करत असेल तर तो प्राथमिक डेटा मानला जाईल आणि जर त्यांनी तो इतर वैज्ञानिकांसोबत शेअर करण्याचा निर्णय घेतला तर तो माध्यमिक डेटा मानला जाईल.
|
|
|
|
डेटाबेस हे सामान्य स्रोत आहेत आणि डेटाबेस व्यवस्थापन प्रणालीवर अवलंबून असतात, जेथे वापरकर्ते डेटा एक्सप्लोर करण्यासाठी क्वेरी नावाच्या कमांड्स वापरतात. फाइल्स डेटा स्रोत म्हणून ऑडिओ, इमेज आणि व्हिडिओ फाइल्स तसेच Excel सारख्या स्प्रेडशीट्स असू शकतात. इंटरनेट स्रोत हे डेटा होस्ट करण्यासाठी सामान्य स्थान आहेत, जिथे डेटाबेस तसेच फाइल्स सापडू शकतात. अॅप्लिकेशन प्रोग्रामिंग इंटरफेस, ज्याला APIs म्हणतात, प्रोग्रामर्सना इंटरनेटद्वारे बाह्य वापरकर्त्यांसोबत डेटा शेअर करण्याचे मार्ग तयार करण्याची परवानगी देतात, तर वेब स्क्रॅपिंग प्रक्रियेद्वारे वेब पृष्ठावरून डेटा काढला जातो. [डेटासोबत काम करण्याचे धडे](../../../../../../../../../2-Working-With-Data) विविध डेटा स्रोत कसे वापरायचे यावर लक्ष केंद्रित करतात.
|
|
|
|
## निष्कर्ष
|
|
|
|
या धड्यात आपण शिकले:
|
|
|
|
- डेटा म्हणजे काय
|
|
- डेटा कसा वर्णन केला जातो
|
|
- डेटा कसा वर्गीकृत आणि श्रेणीबद्ध केला जातो
|
|
- डेटा कुठे सापडू शकतो
|
|
|
|
## 🚀 आव्हान
|
|
|
|
Kaggle हे ओपन डेटासेट्ससाठी उत्कृष्ट स्रोत आहे. [डेटासेट शोध साधन](https://www.kaggle.com/datasets) वापरून काही मनोरंजक डेटासेट्स शोधा आणि 3-5 डेटासेट्स खालील निकषांनुसार वर्गीकृत करा:
|
|
|
|
- डेटा परिमाणात्मक आहे की गुणात्मक?
|
|
- डेटा संरचित, असंरचित, की अर्ध-संरचित आहे?
|
|
|
|
## [व्याख्यानानंतरची प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ds/quiz/5)
|
|
|
|
## पुनरावलोकन आणि स्व-अभ्यास
|
|
|
|
- Microsoft Learn युनिट, [तुमचा डेटा वर्गीकृत करा](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) मध्ये संरचित, अर्ध-संरचित आणि असंरचित डेटाचे तपशीलवार विश्लेषण आहे.
|
|
|
|
## असाइनमेंट
|
|
|
|
[डेटासेट्स वर्गीकृत करणे](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही. |