You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mr/1-Introduction/03-defining-data/README.md

17 KiB

डेटा परिभाषित करणे

 Sketchnote by (@sketchthedocs)
डेटा परिभाषित करणे - Sketchnote by @nitya

डेटा म्हणजे तथ्ये, माहिती, निरीक्षणे आणि मोजमापे, जी शोध लावण्यासाठी आणि माहितीपूर्ण निर्णय घेण्यासाठी वापरली जातात. डेटा पॉईंट म्हणजे डेटासेटमधील डेटा युनिट, जो डेटा पॉईंट्सच्या संग्रहाचा भाग असतो. डेटासेट्स वेगवेगळ्या स्वरूपात आणि संरचनेत असू शकतात आणि सहसा त्याच्या स्रोतावर आधारित असतात, म्हणजे डेटा कुठून आला आहे. उदाहरणार्थ, एखाद्या कंपनीचे मासिक उत्पन्न स्प्रेडशीटमध्ये असू शकते, तर स्मार्टवॉचमधून मिळणारा तासागणिक हृदय गती डेटा JSON स्वरूपात असू शकतो. डेटा वैज्ञानिकांना सहसा एका डेटासेटमध्ये वेगवेगळ्या प्रकारच्या डेटासोबत काम करावे लागते.

या धड्यात डेटाच्या वैशिष्ट्यांनुसार आणि स्रोतांनुसार त्याला ओळखणे आणि वर्गीकरण करणे शिकवले जाईल.

पूर्व-व्याख्यान क्विझ

डेटा कसा वर्णन केला जातो

कच्चा डेटा

कच्चा डेटा म्हणजे त्याच्या मूळ स्रोतातून आलेला डेटा, जो त्याच्या सुरुवातीच्या अवस्थेत असतो आणि त्याचे विश्लेषण किंवा आयोजन केलेले नसते. डेटासेटमधील घडामोडी समजून घेण्यासाठी, तो अशा स्वरूपात आयोजित करणे आवश्यक आहे, जो माणसांसाठी तसेच तंत्रज्ञानासाठी समजण्यास सोपा असेल. डेटासेटची रचना त्याचे आयोजन कसे केले गेले आहे हे वर्णन करते आणि ती संरचित, असंरचित आणि अर्ध-संरचित अशा प्रकारांमध्ये वर्गीकृत केली जाऊ शकते. ही रचना स्रोतावर अवलंबून बदलते, परंतु शेवटी या तीन श्रेणींमध्ये बसते.

परिमाणात्मक डेटा

परिमाणात्मक डेटा म्हणजे डेटासेटमधील संख्यात्मक निरीक्षणे, जी विश्लेषित, मोजली जाऊ शकतात आणि गणितीय पद्धतीने वापरली जाऊ शकतात. परिमाणात्मक डेटाचे काही उदाहरणे म्हणजे: एखाद्या देशाची लोकसंख्या, एखाद्या व्यक्तीची उंची किंवा एखाद्या कंपनीचे तिमाही उत्पन्न. काही अतिरिक्त विश्लेषणासह, परिमाणात्मक डेटा हवेच्या गुणवत्तेच्या निर्देशांकाचे (AQI) हंगामी ट्रेंड शोधण्यासाठी किंवा कामाच्या दिवशी ट्रॅफिकची शक्यता अंदाजण्यासाठी वापरला जाऊ शकतो.

गुणात्मक डेटा

गुणात्मक डेटा, ज्याला श्रेणीबद्ध डेटा असेही म्हणतात, हा डेटा परिमाणात्मक डेटासारखा वस्तुनिष्ठपणे मोजता येत नाही. हा सामान्यतः व्यक्तिनिष्ठ स्वरूपाचा डेटा असतो, जो एखाद्या उत्पादनाची किंवा प्रक्रियेची गुणवत्ता टिपतो. कधीकधी, गुणात्मक डेटा संख्यात्मक असतो, परंतु तो गणितीय पद्धतीने वापरला जात नाही, जसे की फोन नंबर किंवा टाइमस्टॅम्प. गुणात्मक डेटाची काही उदाहरणे म्हणजे: व्हिडिओवरील टिप्पण्या, कारचे मॉडेल किंवा तुमच्या जवळच्या मित्रांचा आवडता रंग. गुणात्मक डेटा ग्राहकांना कोणती उत्पादने जास्त आवडतात हे समजण्यासाठी किंवा नोकरी अर्जांमधील लोकप्रिय कीवर्ड ओळखण्यासाठी वापरला जाऊ शकतो.

संरचित डेटा

संरचित डेटा म्हणजे पंक्ती आणि स्तंभांमध्ये व्यवस्थित केलेला डेटा, जिथे प्रत्येक पंक्तीमध्ये समान प्रकारचे स्तंभ असतात. स्तंभ विशिष्ट प्रकाराच्या मूल्याचे प्रतिनिधित्व करतात आणि त्या मूल्याचे वर्णन करणारे नाव असते, तर पंक्ती वास्तविक मूल्ये असतात. स्तंभांवर विशिष्ट नियम किंवा निर्बंध लागू असतात, जेणेकरून मूल्ये अचूकपणे स्तंभाचे प्रतिनिधित्व करतील. उदाहरणार्थ, ग्राहकांच्या स्प्रेडशीटमध्ये प्रत्येक पंक्तीमध्ये फोन नंबर असणे आवश्यक आहे आणि फोन नंबरमध्ये कधीही अक्षरे नसावीत.

संरचित डेटाचा एक फायदा म्हणजे तो अशा प्रकारे आयोजित केला जाऊ शकतो की तो इतर संरचित डेटाशी संबंधित असू शकतो. परंतु, डेटा विशिष्ट पद्धतीने आयोजित करण्यासाठी डिझाइन केलेला असल्यामुळे, त्याच्या एकूण संरचनेत बदल करणे कठीण होऊ शकते. उदाहरणार्थ, ग्राहकांच्या स्प्रेडशीटमध्ये ईमेल स्तंभ जोडणे, जो रिकामा असू शकत नाही, याचा अर्थ तुम्हाला विद्यमान पंक्तींमध्ये ही मूल्ये कशी जोडायची हे शोधावे लागेल.

संरचित डेटाची उदाहरणे: स्प्रेडशीट्स, रिलेशनल डेटाबेस, फोन नंबर, बँक स्टेटमेंट्स

असंरचित डेटा

असंरचित डेटा सहसा पंक्ती किंवा स्तंभांमध्ये वर्गीकृत केला जाऊ शकत नाही आणि त्यात कोणतेही स्वरूप किंवा नियम नसतात. असंरचित डेटावर कमी निर्बंध असल्यामुळे, संरचित डेटासेटच्या तुलनेत नवीन माहिती जोडणे सोपे असते. उदाहरणार्थ, जर एखाद्या सेन्सरने दर 2 मिनिटांनी वायुमंडलीय दाब मोजण्याचा डेटा कॅप्चर केला आणि त्याला आता तापमान मोजण्याची क्षमता मिळाली, तर असंरचित डेटामध्ये विद्यमान डेटामध्ये बदल करण्याची गरज नाही. परंतु, अशा प्रकारच्या डेटाचे विश्लेषण करणे किंवा तपासणे अधिक वेळखाऊ होऊ शकते.

असंरचित डेटाची उदाहरणे: मजकूर फायली, मजकूर संदेश, व्हिडिओ फायली

अर्ध-संरचित डेटा

अर्ध-संरचित डेटामध्ये संरचित आणि असंरचित डेटाचे गुणधर्म असतात. तो सहसा पंक्ती आणि स्तंभांच्या स्वरूपात नसतो, परंतु तो अशा प्रकारे आयोजित केला जातो, जो संरचित मानला जातो आणि कधीकधी निश्चित स्वरूप किंवा नियमांचे पालन करतो. अर्ध-संरचित डेटामध्ये मेटाडेटा असते, जी डेटा कसा आयोजित आणि संग्रहित केला जातो हे ठरवण्यास मदत करते. उदाहरणार्थ, ईमेल संदेशामध्ये विषय, मजकूर आणि प्राप्तकर्त्यांचा संच असतो आणि तो कोणाकडून किंवा कधी पाठवला गेला यावर आधारित आयोजित केला जाऊ शकतो.

अर्ध-संरचित डेटाची उदाहरणे: HTML, CSV फायली, JavaScript Object Notation (JSON)

डेटाचे स्रोत

डेटाचा स्रोत म्हणजे डेटा जिथे तयार झाला किंवा "राहतो" आणि तो कसा आणि कधी गोळा केला गेला यावर आधारित बदलतो. वापरकर्त्यांनी तयार केलेला डेटा प्राथमिक डेटा म्हणून ओळखला जातो, तर सामान्य वापरासाठी गोळा केलेला डेटा दुय्यम डेटा म्हणून ओळखला जातो. उदाहरणार्थ, जर वैज्ञानिकांचा गट जंगलातील निरीक्षणे गोळा करत असेल, तर तो प्राथमिक डेटा मानला जाईल, आणि जर त्यांनी तो इतर वैज्ञानिकांसोबत शेअर केला, तर तो इतरांसाठी दुय्यम डेटा ठरेल.

डेटाबेस हे सामान्य स्रोत आहेत, जे डेटाबेस व्यवस्थापन प्रणालीवर अवलंबून असतात. फायली डेटा स्रोत म्हणून ऑडिओ, प्रतिमा, व्हिडिओ फायली तसेच Excel सारख्या स्प्रेडशीट्स असू शकतात. इंटरनेट स्रोत डेटासाठी सामान्य स्थान आहे, जिथे डेटाबेस तसेच फायली सापडू शकतात. API (Application Programming Interfaces) प्रोग्रामरना इंटरनेटद्वारे डेटा शेअर करण्याचे मार्ग तयार करण्यास अनुमती देतात, तर वेब स्क्रॅपिंग प्रक्रियेद्वारे वेब पृष्ठांवरून डेटा काढला जातो. Working with Data धडे विविध डेटा स्रोतांचा वापर कसा करायचा यावर लक्ष केंद्रित करतात.

निष्कर्ष

या धड्यात आपण शिकलो:

  • डेटा म्हणजे काय
  • डेटा कसा वर्णन केला जातो
  • डेटा कसा वर्गीकृत आणि श्रेणीबद्ध केला जातो
  • डेटा कुठे सापडतो

🚀 आव्हान

Kaggle हा खुले डेटासेट्स शोधण्यासाठी उत्कृष्ट स्रोत आहे. डेटासेट शोध साधन वापरून काही मनोरंजक डेटासेट्स शोधा आणि 3-5 डेटासेट्स खालील निकषांनुसार वर्गीकृत करा:

  • डेटा परिमाणात्मक आहे का गुणात्मक?
  • डेटा संरचित, असंरचित, की अर्ध-संरचित आहे?

व्याख्यानानंतरचा क्विझ

पुनरावलोकन आणि स्व-अभ्यास

  • Microsoft Learn युनिट Classify your Data मध्ये संरचित, अर्ध-संरचित, आणि असंरचित डेटाचे तपशीलवार वर्णन आहे.

असाइनमेंट

डेटासेट्सचे वर्गीकरण


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.