You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/mr/2-Working-With-Data/06-non-relational/README.md

26 KiB

डेटा सोबत काम करणे: नॉन-रिलेशनल डेटा

 Sketchnote by (@sketchthedocs)
NoSQL डेटा सोबत काम करणे - Sketchnote by @nitya

पूर्व-व्याख्यान प्रश्नमंजूषा

डेटा केवळ रिलेशनल डेटाबेसपुरता मर्यादित नाही. या धड्यात नॉन-रिलेशनल डेटावर लक्ष केंद्रित केले जाईल आणि स्प्रेडशीट्स व NoSQL च्या मूलभूत गोष्टींचा अभ्यास केला जाईल.

स्प्रेडशीट्स

स्प्रेडशीट्स डेटा साठवण्यासाठी आणि एक्सप्लोर करण्यासाठी लोकप्रिय पद्धत आहे कारण त्यासाठी सेटअप करणे आणि सुरुवात करणे सोपे असते. या धड्यात तुम्ही स्प्रेडशीटच्या मूलभूत घटकांबद्दल शिकाल, तसेच फॉर्म्युला आणि फंक्शन्सबद्दलही माहिती मिळेल. उदाहरणे Microsoft Excel वापरून दिली जातील, परंतु इतर स्प्रेडशीट सॉफ्टवेअरच्या तुलनेत बहुतेक भाग आणि टॉपिक्स समान नाव आणि पद्धती असतील.

Microsoft Excel वर्कबुकचे दोन वर्कशीट्स असलेले रिक्त दृश्य

स्प्रेडशीट हा एक फाइल प्रकार आहे आणि तो संगणक, डिव्हाइस किंवा क्लाउड आधारित फाइल सिस्टममध्ये उपलब्ध असतो. सॉफ्टवेअर ब्राउझर आधारित असू शकते किंवा संगणकावर इन्स्टॉल करावे लागणारे अॅप्लिकेशन किंवा अॅप म्हणून डाउनलोड करावे लागते. Excel मध्ये या फाइल्सला वर्कबुक्स म्हणून परिभाषित केले जाते आणि उर्वरित धड्यात ही टर्मिनोलॉजी वापरली जाईल.

वर्कबुकमध्ये एक किंवा अधिक वर्कशीट्स असतात, जिथे प्रत्येक वर्कशीट टॅबद्वारे लेबल केलेले असते. वर्कशीटमध्ये सेल्स नावाचे आयत असतात, ज्यामध्ये वास्तविक डेटा असतो. सेल म्हणजे रो आणि कॉलमचा इंटरसेक्शन, जिथे कॉलम्स अल्फाबेटिकल अक्षरे वापरून लेबल केले जातात आणि रोस न्यूमेरिकल लेबल असते. काही स्प्रेडशीट्समध्ये पहिल्या काही रोमध्ये हेडर्स असतात, जे सेलमधील डेटाचे वर्णन करतात.

Excel वर्कबुकच्या या मूलभूत घटकांसह, आपण Microsoft Templates मधील इन्व्हेंटरीवर आधारित एक उदाहरण वापरून स्प्रेडशीटच्या काही अतिरिक्त भागांवर चर्चा करू.

इन्व्हेंटरी व्यवस्थापन

"InventoryExample" नावाची स्प्रेडशीट फाइल इन्व्हेंटरीमधील आयटम्सचे स्वरूपित स्प्रेडशीट आहे ज्यामध्ये तीन वर्कशीट्स आहेत, जिथे टॅब्स "Inventory List", "Inventory Pick List" आणि "Bin Lookup" असे लेबल केलेले आहेत. Inventory List वर्कशीटमधील चौथ्या रोमध्ये हेडर आहे, जो हेडर कॉलममधील प्रत्येक सेलच्या मूल्याचे वर्णन करतो.

Microsoft Excel मधील इन्व्हेंटरी लिस्टमधील उदाहरण फॉर्म्युला हायलाइट केलेला

काही वेळा सेलचे मूल्य इतर सेल्सच्या मूल्यांवर अवलंबून असते. Inventory List स्प्रेडशीट प्रत्येक आयटमच्या खर्चाचा मागोवा ठेवते, परंतु जर आपल्याला संपूर्ण इन्व्हेंटरीचे मूल्य जाणून घ्यायचे असेल तर काय करावे? फॉर्म्युला सेल डेटा वर क्रिया करतो आणि या उदाहरणात इन्व्हेंटरीचा खर्च मोजण्यासाठी वापरला जातो. या स्प्रेडशीटमध्ये Inventory Value कॉलममध्ये फॉर्म्युला वापरून QTY हेडरखालील प्रमाण आणि COST हेडरखालील खर्च गुणाकार करून प्रत्येक आयटमचे मूल्य मोजले जाते. डबल क्लिक करून किंवा सेल हायलाइट करून फॉर्म्युला पाहता येतो. तुम्हाला लक्षात येईल की फॉर्म्युला "=" चिन्हाने सुरू होतो, त्यानंतर गणना किंवा ऑपरेशन असते.

Microsoft Excel मधील इन्व्हेंटरी लिस्टमधील उदाहरण फंक्शन हायलाइट केलेले

आपण Inventory Value च्या सर्व मूल्यांना एकत्र करून त्याचे एकूण मूल्य मिळवण्यासाठी आणखी एक फॉर्म्युला वापरू शकतो. हे प्रत्येक सेल जोडून मोजले जाऊ शकते, परंतु ते एक कंटाळवाणे काम होऊ शकते. Excel मध्ये फंक्शन्स म्हणजे पूर्वनिर्धारित फॉर्म्युला असतो जो सेल्सच्या मूल्यांवर गणना करतो. फंक्शन्ससाठी arguments आवश्यक असतात, जे गणना करण्यासाठी लागणारे मूल्य असते. जर फंक्शन्ससाठी एकापेक्षा जास्त arguments आवश्यक असतील, तर त्यांना विशिष्ट क्रमाने सूचीबद्ध करणे आवश्यक आहे, अन्यथा फंक्शन योग्य मूल्य मोजू शकत नाही. या उदाहरणात SUM फंक्शन वापरले जाते आणि Inventory Value च्या मूल्यांना arguments म्हणून वापरून एकूण मूल्य तयार केले जाते, जे रो 3, कॉलम B (B3) मध्ये सूचीबद्ध आहे.

NoSQL

NoSQL हा नॉन-रिलेशनल डेटा साठवण्याच्या विविध पद्धतींसाठी एक छत्री शब्द आहे आणि "non-SQL", "non-relational" किंवा "not only SQL" म्हणून समजला जाऊ शकतो. या प्रकारच्या डेटाबेस सिस्टम्स चार प्रकारांमध्ये वर्गीकृत केल्या जाऊ शकतात.

Key-value डेटा स्टोअरचे ग्राफिकल प्रतिनिधित्व, ज्यामध्ये 4 अद्वितीय संख्यात्मक की आहेत आणि त्या 4 विविध मूल्यांशी संबंधित आहेत

स्रोत: Michał Białecki Blog

Key-value डेटाबेस अद्वितीय कीज आणि त्यांच्याशी संबंधित मूल्यांच्या जोड्या तयार करतो. या जोड्या hash table वापरून साठवल्या जातात, ज्यामध्ये योग्य hashing function असते.

Graph डेटा स्टोअरचे ग्राफिकल प्रतिनिधित्व, ज्यामध्ये लोक, त्यांचे आवडी आणि स्थान यांच्यातील संबंध दाखवले आहेत

स्रोत: Microsoft

Graph डेटाबेस डेटा मधील संबंधांचे वर्णन करतो आणि नोड्स व एजेसच्या संग्रहासारखे सादर केले जातात. नोड म्हणजे एखादी वस्तू, जी वास्तविक जगात अस्तित्वात असते, जसे की विद्यार्थी किंवा बँक स्टेटमेंट. एजेस दोन वस्तूंमधील संबंध दर्शवतात. प्रत्येक नोड आणि एजेसकडे अतिरिक्त माहिती देणारे गुणधर्म असतात.

Columnar डेटा स्टोअरचे ग्राफिकल प्रतिनिधित्व, ज्यामध्ये दोन कॉलम फॅमिली असलेला ग्राहक डेटाबेस आहे: Identity आणि Contact Info

Columnar डेटा स्टोर्स डेटा कॉलम्स आणि रोमध्ये आयोजित करतो, जसे रिलेशनल डेटा स्ट्रक्चरमध्ये असते, परंतु प्रत्येक कॉलम कॉलम फॅमिलीमध्ये विभागले जाते, जिथे एका कॉलममधील सर्व डेटा संबंधित असतो आणि एक युनिट म्हणून पुनर्प्राप्त व बदलले जाऊ शकते.

Azure Cosmos DB सह डॉक्युमेंट डेटा स्टोर्स

Document डेटा स्टोर्स key-value डेटा स्टोअरच्या संकल्पनेवर आधारित असतो आणि फील्ड्स व ऑब्जेक्ट्सच्या मालिकेने बनलेला असतो. या विभागात Cosmos DB एम्युलेटरसह डॉक्युमेंट डेटाबेस एक्सप्लोर केला जाईल.

Cosmos DB डेटाबेस "Not Only SQL" च्या व्याख्येत बसतो, जिथे Cosmos DB चा डॉक्युमेंट डेटाबेस SQL वर आधारित असतो. SQL च्या मागील धड्यात या भाषेच्या मूलभूत गोष्टींचा अभ्यास केला आहे, आणि आपण येथे डॉक्युमेंट डेटाबेसवर काही समान क्वेरी लागू करू शकतो. आपण Cosmos DB Emulator वापरणार आहोत, जो आपल्याला स्थानिक संगणकावर डॉक्युमेंट डेटाबेस तयार करण्याची आणि एक्सप्लोर करण्याची परवानगी देतो. Emulator बद्दल अधिक वाचा येथे.

डॉक्युमेंट म्हणजे फील्ड्स आणि ऑब्जेक्ट्सच्या मूल्यांचा संग्रह, जिथे फील्ड्स ऑब्जेक्ट्सच्या मूल्यांचे प्रतिनिधित्व करतात. खाली डॉक्युमेंटचे एक उदाहरण दिले आहे.

{
    "firstname": "Eva",
    "age": 44,
    "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
    "_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
    "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
    "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
    "_attachments": "attachments/",
    "_ts": 1630544034
}

या डॉक्युमेंटमधील महत्त्वाचे फील्ड्स आहेत: firstname, id, आणि age. उर्वरित फील्ड्स underscores सह Cosmos DB ने तयार केले आहेत.

Cosmos DB Emulator सह डेटा एक्सप्लोर करणे

आपण Emulator Windows साठी येथे डाउनलोड आणि इंस्टॉल करू शकता. macOS आणि Linux साठी Emulator कसे चालवायचे यासाठी या दस्तऐवजाचा संदर्भ घ्या.

Emulator एक ब्राउझर विंडो लॉन्च करतो, जिथे Explorer दृश्य आपल्याला डॉक्युमेंट्स एक्सप्लोर करण्याची परवानगी देते.

Cosmos DB Emulator चा Explorer दृश्य

जर तुम्ही फॉलो करत असाल, तर "Start with Sample" वर क्लिक करा, ज्यामुळे SampleDB नावाचा एक नमुना डेटाबेस तयार होईल. SampleDB विस्तारण्यासाठी त्याच्या बाणावर क्लिक करा, तुम्हाला Persons नावाचा कंटेनर सापडेल. कंटेनर म्हणजे आयटम्सचा संग्रह असतो, जे कंटेनरमधील डॉक्युमेंट्स असतात. तुम्ही Items अंतर्गत चार वैयक्तिक डॉक्युमेंट्स एक्सप्लोर करू शकता.

Cosmos DB Emulator मध्ये नमुना डेटाचा अभ्यास

Cosmos DB Emulator सह डॉक्युमेंट डेटा क्वेरी करणे

आपण नवीन SQL Query बटणावर क्लिक करून नमुना डेटावर क्वेरी करू शकतो (डावीकडून दुसरे बटण).

SELECT * FROM c कंटेनरमधील सर्व डॉक्युमेंट्स परत करते. चला एक where clause जोडू आणि 40 पेक्षा कमी वय असलेल्या व्यक्ती शोधू.

SELECT * FROM c where c.age < 40

Cosmos DB Emulator मध्ये नमुना डेटावर SELECT क्वेरी चालवणे, ज्यामुळे वय फील्डचे मूल्य 40 पेक्षा कमी असलेले डॉक्युमेंट्स परत मिळतात

क्वेरी दोन डॉक्युमेंट्स परत करते, लक्षात घ्या की प्रत्येक डॉक्युमेंटसाठी वयाचे मूल्य 40 पेक्षा कमी आहे.

JSON आणि डॉक्युमेंट्स

जर तुम्ही JavaScript Object Notation (JSON) शी परिचित असाल, तर तुम्हाला डॉक्युमेंट्स JSON सारखे दिसतील. या डिरेक्टरीमध्ये PersonsData.json नावाची फाइल आहे ज्यामध्ये अधिक डेटा आहे, जो तुम्ही Emulator मधील Persons कंटेनरमध्ये Upload Item बटणाद्वारे अपलोड करू शकता.

बहुतेक वेळा, JSON डेटा परत करणारे APIs थेट ट्रान्सफर करून डॉक्युमेंट डेटाबेसमध्ये साठवले जाऊ शकतात. खाली आणखी एक डॉक्युमेंट आहे, ज्यामध्ये Microsoft Twitter अकाउंटमधील ट्वीट्स Twitter API वापरून मिळवले गेले आणि नंतर Cosmos DB मध्ये टाकले गेले.

{
    "created_at": "2021-08-31T19:03:01.000Z",
    "id": "1432780985872142341",
    "text": "Blank slate. Like this tweet if youve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
    "_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
    "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
    "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
    "_attachments": "attachments/",
    "_ts": 1630537000

या डॉक्युमेंटमधील महत्त्वाचे फील्ड्स आहेत: created_at, id, आणि text.

🚀 आव्हान

TwitterData.json नावाची फाइल आहे जी तुम्ही SampleDB डेटाबेसमध्ये अपलोड करू शकता. हे वेगळ्या कंटेनरमध्ये जोडणे शिफारसीय आहे. हे खालीलप्रमाणे करता येईल:

  1. वरच्या उजव्या बाजूला नवीन कंटेनर बटणावर क्लिक करा
  2. विद्यमान डेटाबेस (SampleDB) निवडा आणि कंटेनरसाठी कंटेनर आयडी तयार करा
  3. पार्टिशन की /id सेट करा
  4. OK वर क्लिक करा (तुम्ही या दृश्यातील उर्वरित माहिती दुर्लक्षित करू शकता कारण हा एक छोटा डेटासेट आहे जो तुमच्या संगणकावर स्थानिक पातळीवर चालतो)
  5. तुमचा नवीन कंटेनर उघडा आणि Upload Item बटणाद्वारे Twitter Data फाइल अपलोड करा

text फील्डमध्ये Microsoft असलेले डॉक्युमेंट्स शोधण्यासाठी काही SELECT क्वेरी चालवण्याचा प्रयत्न करा. सूचना: LIKE keyword वापरण्याचा प्रयत्न करा.

व्याख्यानानंतरची प्रश्नमंजूषा

पुनरावलोकन आणि स्व-अभ्यास

  • या स्प्रेडशीटमध्ये काही अतिरिक्त स्वरूपन आणि वैशिष्ट्ये आहेत ज्यांचा या धड्यात समावेश नाही. Excel बद्दल अधिक जाणून घेण्यासाठी Microsoft कडे दस्तऐवज आणि व्हिडिओंची मोठी लायब्ररी आहे.

  • नॉन-रिलेशनल डेटाच्या विविध प्रकारांमध्ये वैशिष्ट्ये तपशीलवार सांगणारे हे आर्किटेक्चरल दस्तऐवज: Non-relational Data and NoSQL

  • Cosmos DB हा क्लाउड आधारित नॉन-रिलेशनल डेटाबेस आहे जो या धड्यात नमूद केलेल्या विविध NoSQL प्रकारांना साठवू शकतो. या प्रकारांबद्दल अधिक जाणून घ्या Cosmos DB Microsoft Learn Module मध्ये.

असाइनमेंट

Soda Profits


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.