Merge pull request #360 from SachinDabhade/main
Added Hindi translations of README.md and assignment.mdpull/362/head
commit
d5cbbeb458
@ -0,0 +1,164 @@
|
|||||||
|
# डेटा विज्ञान को परिभाषित करना
|
||||||
|
|
||||||
|
| ](/sketchnotes/01-Definitions.png) |
|
||||||
|
| :----------------------------------------------------------------------------------------------------: |
|
||||||
|
| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
[](https://youtu.be/beZ7Mb_oz9I)
|
||||||
|
|
||||||
|
## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0)
|
||||||
|
|
||||||
|
## डेटा क्या है?
|
||||||
|
अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं।
|
||||||
|
|
||||||
|
हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है।
|
||||||
|
|
||||||
|
इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं।
|
||||||
|
> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था?
|
||||||
|
|
||||||
|
## डेटा साइंस क्या है?
|
||||||
|
|
||||||
|
[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) में, **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*.
|
||||||
|
|
||||||
|
यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है::
|
||||||
|
|
||||||
|
* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना।
|
||||||
|
* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है।
|
||||||
|
* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं।
|
||||||
|
* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे।
|
||||||
|
* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि।
|
||||||
|
|
||||||
|
> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है।
|
||||||
|
|
||||||
|
(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए:
|
||||||
|
* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं
|
||||||
|
* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं
|
||||||
|
* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं
|
||||||
|
* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित
|
||||||
|
|
||||||
|
## अन्य संबंधित क्षेत्र
|
||||||
|
|
||||||
|
चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है।
|
||||||
|
|
||||||
|
<dl>
|
||||||
|
<dt>डेटाबेस</dt>
|
||||||
|
<dd>
|
||||||
|
डेटा को **कैसे स्टोर करें** एक महत्वपूर्ण विचार है, यानी इसे इस तरह से कैसे संरचित किया जाए जिससे तेजी से प्रोसेसिंग हो सके। विभिन्न प्रकार के डेटाबेस हैं जो संरचित और असंरचित डेटा संग्रहीत करते हैं, <a href="../../2-Working-With-Data/README.md">जिन पर हम अपने पाठ्यक्रम में विचार करेंगे</a>.
|
||||||
|
</dd>
|
||||||
|
<dt>बड़ा डेटा</dt>
|
||||||
|
<dd>
|
||||||
|
अक्सर हमें अपेक्षाकृत सरल संरचना के साथ बहुत बड़ी मात्रा में डेटा को स्टोर और संसाधित करने की आवश्यकता होती है। उस डेटा को एक कंप्यूटर क्लस्टर पर वितरित तरीके से संग्रहीत करने और इसे कुशलतापूर्वक संसाधित करने के लिए विशेष दृष्टिकोण और उपकरण हैं।
|
||||||
|
</dd>
|
||||||
|
<dt>यंत्र अधिगम</dt>
|
||||||
|
<dd>
|
||||||
|
डेटा को समझने का एक तरीका **एक मॉडल बनाना** है जो वांछित परिणाम की भविष्यवाणी करने में सक्षम होगा। डेटा से मॉडल विकसित करना **मशीन लर्निंग** कहलाता है। इसके बारे में अधिक जानने के लिए आप हमारे <a href="https://aka.ms/ml-beginners">मशीन लर्निंग फॉर बिगिनर्स</a> पाठ्यक्रम को देखना चाहेंगे।.
|
||||||
|
</dd>
|
||||||
|
<dt>कृत्रिम होशियारी</dt>
|
||||||
|
<dd>
|
||||||
|
आर्टिफिशियल इंटेलिजेंस (एआई) के रूप में जाना जाने वाला मशीन लर्निंग का एक क्षेत्र भी डेटा पर निर्भर करता है, और इसमें उच्च जटिलता वाले मॉडल बनाना शामिल है जो मानव विचार प्रक्रियाओं की नकल करते हैं। एआई विधियां अक्सर हमें असंरचित डेटा (जैसे प्राकृतिक भाषा) को संरचित अंतर्दृष्टि में बदलने की अनुमति देती हैं।
|
||||||
|
</dd>
|
||||||
|
<dt>प्रत्योक्षकरण</dt>
|
||||||
|
<dd>
|
||||||
|
एक इंसान के लिए बड़ी मात्रा में डेटा समझ से बाहर है, लेकिन एक बार जब हम उस डेटा का उपयोग करके उपयोगी विज़ुअलाइज़ेशन बनाते हैं, तो हम डेटा की अधिक समझ बना सकते हैं, और कुछ निष्कर्ष निकाल सकते हैं। इस प्रकार, जानकारी की कल्पना करने के कई तरीके जानना महत्वपूर्ण है - कुछ ऐसा जिसे हम अपने पाठ्यक्रम के <a href="../../3-Data-Visualization/README.md">धारा 3</a> में शामिल करेंगे। . संबंधित क्षेत्रों में सामान्य रूप से **इन्फोग्राफिक्स**, और **मानव-कंप्यूटर इंटरैक्शन** भी शामिल हैं।
|
||||||
|
</dd>
|
||||||
|
</dl>
|
||||||
|
|
||||||
|
## डेटा के प्रकार
|
||||||
|
|
||||||
|
जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। बस जरूरत है इसे सही तरीके से पकड़ने की! **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। पूर्व को आम तौर पर कुछ अच्छी तरह से संरचित रूप में दर्शाया जाता है, अक्सर तालिका या तालिकाओं की संख्या के रूप में, जबकि बाद वाला केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें किसी प्रकार की संरचना होती है जो बहुत भिन्न हो सकती है।
|
||||||
|
|
||||||
|
| संरचित | अर्ध-संरचित | असंरचित |
|
||||||
|
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
|
||||||
|
| उन लोगों की सूची जिनके फ़ोन नंबर हैं | विकिपीडिया पृष्ठ लिंक के साथ | एनसाइक्लोपीडिया ब्रिटानिका का पाठ |
|
||||||
|
| पिछले 20 वर्षों से हर मिनट एक इमारत के सभी कमरों में तापमान | लेखकों के साथ JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह, प्रकाशन का डेटा, और सार | कॉर्पोरेट दस्तावेज़ों के साथ फ़ाइल साझा करें |
|
||||||
|
| भवन में प्रवेश करने वाले सभी लोगों की आयु और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फ़ीड |
|
||||||
|
## डेटा कहाँ से प्राप्त करें
|
||||||
|
|
||||||
|
डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालाँकि, आइए कुछ विशिष्ट स्थानों का उल्लेख करें जहाँ आप डेटा प्राप्त कर सकते हैं:
|
||||||
|
|
||||||
|
* **संरचित**
|
||||||
|
- **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें तापमान या दबाव सेंसर जैसे विभिन्न सेंसर के डेटा शामिल हैं, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि कोई कार्यालय भवन IoT सेंसर से लैस है, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और प्रकाश व्यवस्था को नियंत्रित कर सकते हैं।
|
||||||
|
- **सर्वेक्षण** जो हम उपयोगकर्ताओं को खरीदारी के बाद, या किसी वेब साइट पर जाने के बाद पूरा करने के लिए कहते हैं।
|
||||||
|
- **व्यवहार का विश्लेषण**, उदाहरण के लिए, यह समझने में हमारी सहायता कर सकता है कि उपयोगकर्ता किसी साइट में कितनी गहराई तक जाता है, और साइट छोड़ने का सामान्य कारण क्या है।
|
||||||
|
* **असंरचित**
|
||||||
|
- **पाठ** अंतर्दृष्टि का एक समृद्ध स्रोत हो सकता है, जैसे समग्र **भावना स्कोर**, या कीवर्ड और अर्थ अर्थ निकालना।
|
||||||
|
- **छवियां** या **वीडियो**। सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए एक निगरानी कैमरे से एक वीडियो का उपयोग किया जा सकता है।
|
||||||
|
- वेब सर्वर **लॉग** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पृष्ठ सबसे अधिक बार देखे जाते हैं, और कितने समय के लिए।
|
||||||
|
* **अर्ध-संरचित**
|
||||||
|
- **सोशल नेटवर्क** ग्राफ़ उपयोगकर्ता के व्यक्तित्व के बारे में डेटा के महान स्रोत हो सकते हैं और जानकारी के प्रसार में संभावित प्रभावशीलता हो सकती है।
|
||||||
|
- जब हमारे पास किसी पार्टी से तस्वीरों का एक गुच्छा होता है, तो हम एक दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **ग्रुप डायनेमिक्स** डेटा निकालने का प्रयास कर सकते हैं।
|
||||||
|
|
||||||
|
डेटा के विभिन्न संभावित स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोचने की कोशिश कर सकते हैं जहां स्थिति को बेहतर तरीके से जानने और व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए डेटा विज्ञान तकनीकों को लागू किया जा सकता है।
|
||||||
|
|
||||||
|
## आप डेटा के साथ क्या कर सकते हैं
|
||||||
|
|
||||||
|
डेटा साइंस में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं:
|
||||||
|
|
||||||
|
<dl>
|
||||||
|
<dt>1) डेटा अधिग्रहण</dt>
|
||||||
|
<dd>
|
||||||
|
पहला कदम डेटा एकत्र करना है। जबकि कई मामलों में यह एक सीधी प्रक्रिया हो सकती है, जैसे वेब एप्लिकेशन से डेटाबेस में डेटा आना, कभी-कभी हमें विशेष तकनीकों का उपयोग करने की आवश्यकता होती है। उदाहरण के लिए, IoT सेंसर से डेटा भारी हो सकता है, और आगे की प्रक्रिया से पहले सभी डेटा एकत्र करने के लिए IoT हब जैसे बफरिंग एंडपॉइंट का उपयोग करना एक अच्छा अभ्यास है।
|
||||||
|
</dd>
|
||||||
|
<dt>2) डाटा स्टोरेज</dt>
|
||||||
|
<dd>
|
||||||
|
डेटा स्टोर करना चुनौतीपूर्ण हो सकता है, खासकर अगर हम बड़े डेटा के बारे में बात कर रहे हैं। डेटा को स्टोर करने का तरीका तय करते समय, भविष्य में डेटा को क्वेरी करने के तरीके का अनुमान लगाना समझ में आता है। डेटा को स्टोर करने के कई तरीके हैं:
|
||||||
|
<ul>
|
||||||
|
<li>एक रिलेशनल डेटाबेस तालिकाओं के संग्रह को संग्रहीत करता है, और उन्हें क्वेरी करने के लिए SQL नामक एक विशेष भाषा का उपयोग करता है। आमतौर पर, तालिकाओं को विभिन्न समूहों में व्यवस्थित किया जाता है जिन्हें स्कीमा कहा जाता है। कई मामलों में हमें स्कीमा को फिट करने के लिए डेटा को मूल रूप से परिवर्तित करने की आवश्यकता होती है।</li>
|
||||||
|
<li><a href="https://en.wikipedia.org/wiki/NoSQL">एक NoSQL</a> डेटाबेस, जैसे कि <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-31812-dmitryso">CosmosDB</a>, करता है डेटा पर स्कीमा लागू नहीं करता है, और अधिक जटिल डेटा संग्रहीत करने की अनुमति देता है, उदाहरण के लिए, पदानुक्रमित JSON दस्तावेज़ या ग्राफ़। हालाँकि, NoSQL डेटाबेस में SQL की समृद्ध क्वेरी क्षमता नहीं होती है, और यह संदर्भात्मक अखंडता को लागू नहीं कर सकता है, अर्थात डेटा को तालिकाओं में कैसे संरचित किया जाता है और तालिकाओं के बीच संबंधों को नियंत्रित करने के नियम।</li>
|
||||||
|
<li><a href="https://en.wikipedia.org/wiki/Data_lake">डेटा लेक</a> संग्रहण का उपयोग कच्चे, असंरचित रूप में डेटा के बड़े संग्रह के लिए किया जाता है। डेटा झीलों का उपयोग अक्सर बड़े डेटा के साथ किया जाता है, जहां सभी डेटा एक मशीन पर फिट नहीं हो सकते हैं, और सर्वरों के एक समूह द्वारा संग्रहीत और संसाधित किया जाना है। <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> डेटा प्रारूप है जिसे अक्सर बड़े डेटा के संयोजन में उपयोग किया जाता है।</li>
|
||||||
|
</ul>
|
||||||
|
</dd>
|
||||||
|
<dt>3) डाटा प्रोसेसिंग</dt>
|
||||||
|
<dd>
|
||||||
|
यह डेटा यात्रा का सबसे रोमांचक हिस्सा है, जिसमें डेटा को उसके मूल रूप से एक ऐसे रूप में परिवर्तित करना शामिल है जिसका उपयोग विज़ुअलाइज़ेशन/मॉडल प्रशिक्षण के लिए किया जा सकता है। टेक्स्ट या इमेज जैसे असंरचित डेटा के साथ काम करते समय, हमें डेटा से **फीचर्स** निकालने के लिए कुछ एआई तकनीकों का उपयोग करने की आवश्यकता हो सकती है, इस प्रकार इसे संरचित रूप में परिवर्तित किया जा सकता है।
|
||||||
|
</dd>
|
||||||
|
<dt>4) विज़ुअलाइज़ेशन / मानव अंतर्दृष्टि</dt>
|
||||||
|
<dd>
|
||||||
|
अक्सर, डेटा को समझने के लिए, हमें इसकी कल्पना करने की आवश्यकता होती है। हमारे टूलबॉक्स में कई अलग-अलग विज़ुअलाइज़ेशन तकनीकें होने से, हम एक अंतर्दृष्टि बनाने के लिए सही दृश्य ढूंढ सकते हैं। अक्सर, एक डेटा वैज्ञानिक को "डेटा के साथ खेलने" की आवश्यकता होती है, इसे कई बार विज़ुअलाइज़ करना और कुछ रिश्तों की तलाश करना। इसके अलावा, हम एक परिकल्पना का परीक्षण करने या डेटा के विभिन्न टुकड़ों के बीच संबंध साबित करने के लिए सांख्यिकीय तकनीकों का उपयोग कर सकते हैं।
|
||||||
|
</dd>
|
||||||
|
<dt>5) एक भविष्य कहनेवाला मॉडल प्रशिक्षण</dt>
|
||||||
|
<dd>
|
||||||
|
चूंकि डेटा विज्ञान का अंतिम लक्ष्य डेटा के आधार पर निर्णय लेने में सक्षम होना है, इसलिए हम <a href="http://github.com/microsoft/ml-for-beginners">मशीन लर्निंग की तकनीकों का उपयोग करना चाह सकते हैं। </a> एक भविष्य कहनेवाला मॉडल बनाने के लिए। इसके बाद हम समान संरचनाओं वाले नए डेटा सेट का उपयोग करके भविष्यवाणियां करने के लिए इसका उपयोग कर सकते हैं।
|
||||||
|
</dd>
|
||||||
|
</dl>
|
||||||
|
|
||||||
|
बेशक, वास्तविक डेटा के आधार पर, कुछ चरण गायब हो सकते हैं (उदाहरण के लिए, जब हमारे पास पहले से ही डेटाबेस में डेटा है, या जब हमें मॉडल प्रशिक्षण की आवश्यकता नहीं है), या कुछ चरणों को कई बार दोहराया जा सकता है (जैसे डेटा प्रोसेसिंग )
|
||||||
|
|
||||||
|
## डिजिटलीकरण और डिजिटल परिवर्तन
|
||||||
|
|
||||||
|
पिछले दशक में, कई व्यवसायों ने व्यावसायिक निर्णय लेते समय डेटा के महत्व को समझना शुरू कर दिया। व्यवसाय चलाने के लिए डेटा विज्ञान सिद्धांतों को लागू करने के लिए, पहले कुछ डेटा एकत्र करने की आवश्यकता होती है, अर्थात व्यावसायिक प्रक्रियाओं का डिजिटल रूप में अनुवाद करना। इसे **डिजिटलाइजेशन** के नाम से जाना जाता है। निर्णयों को निर्देशित करने के लिए इस डेटा में डेटा विज्ञान तकनीकों को लागू करने से उत्पादकता (या यहां तक कि व्यावसायिक धुरी) में उल्लेखनीय वृद्धि हो सकती है, जिसे **डिजिटल परिवर्तन** कहा जाता है।
|
||||||
|
|
||||||
|
आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह एक) जिसे हम छात्रों को ऑनलाइन वितरित करते हैं, और हम इसे सुधारने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम यह कैसे कर सकते हैं?
|
||||||
|
|
||||||
|
हम "क्या डिजीटल किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे आसान तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल को पूरा करने में लगने वाले समय को मापें, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षा देकर प्राप्त ज्ञान को मापें। सभी छात्रों में औसत समय-से-पूरा करके, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाइयों का कारण बनते हैं, और उन्हें सरल बनाने पर काम करते हैं।
|
||||||
|
|
||||||
|
> आप तर्क दे सकते हैं कि यह दृष्टिकोण आदर्श नहीं है, क्योंकि मॉड्यूल अलग-अलग लंबाई के हो सकते हैं। मॉड्यूल की लंबाई (वर्णों की संख्या में) से समय को विभाजित करना शायद अधिक उचित है, और इसके बजाय उन मानों की तुलना करें।
|
||||||
|
|
||||||
|
जब हम बहुविकल्पीय परीक्षणों के परिणामों का विश्लेषण करना शुरू करते हैं, तो हम यह निर्धारित करने का प्रयास कर सकते हैं कि छात्रों को किन अवधारणाओं को समझने में कठिनाई होती है, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षणों को इस तरह से डिजाइन करने की आवश्यकता है कि प्रत्येक प्रश्न एक निश्चित अवधारणा या ज्ञान के हिस्से से मेल खाता हो।
|
||||||
|
|
||||||
|
यदि हम और अधिक जटिल होना चाहते हैं, तो हम छात्रों की आयु वर्ग के विरुद्ध प्रत्येक मॉड्यूल के लिए लिए गए समय को प्लॉट कर सकते हैं। हमें पता चल सकता है कि कुछ आयु वर्गों के लिए मॉड्यूल को पूरा करने में अनुचित रूप से लंबा समय लगता है, या छात्र इसे पूरा करने से पहले छोड़ देते हैं। यह हमें मॉड्यूल के लिए उम्र की सिफारिशें प्रदान करने में मदद कर सकता है, और गलत उम्मीदों से लोगों के असंतोष को कम कर सकता है।
|
||||||
|
|
||||||
|
## 🚀 चुनौती
|
||||||
|
|
||||||
|
इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे:
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है।
|
||||||
|
|
||||||
|
> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [यह लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1)
|
||||||
|
|
||||||
|
## कार्य (Assignments)
|
||||||
|
|
||||||
|
* **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें
|
||||||
|
* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.hi.md)
|
||||||
|
|
||||||
|
## क्रेडिट
|
||||||
|
|
||||||
|
यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है
|
@ -0,0 +1,19 @@
|
|||||||
|
## डेटा एथिक्स केस स्टडी लिखें
|
||||||
|
|
||||||
|
## निर्देश
|
||||||
|
|
||||||
|
आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.hi.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.hi.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ
|
||||||
|
|
||||||
|
इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें:
|
||||||
|
|
||||||
|
1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.hi.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivendata.org/examples/) जैसे ऑनलाइन उदाहरण देखें।
|
||||||
|
|
||||||
|
2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है।
|
||||||
|
|
||||||
|
3. `संबंधित संसाधन सूची प्रदान करें`। यह साबित करने के लिए कि यह एक वास्तविक दुनिया की घटना थी, एक या अधिक संसाधन (एक लेख, एक व्यक्तिगत ब्लॉग पोस्ट या छवि, ऑनलाइन शोध पत्र आदि के लिंक) साझा करें। बोनस अंक: संसाधनों को साझा करें जो घटना से संभावित नुकसान और परिणामों को भी प्रदर्शित करते हैं, या इसकी पुनरावृत्ति को रोकने के लिए उठाए गए सकारात्मक कदमों को उजागर करते हैं।
|
||||||
|
|
||||||
|
## सरनामा
|
||||||
|
|
||||||
|
अनुकरणीय | पर्याप्त | सुधार की जरूरत
|
||||||
|
--- | --- | -- |
|
||||||
|
एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है। <br/> <br/> केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है। <br/><br/> यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है। <br/><br/> कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है। <br/><br/> हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है। <br/><br/> हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। |
|
@ -0,0 +1,268 @@
|
|||||||
|
# सांख्यिकी और संभाव्यता का संक्षिप्त परिचय
|
||||||
|
|
||||||
|
|](/sketchnotes/04-Statistics-Probability.png)|
|
||||||
|
|:---:|
|
||||||
|
| सांख्यिकी और संभावना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
||||||
|
|
||||||
|
सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए अत्यधिक प्रासंगिक हैं। गणित के गहन ज्ञान के बिना डेटा के साथ काम करना संभव है, लेकिन कम से कम कुछ बुनियादी अवधारणाओं को जानना अभी भी बेहतर है। यहां हम एक संक्षिप्त परिचय प्रस्तुत करेंगे जो आपको आरंभ करने में मदद करेगा।
|
||||||
|
|
||||||
|
[](https://youtu.be/Z5Zy85g4Yjw)
|
||||||
|
|
||||||
|
|
||||||
|
## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6)
|
||||||
|
|
||||||
|
## प्रायिकता और यादृच्छिक चर
|
||||||
|
|
||||||
|
**प्रायिकता** 0 और 1 के बीच की एक संख्या है जो यह व्यक्त करती है कि **ईवेंट** कितनी संभावित है। इसे कई सकारात्मक परिणामों के रूप में परिभाषित किया गया है (जो घटना की ओर ले जाते हैं), परिणामों की कुल संख्या से विभाजित, यह देखते हुए कि सभी परिणाम समान रूप से संभावित हैं। उदाहरण के लिए, जब हम एक पासे को उछालते हैं, तो हमें एक सम संख्या प्राप्त होने की प्रायिकता 3/6 = 0.5 होती है।
|
||||||
|
|
||||||
|
जब हम घटनाओं के बारे में बात करते हैं, तो हम **यादृच्छिक चर** का उपयोग करते हैं। उदाहरण के लिए, यादृच्छिक चर जो एक पासे को घुमाते समय प्राप्त संख्या का प्रतिनिधित्व करता है, 1 से 6 तक मान लेगा। 1 से 6 तक की संख्याओं के सेट को **नमूना स्थान** कहा जाता है। हम एक निश्चित मान लेने वाले यादृच्छिक चर की संभावना के बारे में बात कर सकते हैं, उदाहरण के लिए पी (एक्स = 3) = 1/6।
|
||||||
|
|
||||||
|
पिछले उदाहरण में यादृच्छिक चर को **असतत** कहा जाता है, क्योंकि इसमें एक गणनीय नमूना स्थान होता है, अर्थात अलग-अलग मान होते हैं जिन्हें गिना जा सकता है। ऐसे मामले हैं जब नमूना स्थान वास्तविक संख्याओं की एक श्रृंखला है, या वास्तविक संख्याओं का पूरा सेट है। ऐसे चरों को **सतत** कहा जाता है। एक अच्छा उदाहरण वह समय है जब बस आती है।
|
||||||
|
|
||||||
|
## प्रायिकता वितरण
|
||||||
|
|
||||||
|
असतत यादृच्छिक चर के मामले में, फ़ंक्शन P(X) द्वारा प्रत्येक घटना की प्रायिकता का वर्णन करना आसान है। नमूना स्थान *S* से प्रत्येक मान *s* के लिए यह 0 से 1 तक की संख्या देगा, जैसे कि सभी घटनाओं के लिए P(X=s) के सभी मानों का योग 1 होगा।
|
||||||
|
|
||||||
|
सबसे प्रसिद्ध असतत वितरण **समान वितरण** है, जिसमें N तत्वों का एक नमूना स्थान होता है, जिनमें से प्रत्येक के लिए 1/N की समान संभावना होती है।
|
||||||
|
|
||||||
|
एक सतत चर के संभाव्यता वितरण का वर्णन करना अधिक कठिन है, कुछ अंतराल [ए, बी], या वास्तविक संख्याओं के पूरे सेट से लिए गए मानों के साथ ℝ। बस आगमन समय के मामले पर विचार करें। वास्तव में, प्रत्येक सटीक आगमन समय *t* के लिए, ठीक उसी समय पर बस के आने की प्रायिकता 0 है!
|
||||||
|
|
||||||
|
> अब आप जानते हैं कि 0 प्रायिकता वाली घटनाएँ होती हैं, और बहुत बार! कम से कम हर बार जब बस आती है!
|
||||||
|
|
||||||
|
हम केवल दिए गए मानों के अंतराल में एक चर के गिरने की प्रायिकता के बारे में बात कर सकते हैं, उदाहरण के लिए। P(t<sub>1</sub>≤X<t<sub>2</sub>)। इस मामले में, प्रायिकता बंटन को **प्रायिकता घनत्व फलन** p(x) द्वारा वर्णित किया जाता है, जैसे कि
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
एकसमान वितरण के एक सतत एनालॉग को **निरंतर वर्दी** कहा जाता है, जिसे एक सीमित अंतराल पर परिभाषित किया जाता है। एक संभावना है कि मान X लंबाई l के अंतराल में आता है l के समानुपाती है, और 1 तक बढ़ जाता है।
|
||||||
|
|
||||||
|
एक अन्य महत्वपूर्ण वितरण **सामान्य वितरण** है, जिसके बारे में हम नीचे विस्तार से बात करेंगे।
|
||||||
|
|
||||||
|
## माध्य, प्रसरण और मानक विचलन
|
||||||
|
मान लीजिए कि हम एक यादृच्छिक चर X के n नमूनों का एक क्रम बनाते हैं: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>। हम पारंपरिक तरीके से अनुक्रम के **माध्य** (या **अंकगणित औसत**) मान को परिभाषित कर सकते हैं (x<sub>1</sub>+x<sub>2</sub>+x<sub >एन</उप>)/एन। जैसे-जैसे हम नमूने का आकार बढ़ाते हैं (अर्थात n&rr;∞ के साथ सीमा लेते हैं), हम वितरण का माध्य (जिसे **अपेक्षा** भी कहते हैं) प्राप्त करेंगे। हम उम्मीद को **E**(x) से निरूपित करेंगे।
|
||||||
|
> यह प्रदर्शित किया जा सकता है कि मूल्यों के साथ किसी भी असतत वितरण के लिए {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} और संबंधित संभावनाएं p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, उम्मीद के बराबर होगा E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
|
||||||
|
|
||||||
|
यह पहचानने के लिए कि मान कितनी दूर तक फैले हुए हैं, हम प्रसरण की गणना कर सकते हैं σ<sup>2</sup> = ∑(x<sub>i</sub> - μ)<sup>2</sup>/ एन, जहां & एमयू; अनुक्रम का माध्य है। मूल्य &सिग्मा; इसे **मानक विचलन** कहा जाता है, और σ<sup>2</sup> को **विचरण** कहा जाता है।
|
||||||
|
|
||||||
|
## बहुलक, माध्यिका और चतुर्थक
|
||||||
|
|
||||||
|
कभी-कभी, माध्य डेटा के लिए "विशिष्ट" मान का पर्याप्त रूप से प्रतिनिधित्व नहीं करता है। उदाहरण के लिए, जब कुछ चरम मान पूरी तरह से सीमा से बाहर होते हैं, तो वे माध्य को प्रभावित कर सकते हैं। एक और अच्छा संकेत एक **माध्य** है, एक मान ऐसा है कि आधा डेटा बिंदु इससे कम है, और दूसरा आधा - अधिक है।
|
||||||
|
|
||||||
|
डेटा के वितरण को समझने में हमारी मदद करने के लिए, **चतुर्थक** के बारे में बात करना मददगार होगा:
|
||||||
|
|
||||||
|
* प्रथम चतुर्थक, या Q1, एक मान है, जैसे कि 25% डेटा इससे नीचे आता है
|
||||||
|
* तीसरा चतुर्थक, या Q3, एक मान है कि 75% डेटा इससे नीचे आता है
|
||||||
|
|
||||||
|
ग्राफिक रूप से हम **बॉक्स प्लॉट** नामक आरेख में माध्यिका और चतुर्थक के बीच संबंध का प्रतिनिधित्व कर सकते हैं:
|
||||||
|
|
||||||
|
<img src="/1-Introduction/04-stats-and-probability/images/boxplot_explanation.png" width="50%"/>
|
||||||
|
|
||||||
|
यहां हम **अंतर-चतुर्थक श्रेणी** IQR=Q3-Q1, और तथाकथित **आउटलेयर** - मानों की भी गणना करते हैं, जो सीमाओं के बाहर होते हैं [Q1-1.5*IQR,Q3+1.5*IQR]।
|
||||||
|
|
||||||
|
परिमित वितरण के लिए जिसमें कम संख्या में संभावित मान होते हैं, एक अच्छा "विशिष्ट" मान वह होता है जो सबसे अधिक बार प्रकट होता है, जिसे **मोड** कहा जाता है। इसे अक्सर रंग जैसे श्रेणीबद्ध डेटा पर लागू किया जाता है। एक ऐसी स्थिति पर विचार करें जब हमारे पास लोगों के दो समूह हों - कुछ जो लाल रंग को अधिक पसंद करते हैं, और अन्य जो नीले रंग को पसंद करते हैं। यदि हम रंगों को संख्याओं के आधार पर कोडित करते हैं, तो पसंदीदा रंग का माध्य मान नारंगी-हरे रंग के स्पेक्ट्रम में कहीं होगा, जो किसी भी समूह पर वास्तविक वरीयता को इंगित नहीं करता है। हालांकि, मोड या तो रंगों में से एक होगा, या दोनों रंग, यदि उनके लिए मतदान करने वाले लोगों की संख्या बराबर है (इस मामले में हम नमूने को **मल्टीमॉडल** कहते हैं)।
|
||||||
|
|
||||||
|
## वास्तविक दुनिया का डेटा
|
||||||
|
|
||||||
|
जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया ह। (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं):
|
||||||
|
|
||||||
|
|
||||||
|
```
|
||||||
|
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
|
||||||
|
```
|
||||||
|
|
||||||
|
> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें।
|
||||||
|
|
||||||
|
हमारे डेटा के लिए माध्य, माध्यिका और चतुर्थक दिखाने वाला बॉक्स प्लॉट यहां दिया गया है:
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
चूंकि हमारे डेटा में अलग-अलग खिलाड़ी **भूमिकाएं** के बारे में जानकारी है, इसलिए हम भूमिका के आधार पर बॉक्स प्लॉट भी कर सकते हैं - यह हमें यह विचार प्राप्त करने की अनुमति देगा कि कैसे पैरामीटर मान भूमिकाओं में भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे:
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
यह आरेख बताता है कि, औसतन, पहले बेसमेन की ऊंचाई दूसरे बेसमेन की ऊंचाई से अधिक होती है। बाद में इस पाठ में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और यह कैसे प्रदर्शित करें कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है।
|
||||||
|
|
||||||
|
> वास्तविक दुनिया के डेटा के साथ काम करते समय, हम मानते हैं कि सभी डेटा बिंदु कुछ संभाव्यता वितरण से लिए गए नमूने हैं। यह धारणा हमें मशीन लर्निंग तकनीकों को लागू करने और कार्यशील भविष्य कहनेवाला मॉडल बनाने की अनुमति देती है।
|
||||||
|
|
||||||
|
यह देखने के लिए कि हमारे डेटा का वितरण क्या है, हम एक ग्राफ बना सकते हैं जिसे **हिस्टोग्राम** कहा जाता है। एक्स-अक्ष में कई अलग-अलग वज़न अंतराल (तथाकथित **बिन्स**) होंगे, और ऊर्ध्वाधर अक्ष दिखाएगा कि हमारा यादृच्छिक चर नमूना किसी दिए गए अंतराल के अंदर कितनी बार था।
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान निश्चित औसत वजन के आसपास केंद्रित होते हैं, और हम उस वजन से जितना आगे जाते हैं - उस मान के कम वजन का सामना करना पड़ता है। यानी, यह बहुत ही असंभव है कि बेसबॉल खिलाड़ी का वजन औसत वजन से बहुत अलग होगा। भार में भिन्नता यह दर्शाती है कि भार किस हद तक माध्य से भिन्न होने की संभावना है।
|
||||||
|
|
||||||
|
> अगर हम बेसबॉल लीग से नहीं, बल्कि अन्य लोगों का वजन लेते हैं, तो वितरण अलग होने की संभावना है। हालाँकि, वितरण का आकार समान होगा, लेकिन माध्य और विचरण बदल जाएगा। इसलिए, यदि हम अपने मॉडल को बेसबॉल खिलाड़ियों पर प्रशिक्षित करते हैं, तो विश्वविद्यालय के छात्रों पर लागू होने पर यह गलत परिणाम देने की संभावना है, क्योंकि अंतर्निहित वितरण अलग है।
|
||||||
|
|
||||||
|
## सामान्य वितरण
|
||||||
|
|
||||||
|
वजन का वितरण जो हमने ऊपर देखा है वह बहुत विशिष्ट है, और वास्तविक दुनिया से कई माप एक ही प्रकार के वितरण का पालन करते हैं, लेकिन अलग-अलग माध्य और भिन्नता के साथ। इस वितरण को **सामान्य वितरण** कहा जाता है, और यह आंकड़ों में बहुत महत्वपूर्ण भूमिका निभाता है।
|
||||||
|
|
||||||
|
सामान्य वितरण का उपयोग करना संभावित बेसबॉल खिलाड़ियों के यादृच्छिक भार उत्पन्न करने का एक सही तरीका है। एक बार जब हम माध्य वजन `माध्य` और मानक विचलन `एसटीडी` जान लेते हैं, तो हम निम्नलिखित तरीके से 1000 वजन के नमूने तैयार कर सकते हैं:
|
||||||
|
```python
|
||||||
|
samples = np.random.normal(mean,std,1000)
|
||||||
|
```
|
||||||
|
|
||||||
|
यदि हम उत्पन्न नमूनों के हिस्टोग्राम की साजिश करते हैं तो हम ऊपर दिखाए गए चित्र के समान ही चित्र देखेंगे। और अगर हम नमूनों की संख्या और डिब्बे की संख्या में वृद्धि करते हैं, तो हम एक सामान्य वितरण की एक तस्वीर उत्पन्न कर सकते हैं जो आदर्श के अधिक करीब है:
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
|
||||||
|
*माध्य = 0 और std.dev=1* के साथ सामान्य वितरण
|
||||||
|
|
||||||
|
## विश्वास अंतराल
|
||||||
|
|
||||||
|
जब हम बेसबॉल खिलाड़ियों के वजन के बारे में बात करते हैं, तो हम मानते हैं कि कुछ निश्चित **यादृच्छिक चर W** है जो सभी बेसबॉल खिलाड़ियों (तथाकथित **जनसंख्या**) के वजन के आदर्श संभाव्यता वितरण से मेल खाती है। वजन का हमारा क्रम सभी बेसबॉल खिलाड़ियों के एक उपसमुच्चय से मेल खाता है जिसे हम **नमूना** कहते हैं। एक दिलचस्प सवाल यह है कि क्या हम डब्ल्यू के वितरण के मापदंडों को जान सकते हैं, यानी जनसंख्या का माध्य और विचरण?
|
||||||
|
|
||||||
|
सबसे आसान उत्तर हमारे नमूने के माध्य और विचरण की गणना करना होगा। हालाँकि, ऐसा हो सकता है कि हमारा यादृच्छिक नमूना पूर्ण जनसंख्या का सटीक रूप से प्रतिनिधित्व नहीं करता है। इस प्रकार **कॉन्फिडेंस इंटरवल** के बारे में बात करना समझ में आता है।
|
||||||
|
|
||||||
|
> **विश्वास अंतराल** हमारे नमूने को देखते हुए जनसंख्या के वास्तविक माध्य का अनुमान है, जो एक निश्चित प्रायिकता (या **विश्वास का स्तर**) सटीक है।
|
||||||
|
|
||||||
|
मान लीजिए हमारे पास हमारे वितरण से एक नमूना X<sub>1</sub>, ..., X<sub>n</sub> है। हर बार जब हम अपने वितरण से एक नमूना लेते हैं, तो हम अलग-अलग माध्य मान के साथ समाप्त होते हैं। इस प्रकार μ एक यादृच्छिक चर माना जा सकता है। एक **विश्वास अंतराल** विश्वास के साथ p मानों की एक जोड़ी है (L<sub>p</sub>,R<sub>p</sub>), जैसे कि **P**(L<sub>p </sub>≤μ≤R<sub>p</sub>) = p, यानी अंतराल के भीतर मापे गए माध्य मान के गिरने की प्रायिकता p के बराबर होती है।
|
||||||
|
|
||||||
|
यह विस्तार से चर्चा करने के लिए हमारे संक्षिप्त परिचय से परे है कि उन आत्मविश्वास अंतराल की गणना कैसे की जाती है। कुछ और विवरण [विकिपीडिया पर](https://en.wikipedia.org/wiki/Confidence_interval) देखे जा सकते हैं। संक्षेप में, हम जनसंख्या के वास्तविक माध्य के सापेक्ष परिकलित नमूना माध्य के वितरण को परिभाषित करते हैं, जिसे **छात्र वितरण** कहा जाता है।
|
||||||
|
|
||||||
|
> **दिलचस्प तथ्य**: छात्र वितरण का नाम गणितज्ञ विलियम सीली गॉसेट के नाम पर रखा गया है, जिन्होंने छद्म नाम "स्टूडेंट" के तहत अपना पेपर प्रकाशित किया था। उन्होंने गिनीज शराब की भठ्ठी में काम किया, और, एक संस्करण के अनुसार, उनके नियोक्ता नहीं चाहते थे कि आम जनता को पता चले कि वे कच्चे माल की गुणवत्ता निर्धारित करने के लिए सांख्यिकीय परीक्षणों का उपयोग कर रहे थे।
|
||||||
|
|
||||||
|
यदि हम माध्य का अनुमान लगाना चाहते हैं μ हमारी जनसंख्या का विश्वास p के साथ, हमें छात्र वितरण A का *(1-p)/2-th प्रतिशत* लेने की आवश्यकता है, जिसे या तो तालिकाओं से लिया जा सकता है, या कंप्यूटर सांख्यिकीय सॉफ़्टवेयर के कुछ अंतर्निहित कार्यों का उपयोग करके (उदाहरण के लिए पायथन, आर, आदि)। फिर अंतराल के लिए μ X±A*D/√n द्वारा दिया जाएगा, जहां X नमूने का प्राप्त माध्य है, D मानक विचलन है।
|
||||||
|
|
||||||
|
> **नोट**: हम [स्वतंत्रता की डिग्री](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) की एक महत्वपूर्ण अवधारणा की चर्चा को भी छोड़ देते हैं, जो छात्र वितरण के संबंध में महत्वपूर्ण है। इस अवधारणा को गहराई से समझने के लिए आप सांख्यिकी पर अधिक संपूर्ण पुस्तकों का उल्लेख कर सकते हैं।
|
||||||
|
|
||||||
|
वजन और ऊंचाई के लिए आत्मविश्वास अंतराल की गणना का एक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में दिया गया है।
|
||||||
|
|
||||||
|
| p | Weight mean |
|
||||||
|
|-----|-----------|
|
||||||
|
| 0.85 | 201.73±0.94 |
|
||||||
|
| 0.90 | 201.73±1.08 |
|
||||||
|
| 0.95 | 201.73±1.28 |
|
||||||
|
|
||||||
|
ध्यान दें कि आत्मविश्वास की संभावना जितनी अधिक होगी, विश्वास अंतराल उतना ही व्यापक होगा।
|
||||||
|
|
||||||
|
## परिकल्पना परीक्षण
|
||||||
|
|
||||||
|
हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) देखें):
|
||||||
|
|
||||||
|
| Role | Height | Weight | Count |
|
||||||
|
|------|--------|--------|-------|
|
||||||
|
| Catcher | 72.723684 | 204.328947 | 76 |
|
||||||
|
| Designated_Hitter | 74.222222 | 220.888889 | 18 |
|
||||||
|
| First_Baseman | 74.000000 | 213.109091 | 55 |
|
||||||
|
| Outfielder | 73.010309 | 199.113402 | 194 |
|
||||||
|
| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
|
||||||
|
| Second_Baseman | 71.362069 | 184.344828 | 58 |
|
||||||
|
| Shortstop | 71.903846 | 182.923077 | 52 |
|
||||||
|
| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
|
||||||
|
| Third_Baseman | 73.044444 | 200.955556 | 45 |
|
||||||
|
|
||||||
|
हम देख सकते हैं कि पहले बेसमेन की औसत ऊंचाई दूसरे बेसमेन की तुलना में अधिक है। इस प्रकार, हम यह निष्कर्ष निकालने के लिए ललचा सकते हैं कि **पहले बेसमेन दूसरे बेसमेन से अधिक हैं**।
|
||||||
|
|
||||||
|
> इस कथन को **एक परिकल्पना** कहा जाता है, क्योंकि हम नहीं जानते कि तथ्य वास्तव में सत्य है या नहीं।
|
||||||
|
|
||||||
|
हालांकि, यह हमेशा स्पष्ट नहीं होता है कि क्या हम यह निष्कर्ष निकाल सकते हैं। ऊपर की चर्चा से हम जानते हैं कि प्रत्येक माध्य का एक संबद्ध विश्वास अंतराल होता है, और इस प्रकार यह अंतर केवल एक सांख्यिकीय त्रुटि हो सकता है। हमें अपनी परिकल्पना का परीक्षण करने के लिए कुछ और औपचारिक तरीके की आवश्यकता है।
|
||||||
|
|
||||||
|
आइए पहले और दूसरे बेसमेन की ऊंचाई के लिए अलग-अलग आत्मविश्वास अंतराल की गणना करें:
|
||||||
|
|
||||||
|
| Confidence | First Basemen | Second Basemen |
|
||||||
|
|------------|---------------|----------------|
|
||||||
|
| 0.85 | 73.62..74.38 | 71.04..71.69 |
|
||||||
|
| 0.90 | 73.56..74.44 | 70.99..71.73 |
|
||||||
|
| 0.95 | 73.47..74.53 | 70.92..71.81 |
|
||||||
|
|
||||||
|
हम देख सकते हैं कि बिना किसी विश्वास के अंतराल ओवरलैप हो जाते हैं। इससे हमारी परिकल्पना सिद्ध होती है कि पहले बेसमेन दूसरे बेसमेन से ऊंचे होते हैं।
|
||||||
|
|
||||||
|
अधिक औपचारिक रूप से, हम जिस समस्या को हल कर रहे हैं वह यह देखना है कि क्या **दो संभाव्यता वितरण समान हैं**, या कम से कम समान पैरामीटर हैं। वितरण के आधार पर, हमें उसके लिए विभिन्न परीक्षणों का उपयोग करने की आवश्यकता है। यदि हम जानते हैं कि हमारे वितरण सामान्य हैं, तो हम **[स्टूडेंट टी-टेस्ट](https://en.wikipedia.org/wiki/Student%27s_t-test)** लागू कर सकते हैं।
|
||||||
|
|
||||||
|
स्टूडेंट टी-टेस्ट में, हम तथाकथित **टी-वैल्यू** की गणना करते हैं, जो भिन्नता को ध्यान में रखते हुए, साधनों के बीच अंतर को इंगित करता है। यह प्रदर्शित किया जाता है कि टी-मान **छात्र वितरण** का अनुसरण करता है, जो हमें दिए गए आत्मविश्वास स्तर **p** के लिए थ्रेशोल्ड मान प्राप्त करने की अनुमति देता है (इसकी गणना की जा सकती है, या संख्यात्मक तालिकाओं में देखा जा सकता है)। फिर हम परिकल्पना को स्वीकृत या अस्वीकार करने के लिए टी-मान की तुलना इस सीमा से करते हैं।
|
||||||
|
|
||||||
|
पायथन में, हम **SciPy** पैकेज का उपयोग कर सकते हैं, जिसमें `ttest_ind` फ़ंक्शन शामिल है (कई अन्य उपयोगी सांख्यिकीय कार्यों के अलावा!)। यह हमारे लिए टी-वैल्यू की गणना करता है, और कॉन्फिडेंस पी-वैल्यू की रिवर्स लुकअप भी करता है, ताकि हम निष्कर्ष निकालने के लिए कॉन्फिडेंस को देख सकें।
|
||||||
|
|
||||||
|
उदाहरण के लिए, पहले और दूसरे बेसमेन की ऊंचाई के बीच हमारी तुलना हमें निम्नलिखित परिणाम देती है:
|
||||||
|
|
||||||
|
```python
|
||||||
|
from scipy.stats import ttest_ind
|
||||||
|
|
||||||
|
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
|
||||||
|
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
|
||||||
|
```
|
||||||
|
```
|
||||||
|
T-value = 7.65
|
||||||
|
P-value: 9.137321189738925e-12
|
||||||
|
```
|
||||||
|
|
||||||
|
हमारे मामले में, पी-वैल्यू बहुत कम है, जिसका अर्थ है कि इस बात का समर्थन करने वाले मजबूत सबूत हैं कि पहले बेसमेन लम्बे होते हैं।
|
||||||
|
|
||||||
|
अन्य विभिन्न प्रकार की परिकल्पनाएँ भी हैं जिनका हम परीक्षण करना चाहते हैं, उदाहरण के लिए:
|
||||||
|
* यह साबित करने के लिए कि दिया गया नमूना कुछ वितरण का अनुसरण करता है। हमारे मामले में हमने मान लिया है कि ऊंचाई सामान्य रूप से वितरित की जाती है, लेकिन इसके लिए औपचारिक सांख्यिकीय सत्यापन की आवश्यकता होती है।
|
||||||
|
* यह सिद्ध करने के लिए कि नमूने का माध्य मान कुछ पूर्वनिर्धारित मान से मेल खाता है
|
||||||
|
* कई नमूनों के साधनों की तुलना करना (उदाहरण के लिए विभिन्न आयु समूहों में खुशी के स्तर में क्या अंतर है)
|
||||||
|
|
||||||
|
## बड़ी संख्या का नियम और केंद्रीय सीमा प्रमेय
|
||||||
|
|
||||||
|
सामान्य वितरण के इतना महत्वपूर्ण होने का एक कारण तथाकथित **केंद्रीय सीमा प्रमेय** है। मान लीजिए कि हमारे पास स्वतंत्र N मानों X<sub>1</sub>, ..., X<sub>N</sub> का एक बड़ा नमूना है, जिसे माध्य μ और विचरण &सिग्मा;<sup>2</sup>. फिर, पर्याप्त रूप से बड़े N के लिए (दूसरे शब्दों में, जब N→∞), माध्य Σ<sub>i</sub>X<sub>i</sub> को सामान्य रूप से माध्य &mu के साथ वितरित किया जाएगा; और विचरण σ<sup>2</sup>/N.
|
||||||
|
|
||||||
|
> केंद्रीय सीमा प्रमेय की व्याख्या करने का एक अन्य तरीका यह कहना है कि वितरण की परवाह किए बिना, जब आप किसी भी यादृच्छिक चर मानों के योग के माध्य की गणना करते हैं तो आप सामान्य वितरण के साथ समाप्त होते हैं।
|
||||||
|
|
||||||
|
केंद्रीय सीमा प्रमेय से यह भी पता चलता है कि, जब N&rar;∞, नमूने के माध्य की प्रायिकता μ बन जाता है 1. इसे **बड़ी संख्या का नियम** कहते हैं।
|
||||||
|
|
||||||
|
## सहप्रसरण और सहसंबंध
|
||||||
|
|
||||||
|
डेटा साइंस द्वारा की जाने वाली चीजों में से एक डेटा के बीच संबंध ढूंढ रहा है। हम कहते हैं कि दो अनुक्रम **सहसम्बन्ध** तब होते हैं जब वे एक ही समय में समान व्यवहार प्रदर्शित करते हैं, अर्थात वे या तो एक साथ उठते/गिरते हैं, या एक क्रम ऊपर उठता है जब दूसरा गिरता है और इसके विपरीत। दूसरे शब्दों में, दो अनुक्रमों के बीच कुछ संबंध प्रतीत होता है।
|
||||||
|
|
||||||
|
> सहसंबंध आवश्यक रूप से दो अनुक्रमों के बीच कारण संबंध को इंगित नहीं करता है; कभी-कभी दोनों चर किसी बाहरी कारण पर निर्भर हो सकते हैं, या यह विशुद्ध रूप से संयोग से दो अनुक्रम सहसंबद्ध हो सकते हैं। हालांकि, मजबूत गणितीय सहसंबंध एक अच्छा संकेत है कि दो चर किसी न किसी तरह से जुड़े हुए हैं।
|
||||||
|
|
||||||
|
गणितीय रूप से, मुख्य अवधारणा जो दो यादृच्छिक चर के बीच संबंध दिखाती है, वह है **सहप्रसरण**, जिसकी गणना इस प्रकार की जाती है: Cov(X,Y) = **E**\[(X-**E**(X) ))(वाई-**ई**(वाई))\]। हम दोनों चरों के विचलन की गणना उनके माध्य मानों से करते हैं, और फिर उन विचलनों के गुणनफल की गणना करते हैं। यदि दोनों चर एक साथ विचलित होते हैं, तो उत्पाद हमेशा एक सकारात्मक मूल्य होगा, जो कि सकारात्मक सहप्रसरण को जोड़ देगा। यदि दोनों चर आउट-ऑफ-सिंक विचलित हो जाते हैं (अर्थात एक औसत से नीचे गिर जाता है जब दूसरा औसत से ऊपर उठता है), तो हमें हमेशा ऋणात्मक संख्याएँ मिलेंगी, जो कि ऋणात्मक सहप्रसरण को जोड़ देंगी। यदि विचलन निर्भर नहीं हैं, तो वे लगभग शून्य तक जोड़ देंगे।
|
||||||
|
|
||||||
|
सहप्रसरण का निरपेक्ष मान हमें यह नहीं बताता कि सहसंबंध कितना बड़ा है, क्योंकि यह वास्तविक मूल्यों के परिमाण पर निर्भर करता है। इसे सामान्य करने के लिए, हम **सहसंबंध** प्राप्त करने के लिए, दोनों चरों के मानक विचलन द्वारा सहप्रसरण को विभाजित कर सकते हैं। अच्छी बात यह है कि सहसंबंध हमेशा [-1,1] की सीमा में होता है, जहां 1 मूल्यों के बीच मजबूत सकारात्मक सहसंबंध को इंगित करता है, -1 - मजबूत नकारात्मक सहसंबंध, और 0 - बिल्कुल भी कोई संबंध नहीं (चर स्वतंत्र हैं)।
|
||||||
|
|
||||||
|
**उदाहरण**: हम ऊपर बताए गए डेटासेट से बेसबॉल खिलाड़ियों के वज़न और ऊंचाई के बीच सहसंबंध की गणना कर सकते हैं:
|
||||||
|
|
||||||
|
```python
|
||||||
|
print(np.corrcoef(weights,heights))
|
||||||
|
```
|
||||||
|
नतीजतन, हमें इस तरह **सहसंबंध मैट्रिक्स** मिलता है:
|
||||||
|
```
|
||||||
|
array([[1. , 0.52959196],
|
||||||
|
[0.52959196, 1. ]])
|
||||||
|
```
|
||||||
|
|
||||||
|
> सहसंबंध मैट्रिक्स C की गणना किसी भी इनपुट अनुक्रम S<sub>1</sub>, ..., S<sub>n</sub> के लिए की जा सकती है। C<sub>ij</sub> का मान S<sub>i</sub> और S<sub>j</sub> के बीच सहसंबंध है, और विकर्ण तत्व हमेशा 1 होते हैं (जो कि स्व-सहसंबंध भी है एस<उप>मैं</sub>)।
|
||||||
|
|
||||||
|
हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वजन और ऊंचाई के बीच कुछ संबंध है। हम रिश्ते को देखने के लिए दूसरे के खिलाफ एक मूल्य का स्कैटर प्लॉट भी बना सकते हैं:
|
||||||
|
|
||||||
|

|
||||||
|
|
||||||
|
> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में पाए जा सकते हैं।
|
||||||
|
|
||||||
|
## निष्कर्ष
|
||||||
|
|
||||||
|
इस भाग में हमने सीखा है:
|
||||||
|
|
||||||
|
* डेटा के बुनियादी सांख्यिकीय गुण, जैसे माध्य, विचरण, मोड और चतुर्थक
|
||||||
|
* सामान्य वितरण सहित यादृच्छिक चर के विभिन्न वितरण
|
||||||
|
* विभिन्न गुणों के बीच सहसंबंध कैसे खोजें
|
||||||
|
* कुछ परिकल्पनाओं को सिद्ध करने के लिए गणित और सांख्यिकी के ध्वनि उपकरण का उपयोग कैसे करें,
|
||||||
|
* यादृच्छिक चर दिए गए डेटा नमूने के लिए विश्वास अंतराल की गणना कैसे करें
|
||||||
|
|
||||||
|
हालांकि यह निश्चित रूप से उन विषयों की संपूर्ण सूची नहीं है जो संभाव्यता और आंकड़ों के भीतर मौजूद हैं, यह आपको इस पाठ्यक्रम में एक अच्छी शुरुआत देने के लिए पर्याप्त होना चाहिए।
|
||||||
|
|
||||||
|
## चुनौती
|
||||||
|
|
||||||
|
अन्य परिकल्पना का परीक्षण करने के लिए नोटबुक में नमूना कोड का उपयोग करें जो:
|
||||||
|
1. पहले बेसमेन दूसरे बेसमेन से बड़े होते हैं
|
||||||
|
2. पहले बेसमेन तीसरे बेसमेन से लम्बे होते हैं
|
||||||
|
3. शॉर्टस्टॉप दूसरे बेसमेन से लम्बे होते हैं
|
||||||
|
|
||||||
|
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/7)
|
||||||
|
|
||||||
|
## समीक्षा और आत्म अध्ययन
|
||||||
|
|
||||||
|
संभाव्यता और सांख्यिकी इतना व्यापक विषय है कि यह अपने पाठ्यक्रम के योग्य है। यदि आप सिद्धांत में गहराई तक जाने में रुचि रखते हैं, तो आप निम्नलिखित में से कुछ पुस्तकों को पढ़ना जारी रख सकते हैं:
|
||||||
|
|
||||||
|
1. न्यूयॉर्क विश्वविद्यालय के [कार्लोस फर्नांडीज-ग्रांडा](https://cims.nyu.edu/~cfgranda/) के पास डेटा साइंस के लिए [संभाव्यता और सांख्यिकी](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ऑनलाइन उपलब्ध) के लिए महान व्याख्यान नोट्स हैं।
|
||||||
|
1. [पीटर और एंड्रयू ब्रूस। डेटा वैज्ञानिकों के लिए व्यावहारिक सांख्यिकी](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) । [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
|
||||||
|
1. [जेम्स डी. मिलर। डेटा विज्ञान के लिए सांख्यिकी](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
|
||||||
|
|
||||||
|
## कार्यभार
|
||||||
|
|
||||||
|
[लघु मधुमेह अध्ययन](assignment.hi.md)
|
||||||
|
|
||||||
|
## क्रेडिट
|
||||||
|
|
||||||
|
यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है।
|
@ -0,0 +1,25 @@
|
|||||||
|
# लघु मधुमेह अध्ययन
|
||||||
|
इस असाइनमेंट में, हम [यहाँ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) से लिए गए मधुमेह रोगियों के एक छोटे डेटासेट के साथ काम करेंगे।
|
||||||
|
|
||||||
|
| | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y |
|
||||||
|
|---|-----|-----|-----|----|----|----|----|----|----|----|----|
|
||||||
|
| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
|
||||||
|
| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
|
||||||
|
| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
|
||||||
|
| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
|
||||||
|
|
||||||
|
## निर्देश
|
||||||
|
|
||||||
|
* ज्यूपिटर नोटबुक वातावरण में [असाइनमेंट नोटबुक] (असाइनमेंट.आईपीएनबी) खोलें
|
||||||
|
* नोटबुक में सूचीबद्ध सभी कार्यों को पूरा करें, अर्थात्:
|
||||||
|
* [ ] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें
|
||||||
|
* [ ] लिंग के आधार पर बीएमआई, बीपी और वाई के लिए प्लॉट बॉक्सप्लॉट
|
||||||
|
* [ ] आयु, लिंग, बीएमआई और वाई चर का वितरण क्या है?
|
||||||
|
* [ ] विभिन्न चर और रोग प्रगति के बीच सहसंबंध का परीक्षण करें (Y)
|
||||||
|
* [ ] इस परिकल्पना का परीक्षण करें कि पुरुषों और महिलाओं के बीच मधुमेह की प्रगति की डिग्री अलग है
|
||||||
|
|
||||||
|
## सरनामा
|
||||||
|
|
||||||
|
अनुकरणीय | पर्याप्त | सुधार की जरूरत
|
||||||
|
--- | --- | -- |
|
||||||
|
सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है
|
@ -0,0 +1,179 @@
|
|||||||
|
# डेटा के साथ कार्य करना: संबंधपरक डेटाबेस
|
||||||
|
|
||||||
|
| ](/sketchnotes/05-RelationalData.png)|
|
||||||
|
|:---:|
|
||||||
|
| डेटा के साथ कार्य करना: संबंधपरक डेटाबेस - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
||||||
|
|
||||||
|
संभावना है कि आपने जानकारी संग्रहीत करने के लिए अतीत में एक स्प्रेडशीट का उपयोग किया है। आपके पास पंक्तियों और स्तंभों का एक सेट था, जहाँ पंक्तियों में जानकारी (या डेटा) होती थी, और स्तंभों में जानकारी (कभी-कभी मेटाडेटा कहा जाता है) का वर्णन होता था। तालिकाओं में स्तंभों और पंक्तियों के इस मूल सिद्धांत पर एक संबंधपरक डेटाबेस बनाया गया है, जिससे आप कई तालिकाओं में जानकारी फैला सकते हैं। इससे आप अधिक जटिल डेटा के साथ काम कर सकते हैं, दोहराव से बच सकते हैं, और डेटा को एक्सप्लोर करने के तरीके में लचीलापन रख सकते हैं। आइए एक रिलेशनल डेटाबेस की अवधारणाओं का पता लगाएं।
|
||||||
|
|
||||||
|
## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8)
|
||||||
|
|
||||||
|
## यह सब टेबल से शुरू होता है
|
||||||
|
|
||||||
|
एक रिलेशनल डेटाबेस में इसकी कोर टेबल होती है। स्प्रैडशीट की तरह ही, तालिका स्तंभों और पंक्तियों का एक संग्रह है। पंक्ति में वह डेटा या जानकारी होती है जिसके साथ हम काम करना चाहते हैं, जैसे किसी शहर का नाम या वर्षा की मात्रा। कॉलम उनके द्वारा संग्रहीत डेटा का वर्णन करते हैं।
|
||||||
|
|
||||||
|
आइए शहरों के बारे में जानकारी संग्रहीत करने के लिए एक तालिका शुरू करके अपनी खोज शुरू करें। हम उनके नाम और देश से शुरुआत कर सकते हैं। आप इसे एक टेबल में इस प्रकार स्टोर कर सकते हैं:
|
||||||
|
|
||||||
|
| City | Country |
|
||||||
|
| -------- | ------------- |
|
||||||
|
| Tokyo | Japan |
|
||||||
|
| Atlanta | United States |
|
||||||
|
| Auckland | New Zealand |
|
||||||
|
|
||||||
|
ध्यान दें कि **शहर**, **देश** और **जनसंख्या** के कॉलम नाम संग्रहीत किए जा रहे डेटा का वर्णन करते हैं, और प्रत्येक पंक्ति में एक शहर के बारे में जानकारी होती है।
|
||||||
|
|
||||||
|
## सिंगल टेबल अप्रोच की कमियां
|
||||||
|
|
||||||
|
संभावना है, ऊपर दी गई तालिका आपको अपेक्षाकृत परिचित लगती है। आइए अपने बढ़ते डेटाबेस में कुछ अतिरिक्त डेटा जोड़ना शुरू करें - वार्षिक वर्षा (मिलीमीटर में)। हम वर्ष 2018, 2019 और 2020 पर ध्यान केंद्रित करेंगे। अगर हम इसे टोक्यो के लिए जोड़ते हैं, तो यह कुछ इस तरह दिख सकता है:
|
||||||
|
|
||||||
|
| City | Country | Year | Amount |
|
||||||
|
| ----- | ------- | ---- | ------ |
|
||||||
|
| Tokyo | Japan | 2020 | 1690 |
|
||||||
|
| Tokyo | Japan | 2019 | 1874 |
|
||||||
|
| Tokyo | Japan | 2018 | 1445 |
|
||||||
|
|
||||||
|
आप हमारी तालिका के बारे में क्या देखते हैं? आप देख सकते हैं कि हम शहर के नाम और देश को बार-बार दोहरा रहे हैं। इसमें काफी स्टोरेज लग सकता है, और इसकी कई प्रतियां रखने के लिए काफी हद तक अनावश्यक है। आखिरकार, टोक्यो का केवल एक ही नाम है जिसमें हम रुचि रखते हैं।
|
||||||
|
|
||||||
|
ठीक है, चलो कुछ और कोशिश करते हैं। आइए प्रत्येक वर्ष के लिए नए कॉलम जोड़ें:
|
||||||
|
|
||||||
|
| City | Country | 2018 | 2019 | 2020 |
|
||||||
|
| -------- | ------------- | ---- | ---- | ---- |
|
||||||
|
| Tokyo | Japan | 1445 | 1874 | 1690 |
|
||||||
|
| Atlanta | United States | 1779 | 1111 | 1683 |
|
||||||
|
| Auckland | New Zealand | 1386 | 942 | 1176 |
|
||||||
|
|
||||||
|
हालांकि यह पंक्ति दोहराव से बचा जाता है, लेकिन यह कुछ अन्य चुनौतियों को भी जोड़ता है। हर बार नया साल आने पर हमें अपनी तालिका की संरचना को संशोधित करने की आवश्यकता होगी। इसके अतिरिक्त, जैसे-जैसे हमारा डेटा बढ़ता है, वैसे-वैसे हमारे वर्षों में कॉलम के रूप में मूल्यों को पुनः प्राप्त करना और गणना करना मुश्किल हो जाएगा।
|
||||||
|
|
||||||
|
यही कारण है कि हमें कई तालिकाओं और संबंधों की आवश्यकता है। अपने डेटा को अलग करके हम दोहराव से बच सकते हैं और हम अपने डेटा के साथ काम करने के तरीके में अधिक लचीलापन रखते हैं।
|
||||||
|
|
||||||
|
## रिश्तों की अवधारणा
|
||||||
|
|
||||||
|
आइए अपने डेटा पर वापस लौटें और निर्धारित करें कि हम चीजों को कैसे विभाजित करना चाहते हैं। हम जानते हैं कि हम अपने शहरों के लिए नाम और देश को संग्रहित करना चाहते हैं, इसलिए यह शायद एक टेबल में सबसे अच्छा काम करेगा।
|
||||||
|
|
||||||
|
| City | Country |
|
||||||
|
| -------- | ------------- |
|
||||||
|
| Tokyo | Japan |
|
||||||
|
| Atlanta | United States |
|
||||||
|
| Auckland | New Zealand |
|
||||||
|
|
||||||
|
लेकिन इससे पहले कि हम अगली तालिका बनाएं, हमें यह पता लगाना होगा कि प्रत्येक शहर को कैसे संदर्भित किया जाए। हमें किसी पहचानकर्ता, आईडी या (तकनीकी डेटाबेस के संदर्भ में) प्राथमिक कुंजी की आवश्यकता है। प्राथमिक कुंजी एक मान है जिसका उपयोग किसी तालिका में एक विशिष्ट पंक्ति की पहचान करने के लिए किया जाता है। हालांकि यह स्वयं एक मूल्य पर आधारित हो सकता है (उदाहरण के लिए, हम शहर के नाम का उपयोग कर सकते हैं), यह लगभग हमेशा एक संख्या या अन्य पहचानकर्ता होना चाहिए। हम नहीं चाहते कि आईडी कभी बदले क्योंकि इससे रिश्ता टूट जाएगा। आप ज्यादातर मामलों में पाएंगे कि प्राथमिक कुंजी या आईडी एक स्वतः उत्पन्न संख्या होगी।
|
||||||
|
|
||||||
|
> प्राथमिक कुंजी को अक्सर पीके के रूप में संक्षिप्त किया जाता है
|
||||||
|
|
||||||
|
### शहरों
|
||||||
|
|
||||||
|
| city_id | City | Country |
|
||||||
|
| ------- | -------- | ------------- |
|
||||||
|
| 1 | Tokyo | Japan |
|
||||||
|
| 2 | Atlanta | United States |
|
||||||
|
| 3 | Auckland | New Zealand |
|
||||||
|
|
||||||
|
> ✅ आप देखेंगे कि हम इस पाठ के दौरान "आईडी" और "प्राथमिक कुंजी" शब्दों का परस्पर उपयोग करते हैं। यहाँ की अवधारणाएँ DataFrames पर लागू होती हैं, जिन्हें आप बाद में एक्सप्लोर करेंगे। डेटाफ़्रेम "प्राथमिक कुंजी" की शब्दावली का उपयोग नहीं करते हैं, हालांकि आप देखेंगे कि वे उसी तरह से बहुत अधिक व्यवहार करते हैं।
|
||||||
|
|
||||||
|
हमारे शहरों की तालिका बनाने के साथ, आइए वर्षा को संग्रहित करें। हम शहर के बारे में पूरी जानकारी की नकल करने के बजाय आईडी का उपयोग कर सकते हैं। हमें यह भी सुनिश्चित करना चाहिए कि नई बनाई गई तालिका में एक *id* कॉलम भी हो, क्योंकि सभी तालिकाओं में एक आईडी या प्राथमिक कुंजी होनी चाहिए।
|
||||||
|
|
||||||
|
### बारिश
|
||||||
|
|
||||||
|
| rainfall_id | city_id | Year | Amount |
|
||||||
|
| ----------- | ------- | ---- | ------ |
|
||||||
|
| 1 | 1 | 2018 | 1445 |
|
||||||
|
| 2 | 1 | 2019 | 1874 |
|
||||||
|
| 3 | 1 | 2020 | 1690 |
|
||||||
|
| 4 | 2 | 2018 | 1779 |
|
||||||
|
| 5 | 2 | 2019 | 1111 |
|
||||||
|
| 6 | 2 | 2020 | 1683 |
|
||||||
|
| 7 | 3 | 2018 | 1386 |
|
||||||
|
| 8 | 3 | 2019 | 942 |
|
||||||
|
| 9 | 3 | 2020 | 1176 |
|
||||||
|
|
||||||
|
नव निर्मित **वर्षा** तालिका के अंदर **city_id** कॉलम पर ध्यान दें। इस कॉलम में वे मान हैं जो **शहरों** तालिका में आईडी का संदर्भ देते हैं। तकनीकी संबंधपरक डेटा के संदर्भ में, इसे **विदेशी कुंजी** कहा जाता है; यह किसी अन्य तालिका से प्राथमिक कुंजी है। आप इसे केवल एक संदर्भ या सूचक के रूप में सोच सकते हैं। **सिटी_आईडी** 1 संदर्भ टोक्यो।
|
||||||
|
|
||||||
|
> [!नोट] विदेशी कुंजी को अक्सर FK . के रूप में संक्षिप्त किया जाता है
|
||||||
|
|
||||||
|
## डेटा पुनर्प्राप्त करना
|
||||||
|
|
||||||
|
हमारे डेटा को दो तालिकाओं में विभाजित करके, आप सोच रहे होंगे कि हम इसे कैसे पुनः प्राप्त करते हैं। यदि हम एक रिलेशनल डेटाबेस जैसे MySQL, SQL सर्वर या Oracle का उपयोग कर रहे हैं, तो हम स्ट्रक्चर्ड क्वेरी लैंग्वेज या SQL नामक भाषा का उपयोग कर सकते हैं। SQL (कभी-कभी उच्चारित अगली कड़ी) एक मानक भाषा है जिसका उपयोग रिलेशनल डेटाबेस में डेटा को पुनः प्राप्त करने और संशोधित करने के लिए किया जाता है।
|
||||||
|
|
||||||
|
डेटा पुनर्प्राप्त करने के लिए आप `SELECT` कमांड का उपयोग करते हैं। इसके मूल में, आप उन स्तंभों को **चुनते हैं जिन्हें आप देखना चाहते हैं **से** उस तालिका में जिसमें वे शामिल हैं। यदि आप केवल शहरों के नाम प्रदर्शित करना चाहते हैं, तो आप निम्न का उपयोग कर सकते हैं:
|
||||||
|
|
||||||
|
```sql
|
||||||
|
SELECT city
|
||||||
|
FROM cities;
|
||||||
|
|
||||||
|
-- Output:
|
||||||
|
-- Tokyo
|
||||||
|
-- Atlanta
|
||||||
|
-- Auckland
|
||||||
|
```
|
||||||
|
|
||||||
|
`चयन` वह जगह है जहां आप कॉलम सूचीबद्ध करते हैं, और `से` वह जगह है जहां आप टेबल सूचीबद्ध करते हैं।
|
||||||
|
|
||||||
|
> [नोट] SQL सिंटैक्स केस-असंवेदनशील है, जिसका अर्थ है `चुनें` और `चयन` का मतलब एक ही है। हालाँकि, आप जिस प्रकार के डेटाबेस का उपयोग कर रहे हैं उसके आधार पर कॉलम और टेबल केस संवेदनशील हो सकते हैं। नतीजतन, प्रोग्रामिंग में हर चीज को हमेशा केस संवेदी की तरह व्यवहार करना सबसे अच्छा अभ्यास है। SQL क्वेरी लिखते समय सामान्य परंपरा यह है कि कीवर्ड को सभी अपर-केस अक्षरों में रखा जाए।
|
||||||
|
|
||||||
|
उपरोक्त क्वेरी सभी शहरों को प्रदर्शित करेगी। आइए कल्पना करें कि हम केवल न्यूजीलैंड में शहरों को प्रदर्शित करना चाहते थे। हमें किसी प्रकार के फ़िल्टर की आवश्यकता है। इसके लिए SQL कीवर्ड `WHERE` या "जहां कुछ सच है" है।
|
||||||
|
|
||||||
|
```sql
|
||||||
|
SELECT city
|
||||||
|
FROM cities
|
||||||
|
WHERE country = 'New Zealand';
|
||||||
|
|
||||||
|
-- Output:
|
||||||
|
-- Auckland
|
||||||
|
```
|
||||||
|
|
||||||
|
## डेटा में शामिल होना
|
||||||
|
|
||||||
|
अब तक हमने एक ही टेबल से डेटा रिकवर किया है। अब हम **शहरों** और **वर्षा** दोनों के डेटा को एक साथ लाना चाहते हैं। यह उन्हें एक साथ *शामिल करके* किया जाता है। आप प्रभावी रूप से दो तालिकाओं के बीच एक सीम बनाएंगे, और प्रत्येक तालिका से एक कॉलम के मानों का मिलान करेंगे।
|
||||||
|
|
||||||
|
हमारे उदाहरण में, हम **वर्षा** में **शहर_आईडी** कॉलम का मिलान **शहरों** में **शहर_आईडी** कॉलम से करेंगे। यह अपने संबंधित शहर के साथ वर्षा मूल्य से मेल खाएगा। हम जिस प्रकार के जॉइन करेंगे, उसे *इनर* जॉइन कहा जाता है, जिसका अर्थ है कि यदि कोई पंक्तियाँ दूसरी टेबल की किसी भी चीज़ से मेल नहीं खाती हैं तो वे प्रदर्शित नहीं होंगी। हमारे मामले में हर शहर में बारिश होती है, इसलिए सब कुछ प्रदर्शित किया जाएगा।
|
||||||
|
|
||||||
|
आइए हमारे सभी शहरों के लिए 2019 की वर्षा को पुनः प्राप्त करें।
|
||||||
|
|
||||||
|
हम इसे चरणों में करने जा रहे हैं। पहला कदम सीम के लिए कॉलम को इंगित करके डेटा को एक साथ जोड़ना है - **city_id** जैसा कि पहले हाइलाइट किया गया था।
|
||||||
|
|
||||||
|
```sql
|
||||||
|
SELECT cities.city
|
||||||
|
rainfall.amount
|
||||||
|
FROM cities
|
||||||
|
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
|
||||||
|
```
|
||||||
|
|
||||||
|
हमने उन दो कॉलमों को हाइलाइट किया है जो हम चाहते हैं, और तथ्य यह है कि हम टेबल्स को **city_id** द्वारा एक साथ जोड़ना चाहते हैं। अब हम केवल वर्ष 2019 को फ़िल्टर करने के लिए `WHERE` स्टेटमेंट जोड़ सकते हैं।
|
||||||
|
|
||||||
|
```sql
|
||||||
|
SELECT cities.city
|
||||||
|
rainfall.amount
|
||||||
|
FROM cities
|
||||||
|
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
|
||||||
|
WHERE rainfall.year = 2019
|
||||||
|
|
||||||
|
-- Output
|
||||||
|
|
||||||
|
-- city | amount
|
||||||
|
-- -------- | ------
|
||||||
|
-- Tokyo | 1874
|
||||||
|
-- Atlanta | 1111
|
||||||
|
-- Auckland | 942
|
||||||
|
```
|
||||||
|
|
||||||
|
## सारांश
|
||||||
|
|
||||||
|
रिलेशनल डेटाबेस कई तालिकाओं के बीच सूचनाओं को विभाजित करने के आसपास केंद्रित होते हैं जिन्हें बाद में प्रदर्शन और विश्लेषण के लिए एक साथ लाया जाता है। यह गणना करने और अन्यथा डेटा में हेरफेर करने के लिए उच्च स्तर की लचीलापन प्रदान करता है। आपने रिलेशनल डेटाबेस की मूल अवधारणाओं को देखा है, और दो तालिकाओं के बीच जुड़ने का तरीका देखा है।
|
||||||
|
|
||||||
|
## चुनौती
|
||||||
|
|
||||||
|
इंटरनेट पर कई रिलेशनल डेटाबेस उपलब्ध हैं। आप ऊपर सीखे गए कौशल का उपयोग करके डेटा का पता लगा सकते हैं।
|
||||||
|
|
||||||
|
## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9)
|
||||||
|
|
||||||
|
## समीक्षा और आत्म अध्ययन
|
||||||
|
|
||||||
|
आपके लिए SQL और रिलेशनल डेटाबेस अवधारणाओं की खोज जारी रखने के लिए [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa) पर कई संसाधन उपलब्ध हैं
|
||||||
|
|
||||||
|
- [संबंधपरक डेटा की अवधारणाओं का वर्णन करें](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa)
|
||||||
|
- [Transact-SQL के साथ क्वेरी करना प्रारंभ करें](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (ट्रांजैक्ट-एसक्यूएल एसक्यूएल का एक संस्करण है)
|
||||||
|
- [Microsoft पर SQL सामग्री जानें](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa)
|
||||||
|
|
||||||
|
## कार्यभार
|
||||||
|
|
||||||
|
[असाइनमेंट शीर्षक](assignment.hi.md)
|
@ -0,0 +1,59 @@
|
|||||||
|
# हवाईअड्डा डेटा प्रदर्शित करना
|
||||||
|
|
||||||
|
आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.visualstudio.com/) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-40229-cxa) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए।
|
||||||
|
|
||||||
|
## निर्देश
|
||||||
|
|
||||||
|
असाइनमेंट के साथ आरंभ करने के लिए, आपको कुछ चरणों का पालन करना होगा। आपको कुछ टूलींग स्थापित करने और नमूना डेटाबेस डाउनलोड करने की आवश्यकता होगी।
|
||||||
|
|
||||||
|
### अपना सिस्टम सेटअप करें
|
||||||
|
|
||||||
|
आप डेटाबेस के साथ इंटरैक्ट करने के लिए विजुअल स्टूडियो कोड और SQLite एक्सटेंशन का उपयोग कर सकते हैं।
|
||||||
|
|
||||||
|
1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-40229-cxa) पर नेविगेट करें और विजुअल स्टूडियो कोड इंस्टॉल करने के लिए निर्देशों का पालन करें
|
||||||
|
1. मार्केटप्लेस पेज पर दिए निर्देशों के अनुसार [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) एक्सटेंशन इंस्टॉल करें
|
||||||
|
|
||||||
|
### डेटाबेस डाउनलोड करें और खोलें
|
||||||
|
|
||||||
|
इसके बाद आप एक ओपन डेटाबेस डाउनलोड करेंगे।
|
||||||
|
|
||||||
|
1. [GitHub से डेटाबेस फ़ाइल](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) डाउनलोड करें और इसे एक निर्देशिका में सहेजें
|
||||||
|
1. विजुअल स्टूडियो कोड खोलें
|
||||||
|
1. SQLite एक्सटेंशन में डेटाबेस को **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) चुनकर और `SQLite: Open database` टाइप करके खोलें।
|
||||||
|
1. **फ़ाइल से डेटाबेस चुनें** चुनें और **airports.db** फ़ाइल खोलें जिसे आपने पहले डाउनलोड किया था
|
||||||
|
1. डेटाबेस खोलने के बाद (आप स्क्रीन पर अपडेट नहीं देखेंगे), **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) का चयन करके एक नई क्वेरी विंडो बनाएं। और `SQLite: new query` टाइप करना
|
||||||
|
|
||||||
|
एक बार खुलने के बाद, नई क्वेरी विंडो का उपयोग डेटाबेस के विरुद्ध SQL कथन चलाने के लिए किया जा सकता है। डेटाबेस के विरुद्ध क्वेरी चलाने के लिए आप **Ctl-Shift-Q** (या मैक पर **Cmd-Shift-Q**) कमांड का उपयोग कर सकते हैं।
|
||||||
|
|
||||||
|
> [!नोट] SQLite एक्सटेंशन के बारे में अधिक जानकारी के लिए, आप [दस्तावेज़ीकरण](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) से परामर्श कर सकते हैं।
|
||||||
|
|
||||||
|
## डेटाबेस स्कीमा
|
||||||
|
|
||||||
|
एक डेटाबेस की स्कीमा इसकी टेबल डिजाइन और संरचना है। **airports** डेटाबेस दो तालिकाओं के रूप में, `cities`, जिसमें यूनाइटेड किंगडम और आयरलैंड के शहरों की सूची है, और `airports`, जिसमें सभी हवाई अड्डों की सूची है। क्योंकि कुछ शहरों में कई हवाई अड्डे हो सकते हैं, जानकारी संग्रहीत करने के लिए दो टेबल बनाए गए थे। इस अभ्यास में आप विभिन्न शहरों की जानकारी प्रदर्शित करने के लिए जॉइन का उपयोग करेंगे।
|
||||||
|
|
||||||
|
| Cities |
|
||||||
|
| ---------------- |
|
||||||
|
| id (PK, integer) |
|
||||||
|
| city (text) |
|
||||||
|
| country (text) |
|
||||||
|
|
||||||
|
| Airports |
|
||||||
|
| -------------------------------- |
|
||||||
|
| id (PK, integer) |
|
||||||
|
| name (text) |
|
||||||
|
| code (text) |
|
||||||
|
| city_id (FK to id in **Cities**) |
|
||||||
|
|
||||||
|
## कार्यभार
|
||||||
|
|
||||||
|
निम्नलिखित जानकारी वापस करने के लिए प्रश्न बनाएं:
|
||||||
|
|
||||||
|
1. `Cities` तालिका में सभी शहर के नाम
|
||||||
|
1. आयरलैंड के सभी शहर `Cities` तालिका . में
|
||||||
|
1. सभी हवाई अड्डों के नाम उनके शहर और देश के साथ
|
||||||
|
1. लंदन, यूनाइटेड किंगडम में सभी हवाई अड्डे
|
||||||
|
|
||||||
|
## रूब्रिक
|
||||||
|
|
||||||
|
| अनुकरणीय | पर्याप्त | सुधार की जरूरत |
|
||||||
|
| --------- | -------- | ----------------- |
|
Loading…
Reference in new issue