You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ne/1-Introduction/04-stats-and-probability/README.md

276 lines
50 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "b706a07cfa87ba091cbb91e0aa775600",
"translation_date": "2025-08-27T17:23:13+00:00",
"source_file": "1-Introduction/04-stats-and-probability/README.md",
"language_code": "ne"
}
-->
# तथ्यांक र सम्भाव्यता: संक्षिप्त परिचय
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/04-Statistics-Probability.png)|
|:---:|
| तथ्यांक र सम्भाव्यता - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
तथ्यांक र सम्भाव्यता सिद्धान्त गणितका दुई अत्यन्त सम्बन्धित क्षेत्रहरू हुन्, जुन डेटा विज्ञानका लागि अत्यन्त महत्त्वपूर्ण छन्। गहिरो गणितीय ज्ञान बिना पनि डेटा प्रयोग गर्न सकिन्छ, तर कम्तीमा केही आधारभूत अवधारणाहरू थाहा हुनु राम्रो हुन्छ। यहाँ हामी तपाईंलाई सुरु गर्न मद्दत गर्ने छोटो परिचय प्रस्तुत गर्नेछौं।
[![Intro Video](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.ne.png)](https://youtu.be/Z5Zy85g4Yjw)
## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6)
## सम्भाव्यता र र्‍यान्डम भेरिएबलहरू
**सम्भाव्यता** र १ को बीचको संख्या हो, जसले कुनै **घटना** कति सम्भाव्य छ भन्ने व्यक्त गर्दछ। यो सकारात्मक परिणामहरूको संख्या (जसले घटनालाई निम्त्याउँछ) लाई कुल परिणामहरूको संख्याले भाग गरेर परिभाषित गरिन्छ, यदि सबै परिणामहरू समान सम्भाव्य छन् भने। उदाहरणका लागि, जब हामी पासा फाल्छौं, सम संख्या आउने सम्भाव्यता 3/6 = 0.5 हुन्छ।
जब हामी घटनाहरूको कुरा गर्छौं, हामी **र्‍यान्डम भेरिएबलहरू** प्रयोग गर्छौं। उदाहरणका लागि, पासा फाल्दा प्राप्त हुने संख्यालाई प्रतिनिधित्व गर्ने र्‍यान्डम भेरिएबलले १ देखि ६ सम्मका मानहरू लिन्छ। १ देखि ६ सम्मको संख्याको सेटलाई **नमूना स्थान** भनिन्छ। हामी र्‍यान्डम भेरिएबलले कुनै निश्चित मान लिने सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(X=3)=1/6।
अघिल्लो उदाहरणमा रहेको र्‍यान्डम भेरिएबललाई **डिस्क्रिट** भनिन्छ, किनभने यससँग गणनायोग्य नमूना स्थान छ, अर्थात् छुट्टाछुट्टै मानहरू छन् जसलाई गन्न सकिन्छ। केही अवस्थामा नमूना स्थान वास्तविक संख्याहरूको दायरा वा सम्पूर्ण वास्तविक संख्याहरूको सेट हुन सक्छ। यस्ता भेरिएबलहरूलाई **कन्टिन्युअस** भनिन्छ। यसको राम्रो उदाहरण बस आउने समय हो।
## सम्भाव्यता वितरण
डिस्क्रिट र्‍यान्डम भेरिएबलहरूको सन्दर्भमा, प्रत्येक घटनाको सम्भाव्यता P(X) नामक कार्यद्वारा वर्णन गर्न सजिलो हुन्छ। नमूना स्थान *S* बाट प्रत्येक मान *s* का लागि, यसले देखि १ सम्मको संख्या दिन्छ, जसमा सबै घटनाहरूको लागि P(X=s) को कुल योग १ हुन्छ।
सबैभन्दा प्रख्यात डिस्क्रिट वितरण **यूनिफर्म वितरण** हो, जसमा N तत्वहरूको नमूना स्थान हुन्छ, र प्रत्येकको सम्भाव्यता 1/N हुन्छ।
कन्टिन्युअस भेरिएबलको सम्भाव्यता वितरण वर्णन गर्न अलि गाह्रो हुन्छ, जसका मानहरू [a,b] अन्तराल वा सम्पूर्ण वास्तविक संख्याहरू बाट लिइन्छ। बस आउने समयको उदाहरणलाई विचार गर्नुहोस्। वास्तवमा, कुनै निश्चित समय *t* मा बस ठीक त्यही समयमा आउने सम्भाव्यता हुन्छ!
> अब तपाईंलाई थाहा भयो कि सम्भाव्यता भएका घटनाहरू पनि हुन्छन्, र धेरैपटक हुन्छन्! कम्तीमा बस आउने प्रत्येक पटक!
हामी केवल कुनै भेरिएबलले कुनै निश्चित मानहरूको अन्तरालमा पर्ने सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(t<sub>1</sub>≤X<t<sub>2</sub>)। यस अवस्थामा, सम्भाव्यता वितरणलाई **सम्भाव्यता घनत्व कार्य** p(x) द्वारा वर्णन गरिन्छ, जसले
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.ne.png)
कन्टिन्युअस यूनिफर्म वितरणको निरन्तर संस्करण **कन्टिन्युअस यूनिफर्म** हो, जुन सीमित अन्तरालमा परिभाषित हुन्छ। मान X ले लम्बाइ l को अन्तरालमा पर्ने सम्भाव्यता l को अनुपातमा हुन्छ, र १ सम्म बढ्छ।
अर्को महत्त्वपूर्ण वितरण **नर्मल वितरण** हो, जसको बारेमा हामी तल थप विवरणमा कुरा गर्नेछौं।
## औसत, भिन्नता र मानक विचलन
मानौं हामीले र्‍यान्डम भेरिएबल X का n नमूनाहरूको क्रम निकाल्यौं: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>। हामी परम्परागत तरिकाले औसत (वा **अंकगणितीय औसत**) मानलाई (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n को रूपमा परिभाषित गर्न सक्छौं। जब हामी नमूनाको आकार बढाउँछौं (अर्थात् n→∞ को सीमा लिन्छौं), हामी वितरणको औसत (जसलाई **अपेक्षा** पनि भनिन्छ) प्राप्त गर्नेछौं। हामी अपेक्षालाई **E**(x) द्वारा जनाउनेछौं।
> यो देखाउन सकिन्छ कि कुनै पनि डिस्क्रिट वितरणका लागि, जसमा मानहरू {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} र तिनीहरूको सम्भाव्यता p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub> छन्, अपेक्षा E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub> बराबर हुनेछ।
मानहरू कति फैलिएका छन् भनेर पत्ता लगाउन, हामी भिन्नता σ<sup>2</sup> = ∑(x<sub>i</sub> - μ)<sup>2</sup>/n गणना गर्न सक्छौं, जहाँ μ अनुक्रमको औसत हो। मान σ लाई **मानक विचलन** भनिन्छ, र σ<sup>2</sup> लाई **भिन्नता** भनिन्छ।
## मोड, माध्यिका र क्वार्टाइलहरू
कहिलेकाहीँ, औसतले डेटा प्रतिनिधित्व गर्न पर्याप्त हुँदैन। उदाहरणका लागि, जब केही अत्यधिक मानहरू हुन्छन्, जसले औसतलाई प्रभाव पार्न सक्छ। अर्को राम्रो संकेतक **माध्यिका** हो, जुन यस्तो मान हो कि आधा डेटा बिन्दुहरू यसभन्दा कम हुन्छन्, र अर्को आधा - बढी।
डेटाको वितरण बुझ्न मद्दत गर्न, **क्वार्टाइलहरू** को कुरा गर्नु उपयोगी हुन्छ:
* पहिलो क्वार्टाइल, वा Q1, यस्तो मान हो, जसमा २५% डेटा यसभन्दा तल पर्छ
* तेस्रो क्वार्टाइल, वा Q3, यस्तो मान हो, जसमा ७५% डेटा यसभन्दा तल पर्छ
ग्राफिकल रूपमा, हामी माध्यिका र क्वार्टाइलहरूको सम्बन्धलाई **बक्स प्लट** मा प्रतिनिधित्व गर्न सक्छौं:
<img src="images/boxplot_explanation.png" width="50%"/>
यहाँ हामी **इन्टर-क्वार्टाइल रेन्ज** IQR=Q3-Q1, र तथाकथित **आउटलायर्स** - मानहरू, जुन [Q1-1.5*IQR,Q3+1.5*IQR] सीमाहरू बाहिर पर्छन्, पनि गणना गर्छौं।
यदि वितरणमा सम्भावित मानहरूको संख्या सानो छ भने, राम्रो "सामान्य" मान त्यो हो, जुन सबैभन्दा धेरै पटक देखा पर्छ, जसलाई **मोड** भनिन्छ। यो प्रायः श्रेणीगत डेटा, जस्तै रङहरूमा लागू हुन्छ। मानौं, हामीसँग दुई समूहका मानिसहरू छन् - केहीले रातो मन पराउँछन्, र केहीले निलो। यदि हामीले रङहरूलाई संख्याहरूद्वारा कोड गर्यौं भने, मनपर्ने रङको औसत मान कतै सुन्तला-हरियो स्पेक्ट्रममा पर्न सक्छ, जसले कुनै पनि समूहको वास्तविक रुचिलाई जनाउँदैन। तर, मोड भने या त एउटा रङ हुनेछ, या दुवै रङ, यदि तिनीहरूको लागि मत दिने मानिसहरूको संख्या समान छ भने (यस अवस्थामा हामी नमूनालाई **मल्टिमोडल** भन्छौं)।
## वास्तविक जीवनको डेटा
जब हामी वास्तविक जीवनको डेटा विश्लेषण गर्छौं, तिनीहरू प्रायः र्‍यान्डम भेरिएबलहरू जस्ता हुँदैनन्, किनभने हामी अज्ञात परिणामसहितको प्रयोग गर्दैनौं। उदाहरणका लागि, बेसबल खेलाडीहरूको टोलीलाई विचार गर्नुहोस्, र तिनीहरूको उचाइ, तौल र उमेर जस्ता शारीरिक डेटा। ती संख्याहरू पूर्ण रूपमा र्‍यान्डम हुँदैनन्, तर हामी अझै पनि उही गणितीय अवधारणाहरू लागू गर्न सक्छौं। उदाहरणका लागि, मानिसहरूको तौलको अनुक्रमलाई केही र्‍यान्डम भेरिएबलबाट लिइएको मानहरूको अनुक्रम मान्न सकिन्छ। तल [मेजर लिग बेसबल](http://mlb.mlb.com/index.jsp) का वास्तविक खेलाडीहरूको तौलको अनुक्रम छ, जुन [यस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) बाट लिइएको हो (तपाईंको सुविधाका लागि, केवल पहिलो २० मानहरू देखाइएको छ):
```
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
```
> **Note**: यस डेटासेटसँग काम गर्ने उदाहरण हेर्न, [संगत नोटबुक](notebook.ipynb) हेर्नुहोस्। यस पाठमा धेरै चुनौतीहरू पनि छन्, र तपाईं ती चुनौतीहरू नोटबुकमा केही कोड थपेर पूरा गर्न सक्नुहुन्छ। यदि तपाईंलाई डेटा सञ्चालन गर्न थाहा छैन भने, चिन्ता नगर्नुहोस् - हामी पछि Python प्रयोग गरेर डेटा सञ्चालनमा फर्कनेछौं। यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यो लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्।
यहाँ हाम्रो डेटाको लागि औसत, माध्यिका र क्वार्टाइलहरू देखाउने बक्स प्लट छ:
![Weight Box Plot](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.ne.png)
हाम्रो डेटामा विभिन्न खेलाडी **भूमिकाहरू** को जानकारी समावेश भएकाले, हामी भूमिकाद्वारा बक्स प्लट पनि बनाउन सक्छौं - यसले हामीलाई विभिन्न भूमिकाहरूमा मापदण्ड मानहरू कसरी फरक छन् भन्ने बुझ्न मद्दत गर्दछ। यस पटक हामी उचाइलाई विचार गर्नेछौं:
![Box plot by role](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.ne.png)
यो चित्रले सुझाव दिन्छ कि, औसतमा, पहिलो बेसम्यानहरूको उचाइ दोस्रो बेसम्यानहरूको उचाइभन्दा बढी छ। यस पाठको पछि हामी यो परिकल्पनालाई औपचारिक रूपमा कसरी परीक्षण गर्ने, र हाम्रो डेटा सांख्यिकीय रूपमा महत्त्वपूर्ण छ भनेर कसरी प्रदर्शन गर्ने भन्ने कुरा सिक्नेछौं।
> जब हामी वास्तविक जीवनको डेटा प्रयोग गर्छौं, हामी मान्छौं कि सबै डेटा बिन्दुहरू केही सम्भाव्यता वितरणबाट लिइएका नमूनाहरू हुन्। यस मान्यताले हामीलाई मेसिन लर्निङ प्रविधिहरू लागू गर्न र कार्यशील भविष्यवाणी मोडेलहरू निर्माण गर्न अनुमति दिन्छ।
हाम्रो डेटाको वितरण कस्तो छ भनेर हेर्न, हामी **हिस्टोग्राम** नामक ग्राफ बनाउन सक्छौं। X-अक्षमा विभिन्न तौल अन्तरालहरूको संख्या (जसलाई **बिन्स** भनिन्छ) हुनेछ, र ठाडो अक्षमा हाम्रो र्‍यान्डम भेरिएबल नमूना कुनै दिइएको अन्तरालभित्र कति पटक थियो भन्ने देखाइनेछ।
![Histogram of real world data](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.ne.png)
यस हिस्टोग्रामबाट तपाईं देख्न सक्नुहुन्छ कि सबै मानहरू निश्चित औसत तौल वरिपरि केन्द्रित छन्, र औसतबाट जति टाढा जान्छौं - त्यति नै कम तौलका मानहरू भेटिन्छन्। अर्थात्, बेसबल खेलाडीको तौल औसत तौलभन्दा धेरै फरक हुने सम्भावना धेरै कम छ। तौलहरूको भिन्नताले तौलहरू औसतबाट कति फरक हुने सम्भावना छ भन्ने देखाउँछ।
> यदि हामी बेसबल लिगका मानिसहरूबाहेक अरू मानिसहरूको तौल लिन्छौं भने, वितरण सम्भवतः फरक हुनेछ। तर, वितरणको आकार उस्तै हुनेछ, तर औसत र भिन्नता परिवर्तन हुनेछ। त्यसैले, यदि हामीले हाम्रो मोडेल बेसबल खेलाडीहरूमा प्रशिक्षण गर्यौं भने, यो विश्वविद्यालयका विद्यार्थीहरूमा लागू गर्दा गलत परिणाम दिन सक्छ, किनभने आधारभूत वितरण फरक छ।
## नर्मल वितरण
हामीले माथि देखेको तौलको वितरण धेरै सामान्य हो, र वास्तविक जीवनका धेरै मापनहरू उस्तै प्रकारको वितरण अनुसरण गर्छन्, तर फरक औसत र भिन्नतासहित। यस वितरणलाई **नर्मल वितरण** भनिन्छ, र यो तथ्यांकमा धेरै महत्त्वपूर्ण भूमिका खेल्छ।
नर्मल वितरण प्रयोग गर्नु बेसबल खेलाडीहरूको सम्भावित तौलहरू उत्पन्न गर्ने सही तरिका हो। एक पटक हामीले औसत तौल `mean` र मानक विचलन `std` थाहा पाएपछि, हामी १००० तौल नमूनाहरू निम्न तरिकाले उत्पन्न गर्न सक्छौं:
```python
samples = np.random.normal(mean,std,1000)
```
यदि उतपन नमहर ि लट गरौं भन, ि इएक िरस ि ि ौं। यदि नमहर िसक बढौं भन, आदरशक नजिकक नरमल ितरणक ि उतपन गर सकौं:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.ne.png)
*औसत=0 नक िचलन=1 भएक नरमल ितरण*
## विश्वास अन्तरालहरू
जब सबल हर लक गरौं, ौं ि यहाँ िि **्‍डम िएबल W** , जसल सब सबल हर लक आदर समयत ितरणल रतििि गरदछ (जसल **जनस** भनि) लहर अनरम सब सबल हर उपसमहस , जसल **नम** भनौं। एउट चक रश , W ितरणक पदणडहर, अर जनस औसत िनत उन सकौं?
सबभन सजि उततर भन नम औसत िनत गणन गर ो। तर, यस सक ि ्‍डम नम सम जनस सह पम रतििि गर यस **ि अनतर** गर उचि
> **ि अनतर** भन नम आधरम जनस तवि औसतक अन , िि समवन ( **िसक तर**) सह
ौं ितरणब िइएक नम X<sub>1</sub>, ..., X<sub>n</sub> रत पटक ितरणब नम िौं, फरक औसत μ ौं। यस μ एक रकरक ि चर सकि **ि अनतर** (confidence interval) जसक ि p , नहर (L<sub>p</sub>,R<sub>p</sub>) , जसल **P**(L<sub>p</sub>μR<sub>p</sub>) = p िि गर, अर औसत उक अनतरलभि पर समवन p बरबर
ि अनतर कसर गणन गरि भन ि चर परिचयक यर ि थप िवरण [िििि](https://en.wikipedia.org/wiki/Confidence_interval) सकि पम, गणन गरिएक नम औसतक ितरणल जनस तवि औसतक सनदरभम परिि गरौं, जसल ** ितरण** भनि
> **चक तथ**: ितरणक गणितज िियम टक मम िएक , जसल आफ गज "स्टुडेन्ट" उपन अनतरगत रकि गर ि उन ि अर गर, एउट कथन अन, उनक ि कच मग णसतर िरण गर ांि परषण रय गरिरह वजनिकल भन नथे।
यदि जनस औसत μ ि p अन गर हनौं भन, ितरण A *(1-p)/2- रतिशतक* िपर, ि िइन सक ांि सफटवयर (जस Python, R, आदि) ि-इन फङसन रय गर गणन गर सकि यसपछि μ अनतर X±A*D/n , जहाँ X नम औसत , D नक िचलन ो।
> ****: [ि अफ िडम](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) महतवप अवधरण चर पनि ौं, ितरणस समबनि यस अवधरण गहि पम नक ि ांि थप तकहर सकि
वजन उचइक ि अनतर गणन गर उदहरण [लग टबकहर](notebook.ipynb) िइएक
| p | वजन औसत |
|-----|-----------|
| 0.85 | 201.73±0.94 |
| 0.90 | 201.73±1.08 |
| 0.95 | 201.73±1.28 |
ि ि ि समवन जति उच , ि अनतर यति
## परिकल्पना परीक्षण
सबल हर टम िि िहर छन, जसल तल पम रस गर सकि ( ि कसर गणन गर सकि भन [लग टब](notebook.ipynb) ):
| ि | उच | वजन | |
|------|--------|--------|-------|
| चर | 72.723684 | 204.328947 | 76 |
| िि िटर | 74.222222 | 220.888889 | 18 |
| फर सम | 74.000000 | 213.109091 | 55 |
| आउटफिडर | 73.010309 | 199.113402 | 194 |
| िि िचर | 74.374603 | 203.517460 | 315 |
| सम | 71.362069 | 184.344828 | 58 |
| शरटसटप | 71.903846 | 182.923077 | 52 |
| ि िचर | 74.719457 | 205.163636 | 221 |
| थर सम | 73.044444 | 200.955556 | 45 |
सकौं ि फर समनक औसत उच समनक भन बढ यस, **फर सम समनभन अग छन** भन िकर ि हन सकौं।
> कथनल **परिकलपन** भनि, िनकि तथ तवम सत ि इन भन
तर, िकर ि सकि ि सकिँ भन सधैं पष ुँ ि छलफलब दछौं ि रत औसतस समबनि ि अनतर , िनत वल ांि ि सक परिकलपन परषण गर थप औपचि तरि ि
फर समनक उचइक ि अनतर अलग-अलग गणन गरौं:
| ि | फर सम | सम |
|------------|---------------|----------------|
| 0.85 | 73.62..74.38 | 71.04..71.69 |
| 0.90 | 73.56..74.44 | 70.99..71.73 |
| 0.95 | 73.47..74.53 | 70.92..71.81 |
सकौं ि पनि िसम अनतरलहर ओभरल गरनन्। यसल परिकलपन रमि गर ि फर सम समनभन अग छन्।
अझ औपचि पम, सम गर िरह समस भन ** समयत ितरणहर सम छन ि नन**, कम िहर सम िटरहर छन्। ितरणक रकरक आधरम, यसक ि िि परषणहर रय गरपर यदि ि ितरणहर छन, **[ ि-](https://en.wikipedia.org/wiki/Student%27s_t-test)** गर सकौं।
ि-टम, तथकथि **t-value** गणन गरौं, जसल औसतहर चक िनत , िचलनल नम ै। इएक ि t-value ** ितरण** अनसरण गर, जसल िइएक ि तर **p** ि सह गर अनमति ि ( गणन गर सकि, मक िहर सकि) यसपछि t-value सहडस लन गरौं ि परिकलपन अस गर सकि्।
Python , **SciPy** रय गर सकौं, जसम `ttest_ind` फङसन सम ( अन उपय ांि फङसनहर सहि!) यसल ि t-value गणन गर, ि p-value िभर कअप पनि गर, ि वल िसल िकर ि सकौं।
उदहरणक ि, फर समनक उचइक लन गर ि परिमहर ौं:
```python
from scipy.stats import ttest_ind
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
```
```
T-value = 7.65
P-value: 9.137321189738925e-12
```
हाम्रो केसमा, p-value धेरै कम छ, जसले फर्स्ट बेसम्यान अग्लो हुने बलियो प्रमाण देखाउँछ।
त्यहाँ अन्य विभिन्न प्रकारका परिकल्पनाहरू पनि छन् जुन हामी परीक्षण गर्न चाहन सक्छौं, जस्तै:
* कुनै नमूना कुनै वितरण अनुसरण गर्छ भन्ने प्रमाणित गर्न। हाम्रो केसमा हामीले मान्य गरेका छौं कि उचाइ सामान्य रूपमा वितरण गरिएको छ, तर त्यसलाई औपचारिक सांख्यिकीय प्रमाण चाहिन्छ।
* कुनै नमूनाको औसत मान कुनै पूर्वनिर्धारित मानसँग मेल खान्छ भन्ने प्रमाणित गर्न
* विभिन्न नमूनाहरूको औसत तुलना गर्न (जस्तै, विभिन्न उमेर समूहहरू बीचको खुशी स्तरको भिन्नता के हो)
## ठूलो संख्याको नियम र केन्द्रीय सीमा प्रमेय
सामान्य वितरण किन महत्त्वपूर्ण छ भन्ने कारणमध्ये एक **केन्द्रीय सीमा प्रमेय** हो। मानौं हामीसँग स्वतन्त्र N मानहरूको ठूलो नमूना X<sub>1</sub>, ..., X<sub>N</sub> छ, जुन कुनै पनि वितरणबाट औसत μ र विचलन σ<sup>2</sup> सहित लिइएको छ। त्यसपछि, पर्याप्त ठूलो N को लागि (अर्को शब्दमा, जब N→∞), औसत Σ<sub>i</sub>X<sub>i</sub> सामान्य रूपमा वितरण हुनेछ, औसत μ र विचलन σ<sup>2</sup>/N सहित।
> केन्द्रीय सीमा प्रमेयलाई अर्को तरिकाले व्याख्या गर्न सकिन्छ कि कुनै पनि यादृच्छिक चर मानहरूको योगको औसत गणना गर्दा तपाईं सामान्य वितरणमा पुग्नुहुन्छ।
केन्द्रीय सीमा प्रमेयबाट यो पनि निष्कर्ष निकाल्न सकिन्छ कि, जब N→∞, नमूनाको औसत μ बराबर हुने सम्भावना 1 हुन्छ। यसलाई **ठूलो संख्याको नियम** भनिन्छ।
## सहसंबंध र सहविचलन
डेटा विज्ञानले गर्ने काममध्ये एक भनेको डेटा बीचको सम्बन्ध पत्ता लगाउनु हो। हामी भन्छौं कि दुई क्रमहरू **सहसंबद्ध** छन् जब तिनीहरूले एकै समयमा समान व्यवहार देखाउँछन्, अर्थात् तिनीहरू एकसाथ बढ्छन्/घट्छन्, वा एउटा बढ्दा अर्को घट्छ र उल्टो। अर्को शब्दमा, दुई क्रमहरू बीच केही सम्बन्ध देखिन्छ।
> सहसंबंधले दुई क्रमहरू बीचको कारणात्मक सम्बन्धलाई अनिवार्य रूपमा संकेत गर्दैन; कहिलेकाहीं दुवै चरहरू कुनै बाह्य कारणमा निर्भर हुन सक्छन्, वा यो केवल संयोगले दुई क्रमहरू सहसंबद्ध हुन सक्छ। तर, बलियो गणितीय सहसंबंधले दुई चरहरू कुनै न कुनै रूपमा जडान भएको राम्रो संकेत दिन्छ।
गणितीय रूपमा, दुई यादृच्छिक चरहरू बीचको सम्बन्ध देखाउने मुख्य अवधारणा **सहविचलन** हो, जुन यसरी गणना गरिन्छ: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]। हामी दुवै चरहरूको औसत मानबाट विचलन गणना गर्छौं, र त्यस विचलनहरूको गुणनफल। यदि दुवै चरहरू सँगै विचलित हुन्छन्, गुणनफल सधैं सकारात्मक मान हुनेछ, जसले सकारात्मक सहविचलनमा जोड दिनेछ। यदि दुवै चरहरू असंगत रूपमा विचलित हुन्छन् (अर्थात् एउटा औसतभन्दा तल झर्दा अर्को औसतभन्दा माथि बढ्छ), हामी सधैं नकारात्मक संख्याहरू पाउँछौं, जसले नकारात्मक सहविचलनमा जोड दिनेछ। यदि विचलनहरू निर्भर छैनन्, तिनीहरू लगभग शून्यमा जोडिनेछन्।
सहविचलनको पूर्ण मानले सहसंबंध कति ठूलो छ भन्ने धेरै कुरा बताउँदैन, किनकि यो वास्तविक मानहरूको परिमाणमा निर्भर गर्दछ। यसलाई सामान्यीकरण गर्न, हामी दुवै चरहरूको मानक विचलनद्वारा सहविचलनलाई विभाजन गर्न सक्छौं, जसले **सहसंबंध** दिन्छ। राम्रो कुरा यो हो कि सहसंबंध सधैं [-1,1] को दायरामा हुन्छ, जहाँ 1 ले मानहरू बीचको बलियो सकारात्मक सहसंबंध संकेत गर्दछ, -1 - बलियो नकारात्मक सहसंबंध, र 0 - कुनै सहसंबंध छैन (चरहरू स्वतन्त्र छन्)।
**उदाहरण**: हामी बेसबल खेलाडीहरूको वजन र उचाइ बीचको सहसंबंध गणना गर्न सक्छौं:
```python
print(np.corrcoef(weights,heights))
```
यसको परिणामस्वरूप, हामी यस्तो **सहसंबंध म्याट्रिक्स** पाउँछौं:
```
array([[1. , 0.52959196],
[0.52959196, 1. ]])
```
> सहसंबंध म्याट्रिक्स C कुनै पनि संख्याको इनपुट क्रमहरू S<sub>1</sub>, ..., S<sub>n</sub> को लागि गणना गर्न सकिन्छ। C<sub>ij</sub> को मान S<sub>i</sub> र S<sub>j</sub> बीचको सहसंबंध हो, र कर्ण तत्वहरू सधैं 1 हुन्छन् (जसलाई S<sub>i</sub> को आत्म-सहसंबंध पनि भनिन्छ)।
हाम्रो केसमा, मान 0.53 ले व्यक्तिको वजन र उचाइ बीच केही सहसंबंध रहेको संकेत गर्दछ। हामी एक मानलाई अर्कोको विरुद्धमा स्क्याटर प्लट बनाउन सक्छौं ताकि सम्बन्धलाई दृश्य रूपमा देख्न सकियोस्:
![वजन र उचाइ बीचको सम्बन्ध](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.ne.png)
> सहसंबंध र सहविचलनका थप उदाहरणहरू [संग्लग्न नोटबुक](notebook.ipynb) मा भेट्न सकिन्छ।
## निष्कर्ष
यस खण्डमा, हामीले सिक्यौं:
* डेटा, जस्तै औसत, विचलन, मोड र क्वार्टाइलहरूको आधारभूत सांख्यिकीय गुणहरू
* यादृच्छिक चरहरूको विभिन्न वितरणहरू, जसमा सामान्य वितरण समावेश छ
* विभिन्न गुणहरू बीचको सहसंबंध कसरी पत्ता लगाउने
* केही परिकल्पनाहरू प्रमाणित गर्न गणित र सांख्यिकीको साउन्ड उपकरण कसरी प्रयोग गर्ने
* डेटा नमूनाको आधारमा यादृच्छिक चरको विश्वास अन्तराल कसरी गणना गर्ने
यद्यपि यो सम्भाव्यता र सांख्यिकीभित्रका विषयहरूको पूर्ण सूची होइन, यो तपाईंलाई यस पाठ्यक्रममा राम्रो सुरुवात दिन पर्याप्त हुनुपर्छ।
## 🚀 चुनौती
नोटबुकमा रहेको नमूना कोड प्रयोग गरेर अन्य परिकल्पनाहरू परीक्षण गर्नुहोस्:
1. फर्स्ट बेसम्यान सेकेन्ड बेसम्यानभन्दा पुराना छन्
2. फर्स्ट बेसम्यान थर्ड बेसम्यानभन्दा अग्लो छन्
3. शर्टस्टप सेकेन्ड बेसम्यानभन्दा अग्लो छन्
## [पाठपश्चात क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7)
## समीक्षा र आत्म अध्ययन
संभाव्यता र सांख्यिकी यति व्यापक विषय हो कि यसले आफ्नै पाठ्यक्रमको हकदार छ। यदि तपाईं सिद्धान्तमा गहिरो जान इच्छुक हुनुहुन्छ भने, तपाईं निम्न पुस्तकहरू पढ्न जारी राख्न चाहनुहुन्छ:
1. [न्यूयोर्क विश्वविद्यालयका कार्लोस फर्नान्डेज-ग्रान्डा](https://cims.nyu.edu/~cfgranda/) का उत्कृष्ट व्याख्यान नोटहरू [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (अनलाइन उपलब्ध)
1. [पिटर र एन्ड्रु ब्रुस। Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R मा नमूना कोड](https://github.com/andrewgbruce/statistics-for-data-scientists)]।
1. [जेम्स डी. मिलर। Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[R मा नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]।
## असाइनमेन्ट
[सानो मधुमेह अध्ययन](assignment.md)
## श्रेय
यो पाठ [दिमित्री सोश्निकोभ](http://soshnikov.com) द्वारा ♥️ सहित लेखिएको हो।
---
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।