You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

278 lines
50 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "ce95884566a74db72572cd51f0cb25ad",
"translation_date": "2025-09-06T13:19:34+00:00",
"source_file": "1-Introduction/04-stats-and-probability/README.md",
"language_code": "ne"
}
-->
# तथ्यांक र सम्भाव्यता: एक संक्षिप्त परिचय
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/04-Statistics-Probability.png)|
|:---:|
| तथ्यांक र सम्भाव्यता - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
तथ्यांक र सम्भाव्यता सिद्धान्त गणितका दुई अत्यन्तै सम्बन्धित क्षेत्रहरू हुन्, जसको डाटा विज्ञानमा ठूलो महत्त्व छ। गहिरो गणितीय ज्ञान बिना पनि डाटासँग काम गर्न सम्भव छ, तर कम्तीमा केही आधारभूत अवधारणाहरू थाहा हुनु राम्रो हुन्छ। यहाँ हामी तपाईंलाई सुरु गर्न मद्दत गर्ने छोटो परिचय प्रस्तुत गर्नेछौं।
[![Intro Video](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.ne.png)](https://youtu.be/Z5Zy85g4Yjw)
## [पाठ अघि क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/6)
## सम्भाव्यता र र्‍यान्डम भेरिएबलहरू
**सम्भाव्यता** र १ को बीचको संख्या हो, जसले कुनै **घटना** कति सम्भावित छ भन्ने जनाउँछ। यो सकारात्मक परिणामहरूको संख्या (जसले घटनालाई निम्त्याउँछ) लाई कुल परिणामहरूको संख्याद्वारा विभाजन गरेर परिभाषित गरिन्छ, यदि सबै परिणामहरू समान सम्भावित छन् भने। उदाहरणका लागि, जब हामी पासा फाल्छौं, सम संख्या आउने सम्भाव्यता 3/6 = 0.5 हुन्छ।
जब हामी घटनाहरूको कुरा गर्छौं, हामी **र्‍यान्डम भेरिएबलहरू** प्रयोग गर्छौं। उदाहरणका लागि, पासा फाल्दा प्राप्त हुने संख्यालाई प्रतिनिधित्व गर्ने र्‍यान्डम भेरिएबलले १ देखि ६ सम्मका मानहरू लिन्छ। १ देखि ६ सम्मको संख्याको समूहलाई **नमूना स्थान (sample space)** भनिन्छ। हामी कुनै निश्चित मान लिन र्‍यान्डम भेरिएबलको सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(X=3)=1/6।
माथिको उदाहरणमा रहेको र्‍यान्डम भेरिएबललाई **डिस्क्रिट (discrete)** भनिन्छ, किनभने यसको नमूना स्थान गणनायोग्य छ, अर्थात् छुट्टाछुट्टै मानहरू छन् जसलाई गन्न सकिन्छ। केही अवस्थामा नमूना स्थान वास्तविक संख्याहरूको दायरा वा सम्पूर्ण वास्तविक संख्याहरूको समूह हुन सक्छ। यस्ता भेरिएबलहरूलाई **कन्टिनुअस (continuous)** भनिन्छ। यसको राम्रो उदाहरण बस आउने समय हो।
## सम्भाव्यता वितरण
डिस्क्रिट र्‍यान्डम भेरिएबलहरूको सन्दर्भमा, प्रत्येक घटनाको सम्भाव्यता P(X) नामक कार्यद्वारा वर्णन गर्न सजिलो हुन्छ। नमूना स्थान *S* बाट प्रत्येक मान *s* का लागि यसले देखि १ सम्मको संख्या दिन्छ, जसले गर्दा सबै घटनाहरूको लागि P(X=s) को मानहरूको योग १ हुन्छ।
सबैभन्दा प्रख्यात डिस्क्रिट वितरण **यूनिफर्म वितरण** हो, जसमा N तत्त्वहरूको नमूना स्थान हुन्छ, र प्रत्येकको सम्भाव्यता 1/N हुन्छ।
कन्टिनुअस भेरिएबलको सम्भाव्यता वितरण वर्णन गर्न भने अलि गाह्रो हुन्छ, जसका मानहरू [a,b] को कुनै दायरा वा सम्पूर्ण वास्तविक संख्याहरू बाट लिइन्छ। बस आउने समयको उदाहरणलाई विचार गर्नुहोस्। वास्तवमा, कुनै निश्चित समय *t* मा बस आउने सम्भाव्यता हुन्छ!
> अब तपाईंलाई थाहा भयो कि सम्भाव्यता भएका घटनाहरू पनि हुन्छन्, र धेरै पटक हुन्छन्! कम्तीमा बस आउने प्रत्येक पटक!
हामी केवल कुनै निश्चित मानहरूको दायरामा भेरिएबल पर्ने सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(t<sub>1</sub>≤X<t<sub>2</sub>)। यस अवस्थामा, सम्भाव्यता वितरणलाई **सम्भाव्यता घनत्व कार्य (probability density function)** p(x) द्वारा वर्णन गरिन्छ, जसले गर्दा
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.ne.png)
यूनिफर्म वितरणको कन्टिनुअस संस्करणलाई **कन्टिनुअस यूनिफर्म** भनिन्छ, जुन सीमित दायरामा परिभाषित हुन्छ। कुनै निश्चित लम्बाइ l को दायरामा X पर्ने सम्भाव्यता l को समानुपातिक हुन्छ, र १ सम्म पुग्छ।
अर्को महत्त्वपूर्ण वितरण **नर्मल वितरण** हो, जसको बारेमा हामी तल विस्तृत रूपमा कुरा गर्नेछौं।
## माध्य, विचलन र मानक विचलन
मानौं हामीले X नामक र्‍यान्डम भेरिएबलका n नमूनाहरूको शृंखला लियौं: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>। हामी शृंखलाको **माध्य (mean)** (वा **गणितीय औसत**) परम्परागत तरिकाले परिभाषित गर्न सक्छौं: (x<sub>1</sub>+x<sub>2</sub>+...+x<sub>n</sub>)/n। जब हामी नमूनाको आकार बढाउँछौं (अर्थात् n→∞ मा पुग्छौं), हामी वितरणको माध्य (जसलाई **अपेक्षा (expectation)** पनि भनिन्छ) प्राप्त गर्नेछौं। हामी अपेक्षालाई **E**(x) द्वारा जनाउँछौं।
> यो देखाउन सकिन्छ कि {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} मानहरू र तिनीहरूका सम्भाव्यता p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub> भएको कुनै पनि डिस्क्रिट वितरणको लागि अपेक्षा E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub> बराबर हुन्छ।
मानहरू कति फैलिएका छन् भनेर थाहा पाउन, हामी विचलन σ<sup>2</sup> = ∑(x<sub>i</sub> - μ)<sup>2</sup>/n गणना गर्न सक्छौं, जहाँ μ शृंखलाको माध्य हो। σ लाई **मानक विचलन (standard deviation)** भनिन्छ, र σ<sup>2</sup> लाई **विचलन (variance)** भनिन्छ।
## मोड, माध्यिका र क्वार्टाइलहरू
कहिलेकाहीँ, माध्यले डाटाको "सामान्य" मानलाई पर्याप्त रूपमा प्रतिनिधित्व गर्दैन। उदाहरणका लागि, जब केही अत्यधिक मानहरू हुन्छन्, जसले माध्यलाई धेरै प्रभावित गर्न सक्छ। अर्को राम्रो सूचक **माध्यिका (median)** हो, यस्तो मान जसको तल ५०% डाटा पर्छ र माथि ५०%।
डाटाको वितरण बुझ्न, **क्वार्टाइलहरू** को कुरा गर्नु उपयोगी हुन्छ:
* पहिलो क्वार्टाइल, वा Q1, यस्तो मान हो, जसको तल २५% डाटा पर्छ।
* तेस्रो क्वार्टाइल, वा Q3, यस्तो मान हो, जसको तल ७५% डाटा पर्छ।
ग्राफिकल रूपमा, हामी माध्यिका र क्वार्टाइलहरूको सम्बन्धलाई **बक्स प्लट (box plot)** मा देखाउन सक्छौं:
<img src="images/boxplot_explanation.png" alt="Box Plot Explanation" width="50%">
यहाँ हामी **इन्टर-क्वार्टाइल रेन्ज (inter-quartile range)** IQR=Q3-Q1 पनि गणना गर्छौं, र तथाकथित **आउटलायर्स (outliers)** - यस्ता मानहरू, जो [Q1-1.5*IQR, Q3+1.5*IQR] को सीमाभन्दा बाहिर पर्छन्।
यदि वितरण सीमित छ र सम्भावित मानहरूको संख्या सानो छ भने, राम्रो "सामान्य" मान त्यो हो, जुन सबैभन्दा धेरै पटक देखा पर्छ, जसलाई **मोड (mode)** भनिन्छ। यो प्रायः श्रेणीगत डाटामा लागू हुन्छ, जस्तै रङहरू। मानौं, हामीसँग दुई समूहका मानिसहरू छन् - केहीले रातोलाई प्राथमिकता दिन्छन्, र अरूले नीलोलाई। यदि हामी रङहरूलाई सङ्ख्याहरूद्वारा कोड गर्छौं भने, मनपर्ने रङको माध्य मान कतै सुन्तला-हरियो स्पेक्ट्रममा पर्न सक्छ, जसले कुनै पनि समूहको वास्तविक प्राथमिकतालाई जनाउँदैन। तर, मोड भने या त कुनै एक रङ हुनेछ, या दुवै रङ, यदि तिनीहरूलाई मन पराउने मानिसहरूको संख्या बराबर छ (यस अवस्थामा हामी नमूनालाई **मल्टिमोडल (multimodal)** भन्छौं)।
## वास्तविक जीवनको डाटा
जब हामी वास्तविक जीवनको डाटाको विश्लेषण गर्छौं, ती डाटा प्रायः र्‍यान्डम भेरिएबलहरू जस्ता हुँदैनन्, किनभने हामी अज्ञात परिणामसहितको प्रयोग गर्दैनौं। उदाहरणका लागि, बेसबल खेलाडीहरूको टोलीलाई विचार गर्नुहोस्, र तिनीहरूको उचाइ, तौल र उमेर जस्ता शारीरिक डाटालाई। ती सङ्ख्याहरू ठ्याक्कै र्‍यान्डम हुँदैनन्, तर हामी अझै पनि उही गणितीय अवधारणाहरू लागू गर्न सक्छौं। उदाहरणका लागि, मानिसहरूको तौलको शृङ्खलालाई केही र्‍यान्डम भेरिएबलबाट लिइएका मानहरूको शृङ्खला मान्न सकिन्छ। तल [मेजर लिग बेसबल](http://mlb.mlb.com/index.jsp) का वास्तविक खेलाडीहरूको तौलको शृङ्खला छ, जुन [यस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) बाट लिइएको हो (तपाईंको सुविधाका लागि, केवल पहिलो २० मानहरू देखाइएको छ):
```
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
```
> **Note**: यस डेटासेटसँग काम गर्ने उदाहरण हेर्न, [सङ्गसँगैको नोटबुक](notebook.ipynb) हेर्नुहोस्। यस पाठभरि धेरै चुनौतीहरू छन्, र तपाईं केही कोड थपेर ती नोटबुकमा पूरा गर्न सक्नुहुन्छ। यदि तपाईंलाई डाटामा कसरी काम गर्ने थाहा छैन भने, चिन्ता नगर्नुहोस् - हामी पछि पाइथन प्रयोग गरेर डाटामा काम गर्न फर्कनेछौं। यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यो लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्।
यहाँ हाम्रो डाटाको लागि माध्य, माध्यिका र क्वार्टाइलहरू देखाउने बक्स प्लट छ:
![Weight Box Plot](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.ne.png)
हाम्रो डाटामा विभिन्न खेलाडीका **भूमिकाहरू** को जानकारी समावेश भएकाले, हामी भूमिकाअनुसार बक्स प्लट पनि बनाउन सक्छौं - यसले हामीलाई बुझ्न मद्दत गर्छ कि भूमिकाहरूमा आधारित रूपमा मानहरू कसरी फरक छन्। यस पटक हामी उचाइलाई विचार गर्नेछौं:
![Box plot by role](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.ne.png)
यो चित्रले सुझाव दिन्छ कि, औसतमा, पहिलो बेसम्यानहरूको उचाइ दोस्रो बेसम्यानहरूको उचाइभन्दा बढी छ। यस पाठको पछि, हामी यो परिकल्पनालाई औपचारिक रूपमा परीक्षण गर्ने र हाम्रो डाटा सांख्यिकीय रूपमा महत्त्वपूर्ण छ भनेर देखाउने तरिका सिक्नेछौं।
> जब हामी वास्तविक जीवनको डाटामा काम गर्छौं, हामी मान्छौं कि सबै डाटा बिन्दुहरू केही सम्भाव्यता वितरणबाट लिइएका नमूनाहरू हुन्। यो मान्यताले हामीलाई मेसिन लर्निङ प्रविधिहरू लागू गर्न र काम गर्ने भविष्यवाणी मोडेलहरू निर्माण गर्न अनुमति दिन्छ।
हाम्रो डाटाको वितरण कस्तो छ भनेर हेर्न, हामी **हिस्टोग्राम** नामक ग्राफ बनाउन सक्छौं। X-अक्षमा विभिन्न तौल अन्तरालहरूको संख्या (जसलाई **बिनहरू** भनिन्छ) हुनेछ, र ठाडो अक्षमा हाम्रो र्‍यान्डम भेरिएबल नमूना कुनै निश्चित अन्तरालभित्र भएको संख्या देखाइनेछ।
![Histogram of real world data](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.ne.png)
यस हिस्टोग्रामबाट तपाईं देख्न सक्नुहुन्छ कि सबै मानहरू निश्चित माध्य तौलको वरिपरि केन्द्रित छन्, र हामी त्यो तौलबाट जति टाढा जान्छौं, त्यति नै कम तौलका मानहरू भेटिन्छन्। अर्थात्, बेसबल खेलाडीको तौल माध्य तौलभन्दा धेरै फरक हुने सम्भाव्यता धेरै कम छ। तौलहरूको विचलनले तौलहरू माध्यबाट कति फरक हुन सक्छन् भन्ने देखाउँछ।
> यदि हामी बेसबल लिगका होइन, अन्य मानिसहरूको तौल लिन्छौं भने, वितरण फरक हुने सम्भावना छ। तर, वितरणको आकार उस्तै हुनेछ, तर माध्य र विचलन परिवर्तन हुनेछ। त्यसैले, यदि हामीले हाम्रो मोडेल बेसबल खेलाडीहरूमा प्रशिक्षण गर्‍यौं भने, यो विश्वविद्यालयका विद्यार्थीहरूमा लागू गर्दा गलत परिणाम दिन सक्छ, किनभने आधारभूत वितरण फरक छ।
## नर्मल वितरण
हाम्रो माथिको तौलहरूको वितरण धेरै सामान्य छ, र वास्तविक जीवनका धेरै मापनहरू उस्तै प्रकारको वितरण अनुसरण गर्छन्, तर फरक माध्य र विचलनका साथ। यस वितरणलाई **नर्मल वितरण** भनिन्छ, र यसले तथ्याङ्कमा धेरै महत्त्वपूर्ण भूमिका खेल्छ।
नर्मल वितरण प्रयोग गर्नु बेसबल खेलाडीहरूको सम्भावित तौलहरू उत्पन्न गर्ने सही तरिका हो। एक पटक हामीलाई माध्य तौल `mean` र मानक विचलन `std` थाहा भयो भने, हामी १००० तौल नमूनाहरू निम्न तरिकाले उत्पन्न गर्न सक्छौं:
```python
samples = np.random.normal(mean,std,1000)
```
यदि उतपन गरिएक नमहर ि बनौं भन, ि इएक िरस ि ि ि यदि नमहर िनहर बढौं भन, नरमल ितरणक आदर ि बनउन सकौं:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.ne.png)
*=0 नक िचलन=1 भएक नरमल ितरण*
## विश्वास अन्तराल (Confidence Intervals)
जब सबल हर लक गरौं, ौं ि यहाँ िि **्‍डम िएबल W** , जसल सब सबल हर लक आदर समयत ितरणल रतििि गर (जसल **जनस (population)** भनि) लहर खल सब सबल हर उपसमहल रतििि गर, जसल **नम (sample)** भनौं। एउट चक रश ि, W ितरणक िटरहर, अर जनस िचलन उन सकौं?
सबभन सजि उततर भन नम िचलन गणन गर ो। तर, यस सक ि ्‍डम नम सम जनस सह पम रतििि गर यस **ि अनतर (confidence interval)** गर उचि
> **ि अनतर** भन नम िइएक जनस तवि यक अन , िि समयत ( **िसक तर**) सह
1</sub>, ..., X<sub>n</sub> ितरणब रत पटक ितरणब नम िौं, फरक औसत μ ौं। यस μ एक ि चर सकि **ि अनतर** ि p नहर (L<sub>p</sub>,R<sub>p</sub>), जसम **P**(L<sub>p</sub>μR<sub>p</sub>) = p, अर पन गरिएक औसत अनतर ि पर समवन p बरबर
ि अनतर कसर गणन गरि भन ि चर परिचय भन ि थप िवरण [िििि](https://en.wikipedia.org/wiki/Confidence_interval) सकि पम, जनस तवि औसतक गणन गरिएक नम औसतक ितरणल परिि गरौं, जसल ** ितरण** भनि
> **चक तथ**: ितरणक गणितज िियम टक मम िएक , जसल आफ गज "स्टुडेन्ट" उपन अनतरगत रकि गरे। उन ि अर गर, , एउट करण अन, उनक ि कच मग णसतर िरण गर ांि परषण रय गरिरह वजनिकल भन नथो।
यदि जनस औसत μ ि p अन गर हनौं भन, ितरण A *(1-p)/2- रतिशतक* िपर, ि िइन सक, ांि सफटवयर (जस Python, R, आदि) ि-इन फङसन रय गर गणन गर सकि यसपछि μ ि अनतर X±A*D/n , जहाँ X नम औसत , D नक िचलन ो।
> ****: [ि अफ िडम](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) महतवप अवधरण चर पनि ौं, ितरणस समबनि अवधरण गहि पम नक ि ांि तकहर सकि
वजन उचइक ि ि अनतर गणन गर उदहरण [गत टबकहर](notebook.ipynb) िइएक
| p | वजन औसत |
|-----|-----------|
| 0.85 | 201.73±0.94 |
| 0.90 | 201.73±1.08 |
| 0.95 | 201.73±1.28 |
ि ि ि समवन जति उच , ि अनतर यति
## परिकल्पना परीक्षण
सबल हर टम िि िहर छन, तल ांि गर सकि ( ि कसर गणन गर सकि [गत टब](notebook.ipynb) ):
| ि | उच | वजन | |
|------|--------|--------|-------|
| चर | 72.723684 | 204.328947 | 76 |
| ििड_हिटर | 74.222222 | 220.888889 | 18 |
| फरट_बसम | 74.000000 | 213.109091 | 55 |
| आउटफिडर | 73.010309 | 199.113402 | 194 |
| ििफ_पिचर | 74.374603 | 203.517460 | 315 |
| ड_बसम | 71.362069 | 184.344828 | 58 |
| टसटप | 71.903846 | 182.923077 | 52 |
| िंग_पिचर | 74.719457 | 205.163636 | 221 |
| थरड_बसम | 73.044444 | 200.955556 | 45 |
सकौं ि फर समनक औसत उच समनक भन उच यस, **फर सम समनभन अग छन** भन िकर ि इच सकौं।
> कथनल **परिकलपन** भनि, िनकि ि तथ तवम सत इन
तर, िकर ि सकि ि भन सधैं पष ुँ ि छलफलब दछौं ि रत औसतस समबनि ि अनतर , यस िनत वल ांि ि सक परिकलपन परषण गर औपचि तरि ि
फर समनक उचइक ि ि अनतर अलग-अलग गणन गरौं:
| ि | फर सम | सम |
|------------|---------------|----------------|
| 0.85 | 73.62..74.38 | 71.04..71.69 |
| 0.90 | 73.56..74.44 | 70.99..71.73 |
| 0.95 | 73.47..74.53 | 70.92..71.81 |
सकौं ि पनि िसम अनतरलहर ओभरल गरनन्। यसल परिकलपन रमि गरदछ ि फर सम समनभन अग छन्।
अझ औपचि पम, सम गर िरह समस भन ** समयत ितरणहर सम छन ि नन**, कम सम िटरहर छन्। ितरणक आधरम, यसक ि िि परषणहर रय गरपर यदि ि ितरणहर छन, **[ ि-](https://en.wikipedia.org/wiki/Student%27s_t-test)** गर सकौं।
ि-टम, तथकथि **t-value** गणन गरौं, जसल औसतहर चक िनत गरदछ, िचलनल नम ै। इएक ि t-value ** ितरण** अनसरण गरदछ, जसल िइएक ि तर **p** ि सह गर अनमति ि ( गणन गर सकि, मक िहर सकि) यसपछि t-value सहडस लन गरौं परिकलपन अस गर
Python , **SciPy** रय गर सकौं, जसम `ttest_ind` फङसन सम ( अन उपय ांि फङसनहर सहि!) यसल ि t-value गणन गर, ि p-value िभर कअप पनि गर, ि वल िसल िकर ि सकौं।
उदहरणक ि, फर समनक उचइक लन गर ि परि :
```python
from scipy.stats import ttest_ind
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
```
```
T-value = 7.65
P-value: 9.137321189738925e-12
```
हाम्रो केसमा, p-value धेरै कम छ, जसको अर्थ फर्स्ट बेसम्यान अग्लो हुने बलियो प्रमाण छ।
त्यहाँ अन्य विभिन्न प्रकारका परिकल्पनाहरू पनि छन् जुन हामी परीक्षण गर्न चाहन्छौं, उदाहरणका लागि:
* कुनै नमूना कुनै वितरण अनुसरण गर्छ भन्ने प्रमाणित गर्न। हाम्रो केसमा हामीले मान्य गरेका छौं कि उचाइहरू सामान्य रूपमा वितरण गरिएका छन्, तर त्यसलाई औपचारिक सांख्यिकीय प्रमाण चाहिन्छ।
* नमूनाको औसत मान कुनै पूर्वनिर्धारित मानसँग मेल खान्छ भन्ने प्रमाणित गर्न
* विभिन्न नमूनाहरूको औसत तुलना गर्न (जस्तै, विभिन्न उमेर समूहहरू बीचको खुशी स्तरमा के भिन्नता छ)
## ठूलो संख्याको नियम र केन्द्रीय सीमा प्रमेय
सामान्य वितरण किन महत्त्वपूर्ण छ भन्ने कारणहरू मध्ये एक **केन्द्रीय सीमा प्रमेय** हो। मानौं हामीसँग स्वतन्त्र N मानहरूको ठूलो नमूना छ X<sub>1</sub>, ..., X<sub>N</sub>, जुन कुनै पनि वितरणबाट औसत μ र विचलन σ<sup>2</sup> सहित नमूना गरिएको छ। त्यसपछि, पर्याप्त ठूलो N को लागि (अर्को शब्दमा, जब N→∞), औसत Σ<sub>i</sub>X<sub>i</sub> सामान्य रूपमा वितरण गरिनेछ, औसत μ र विचलन σ<sup>2</sup>/N सहित।
> केन्द्रीय सीमा प्रमेयलाई व्याख्या गर्ने अर्को तरिका भनेको भन्नु हो कि वितरणको परवाह नगरी, जब तपाईं कुनै पनि यादृच्छिक चर मानहरूको योगको औसत गणना गर्नुहुन्छ, तपाईं सामान्य वितरणमा पुग्नुहुन्छ।
केन्द्रीय सीमा प्रमेयबाट यो पनि निष्कर्ष निकाल्न सकिन्छ कि, जब N→∞, नमूनाको औसत μ बराबर हुने सम्भावना 1 हुन्छ। यसलाई **ठूलो संख्याको नियम** भनिन्छ।
## सहसंबंध र सहविचलन
डेटा विज्ञानले गर्ने कामहरू मध्ये एक भनेको डेटा बीचको सम्बन्ध पत्ता लगाउनु हो। हामी भन्छौं कि दुई क्रमहरू **सहसंबद्ध** छन् जब तिनीहरूले एकै समयमा समान व्यवहार देखाउँछन्, अर्थात् तिनीहरू एकसाथ बढ्छन्/घट्छन्, वा एउटा क्रम बढ्दा अर्को घट्छ र उल्टो। अर्को शब्दमा, दुई क्रमहरू बीच केही सम्बन्ध देखिन्छ।
> सहसंबंधले दुई क्रमहरू बीचको कारणात्मक सम्बन्धलाई अनिवार्य रूपमा संकेत गर्दैन; कहिलेकाहीं दुवै चरहरू केही बाह्य कारणमा निर्भर हुन सक्छन्, वा यो शुद्ध संयोगले दुई क्रमहरू सहसंबद्ध हुन सक्छ। तर, बलियो गणितीय सहसंबंधले दुई चरहरू कुनै न कुनै रूपमा जडित छन् भन्ने राम्रो संकेत हो।
गणितीय रूपमा, दुई यादृच्छिक चरहरू बीचको सम्बन्ध देखाउने मुख्य अवधारणा **सहविचलन** हो, जुन यसरी गणना गरिन्छ: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]। हामी दुवै चरहरूको औसत मानबाट विचलन गणना गर्छौं, र त्यस विचलनहरूको गुणनफल। यदि दुवै चरहरू सँगै विचलित हुन्छन्, गुणनफल सधैं सकारात्मक मान हुनेछ, जसले सकारात्मक सहविचलनमा थप्नेछ। यदि दुवै चरहरू असंगत रूपमा विचलित हुन्छन् (अर्थात् एउटा औसतभन्दा तल झर्दा अर्को औसतभन्दा माथि बढ्छ), हामी सधैं नकारात्मक संख्याहरू पाउँछौं, जसले नकारात्मक सहविचलनमा थप्नेछ। यदि विचलनहरू निर्भर छैनन्, तिनीहरूले लगभग शून्यमा थप्नेछन्।
सहविचलनको पूर्ण मानले हामीलाई सहसंबंध कति ठूलो छ भन्ने बारे धेरै बताउँदैन, किनकि यो वास्तविक मानहरूको परिमाणमा निर्भर गर्दछ। यसलाई सामान्य बनाउन, हामी दुवै चरहरूको मानक विचलनद्वारा सहविचलनलाई विभाजन गर्न सक्छौं, **सहसंबंध** प्राप्त गर्न। राम्रो कुरा यो हो कि सहसंबंध सधैं [-1,1] को दायरामा हुन्छ, जहाँ 1 ले मानहरू बीचको बलियो सकारात्मक सहसंबंध संकेत गर्दछ, -1 - बलियो नकारात्मक सहसंबंध, र 0 - कुनै सहसंबंध छैन (चरहरू स्वतन्त्र छन्)।
**उदाहरण**: हामी बेसबल खेलाडीहरूको डेटासेटबाट वजन र उचाइ बीचको सहसंबंध गणना गर्न सक्छौं:
```python
print(np.corrcoef(weights,heights))
```
नतिजाको रूपमा, हामी यस्तो **सहसंबंध म्याट्रिक्स** प्राप्त गर्छौं:
```
array([[1. , 0.52959196],
[0.52959196, 1. ]])
```
> सहसंबंध म्याट्रिक्स C कुनै पनि संख्याको इनपुट क्रमहरू S<sub>1</sub>, ..., S<sub>n</sub> को लागि गणना गर्न सकिन्छ। C<sub>ij</sub> को मान S<sub>i</sub> र S<sub>j</sub> बीचको सहसंबंध हो, र कर्ण तत्वहरू सधैं 1 हुन्छन् (जसलाई S<sub>i</sub> को आत्म-सहसंबंध पनि भनिन्छ)।
हाम्रो केसमा, मान 0.53 ले व्यक्तिको वजन र उचाइ बीच केही सहसंबंध रहेको संकेत गर्दछ। हामी सम्बन्धलाई दृश्य रूपमा हेर्नको लागि एउटा मानलाई अर्कोको विरुद्ध स्क्याटर प्लट बनाउन सक्छौं:
![वजन र उचाइ बीचको सम्बन्ध](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.ne.png)
> सहसंबंध र सहविचलनका थप उदाहरणहरू [संगत नोटबुक](notebook.ipynb) मा भेट्न सकिन्छ।
## निष्कर्ष
यस खण्डमा, हामीले सिक्यौं:
* डेटा को आधारभूत सांख्यिकीय गुणहरू, जस्तै औसत, विचलन, मोड र क्वार्टाइलहरू
* यादृच्छिक चरहरूको विभिन्न वितरणहरू, सामान्य वितरण सहित
* विभिन्न गुणहरू बीचको सहसंबंध कसरी पत्ता लगाउने
* केही परिकल्पनाहरू प्रमाणित गर्न गणित र सांख्यिकीको ध्वनि उपकरण कसरी प्रयोग गर्ने
* डेटा नमूना दिइएको यादृच्छिक चरको लागि विश्वास अन्तराल कसरी गणना गर्ने
यद्यपि यो सम्भाव्यता र सांख्यिकी भित्रका विषयहरूको पूर्ण सूची होइन, यो तपाईंलाई यस पाठ्यक्रममा राम्रो सुरुवात दिन पर्याप्त हुनुपर्छ।
## 🚀 चुनौती
नोटबुकमा रहेको नमूना कोड प्रयोग गरेर अन्य परिकल्पनाहरू परीक्षण गर्नुहोस्:
1. फर्स्ट बेसम्यान सेकेन्ड बेसम्यानभन्दा पुराना छन्
2. फर्स्ट बेसम्यान थर्ड बेसम्यानभन्दा अग्लो छन्
3. शोर्टस्टप सेकेन्ड बेसम्यानभन्दा अग्लो छन्
## [पाठपश्चात क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/7)
## समीक्षा र आत्म अध्ययन
संभाव्यता र सांख्यिकी यति व्यापक विषय हो कि यसले आफ्नै पाठ्यक्रमको हकदार छ। यदि तपाईं सिद्धान्तमा गहिरो जान इच्छुक हुनुहुन्छ भने, तपाईं निम्न पुस्तकहरू पढ्न जारी राख्न चाहनुहुन्छ:
1. [न्यूयोर्क विश्वविद्यालयका कार्लोस फर्नान्डेज-ग्रान्डा](https://cims.nyu.edu/~cfgranda/) का उत्कृष्ट व्याख्यान नोटहरू [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (अनलाइन उपलब्ध)
1. [पिटर र एन्ड्रु ब्रुस। Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R मा नमूना कोड](https://github.com/andrewgbruce/statistics-for-data-scientists)]।
1. [जेम्स डी. मिलर। Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[R मा नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
## असाइनमेन्ट
[सानो मधुमेह अध्ययन](assignment.md)
## श्रेय
यो पाठ [दिमित्री सश्निकोभ](http://soshnikov.com) द्वारा ♥️ सहित लेखिएको हो।
---
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।