You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ne/1-Introduction/04-stats-and-probability
leestott 25efceea2e
🌐 Update translations via Co-op Translator
2 weeks ago
..
solution 🌐 Update translations via Co-op Translator 2 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.ipynb 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 2 weeks ago

README.md

तथ्यांक र सम्भाव्यता: एक संक्षिप्त परिचय

 Sketchnote by (@sketchthedocs)
तथ्यांक र सम्भाव्यता - Sketchnote by @nitya

तथ्यांक र सम्भाव्यता सिद्धान्त गणितका दुई अत्यन्तै सम्बन्धित क्षेत्रहरू हुन्, जसको डाटा विज्ञानमा ठूलो महत्त्व छ। गहिरो गणितीय ज्ञान बिना पनि डाटासँग काम गर्न सम्भव छ, तर कम्तीमा केही आधारभूत अवधारणाहरू थाहा हुनु राम्रो हुन्छ। यहाँ हामी तपाईंलाई सुरु गर्न मद्दत गर्ने छोटो परिचय प्रस्तुत गर्नेछौं।

Intro Video

पाठ अघि क्विज

सम्भाव्यता र र्‍यान्डम भेरिएबलहरू

सम्भाव्यता र १ को बीचको संख्या हो, जसले कुनै घटना कति सम्भावित छ भन्ने जनाउँछ। यो सकारात्मक परिणामहरूको संख्या (जसले घटनालाई निम्त्याउँछ) लाई कुल परिणामहरूको संख्याद्वारा विभाजन गरेर परिभाषित गरिन्छ, यदि सबै परिणामहरू समान सम्भावित छन् भने। उदाहरणका लागि, जब हामी पासा फाल्छौं, सम संख्या आउने सम्भाव्यता 3/6 = 0.5 हुन्छ।

जब हामी घटनाहरूको कुरा गर्छौं, हामी र्‍यान्डम भेरिएबलहरू प्रयोग गर्छौं। उदाहरणका लागि, पासा फाल्दा प्राप्त हुने संख्यालाई प्रतिनिधित्व गर्ने र्‍यान्डम भेरिएबलले १ देखि ६ सम्मका मानहरू लिन्छ। १ देखि ६ सम्मको संख्याको समूहलाई नमूना स्थान (sample space) भनिन्छ। हामी कुनै निश्चित मान लिन र्‍यान्डम भेरिएबलको सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(X=3)=1/6।

माथिको उदाहरणमा रहेको र्‍यान्डम भेरिएबललाई डिस्क्रिट (discrete) भनिन्छ, किनभने यसको नमूना स्थान गणनायोग्य छ, अर्थात् छुट्टाछुट्टै मानहरू छन् जसलाई गन्न सकिन्छ। केही अवस्थामा नमूना स्थान वास्तविक संख्याहरूको दायरा वा सम्पूर्ण वास्तविक संख्याहरूको समूह हुन सक्छ। यस्ता भेरिएबलहरूलाई कन्टिनुअस (continuous) भनिन्छ। यसको राम्रो उदाहरण बस आउने समय हो।

सम्भाव्यता वितरण

डिस्क्रिट र्‍यान्डम भेरिएबलहरूको सन्दर्भमा, प्रत्येक घटनाको सम्भाव्यता P(X) नामक कार्यद्वारा वर्णन गर्न सजिलो हुन्छ। नमूना स्थान S बाट प्रत्येक मान s का लागि यसले देखि १ सम्मको संख्या दिन्छ, जसले गर्दा सबै घटनाहरूको लागि P(X=s) को मानहरूको योग १ हुन्छ।

सबैभन्दा प्रख्यात डिस्क्रिट वितरण यूनिफर्म वितरण हो, जसमा N तत्त्वहरूको नमूना स्थान हुन्छ, र प्रत्येकको सम्भाव्यता 1/N हुन्छ।

कन्टिनुअस भेरिएबलको सम्भाव्यता वितरण वर्णन गर्न भने अलि गाह्रो हुन्छ, जसका मानहरू [a,b] को कुनै दायरा वा सम्पूर्ण वास्तविक संख्याहरू बाट लिइन्छ। बस आउने समयको उदाहरणलाई विचार गर्नुहोस्। वास्तवमा, कुनै निश्चित समय t मा बस आउने सम्भाव्यता हुन्छ!

अब तपाईंलाई थाहा भयो कि सम्भाव्यता भएका घटनाहरू पनि हुन्छन्, र धेरै पटक हुन्छन्! कम्तीमा बस आउने प्रत्येक पटक!

हामी केवल कुनै निश्चित मानहरूको दायरामा भेरिएबल पर्ने सम्भाव्यताको कुरा गर्न सक्छौं, जस्तै P(t1≤X<t2)। यस अवस्थामा, सम्भाव्यता वितरणलाई सम्भाव्यता घनत्व कार्य (probability density function) p(x) द्वारा वर्णन गरिन्छ, जसले गर्दा

P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx

यूनिफर्म वितरणको कन्टिनुअस संस्करणलाई कन्टिनुअस यूनिफर्म भनिन्छ, जुन सीमित दायरामा परिभाषित हुन्छ। कुनै निश्चित लम्बाइ l को दायरामा X पर्ने सम्भाव्यता l को समानुपातिक हुन्छ, र १ सम्म पुग्छ।

अर्को महत्त्वपूर्ण वितरण नर्मल वितरण हो, जसको बारेमा हामी तल विस्तृत रूपमा कुरा गर्नेछौं।

माध्य, विचलन र मानक विचलन

मानौं हामीले X नामक र्‍यान्डम भेरिएबलका n नमूनाहरूको शृंखला लियौं: x1, x2, ..., xn। हामी शृंखलाको माध्य (mean) (वा गणितीय औसत) परम्परागत तरिकाले परिभाषित गर्न सक्छौं: (x1+x2+...+xn)/n। जब हामी नमूनाको आकार बढाउँछौं (अर्थात् n→∞ मा पुग्छौं), हामी वितरणको माध्य (जसलाई अपेक्षा (expectation) पनि भनिन्छ) प्राप्त गर्नेछौं। हामी अपेक्षालाई E(x) द्वारा जनाउँछौं।

यो देखाउन सकिन्छ कि {x1, x2, ..., xN} मानहरू र तिनीहरूका सम्भाव्यता p1, p2, ..., pN भएको कुनै पनि डिस्क्रिट वितरणको लागि अपेक्षा E(X)=x1p1+x2p2+...+xNpN बराबर हुन्छ।

मानहरू कति फैलिएका छन् भनेर थाहा पाउन, हामी विचलन σ2 = ∑(xi - μ)2/n गणना गर्न सक्छौं, जहाँ μ शृंखलाको माध्य हो। σ लाई मानक विचलन (standard deviation) भनिन्छ, र σ2 लाई विचलन (variance) भनिन्छ।

मोड, माध्यिका र क्वार्टाइलहरू

कहिलेकाहीँ, माध्यले डाटाको "सामान्य" मानलाई पर्याप्त रूपमा प्रतिनिधित्व गर्दैन। उदाहरणका लागि, जब केही अत्यधिक मानहरू हुन्छन्, जसले माध्यलाई धेरै प्रभावित गर्न सक्छ। अर्को राम्रो सूचक माध्यिका (median) हो, यस्तो मान जसको तल ५०% डाटा पर्छ र माथि ५०%।

डाटाको वितरण बुझ्न, क्वार्टाइलहरू को कुरा गर्नु उपयोगी हुन्छ:

  • पहिलो क्वार्टाइल, वा Q1, यस्तो मान हो, जसको तल २५% डाटा पर्छ।
  • तेस्रो क्वार्टाइल, वा Q3, यस्तो मान हो, जसको तल ७५% डाटा पर्छ।

ग्राफिकल रूपमा, हामी माध्यिका र क्वार्टाइलहरूको सम्बन्धलाई बक्स प्लट (box plot) मा देखाउन सक्छौं:

Box Plot Explanation

यहाँ हामी इन्टर-क्वार्टाइल रेन्ज (inter-quartile range) IQR=Q3-Q1 पनि गणना गर्छौं, र तथाकथित आउटलायर्स (outliers) - यस्ता मानहरू, जो [Q1-1.5IQR, Q3+1.5IQR] को सीमाभन्दा बाहिर पर्छन्।

यदि वितरण सीमित छ र सम्भावित मानहरूको संख्या सानो छ भने, राम्रो "सामान्य" मान त्यो हो, जुन सबैभन्दा धेरै पटक देखा पर्छ, जसलाई मोड (mode) भनिन्छ। यो प्रायः श्रेणीगत डाटामा लागू हुन्छ, जस्तै रङहरू। मानौं, हामीसँग दुई समूहका मानिसहरू छन् - केहीले रातोलाई प्राथमिकता दिन्छन्, र अरूले नीलोलाई। यदि हामी रङहरूलाई सङ्ख्याहरूद्वारा कोड गर्छौं भने, मनपर्ने रङको माध्य मान कतै सुन्तला-हरियो स्पेक्ट्रममा पर्न सक्छ, जसले कुनै पनि समूहको वास्तविक प्राथमिकतालाई जनाउँदैन। तर, मोड भने या त कुनै एक रङ हुनेछ, या दुवै रङ, यदि तिनीहरूलाई मन पराउने मानिसहरूको संख्या बराबर छ (यस अवस्थामा हामी नमूनालाई मल्टिमोडल (multimodal) भन्छौं)।

वास्तविक जीवनको डाटा

जब हामी वास्तविक जीवनको डाटाको विश्लेषण गर्छौं, ती डाटा प्रायः र्‍यान्डम भेरिएबलहरू जस्ता हुँदैनन्, किनभने हामी अज्ञात परिणामसहितको प्रयोग गर्दैनौं। उदाहरणका लागि, बेसबल खेलाडीहरूको टोलीलाई विचार गर्नुहोस्, र तिनीहरूको उचाइ, तौल र उमेर जस्ता शारीरिक डाटालाई। ती सङ्ख्याहरू ठ्याक्कै र्‍यान्डम हुँदैनन्, तर हामी अझै पनि उही गणितीय अवधारणाहरू लागू गर्न सक्छौं। उदाहरणका लागि, मानिसहरूको तौलको शृङ्खलालाई केही र्‍यान्डम भेरिएबलबाट लिइएका मानहरूको शृङ्खला मान्न सकिन्छ। तल मेजर लिग बेसबल का वास्तविक खेलाडीहरूको तौलको शृङ्खला छ, जुन यस डेटासेट बाट लिइएको हो (तपाईंको सुविधाका लागि, केवल पहिलो २० मानहरू देखाइएको छ):

[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]

Note: यस डेटासेटसँग काम गर्ने उदाहरण हेर्न, सङ्गसँगैको नोटबुक हेर्नुहोस्। यस पाठभरि धेरै चुनौतीहरू छन्, र तपाईं केही कोड थपेर ती नोटबुकमा पूरा गर्न सक्नुहुन्छ। यदि तपाईंलाई डाटामा कसरी काम गर्ने थाहा छैन भने, चिन्ता नगर्नुहोस् - हामी पछि पाइथन प्रयोग गरेर डाटामा काम गर्न फर्कनेछौं। यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, यो लेख हेर्नुहोस्।

यहाँ हाम्रो डाटाको लागि माध्य, माध्यिका र क्वार्टाइलहरू देखाउने बक्स प्लट छ:

Weight Box Plot

हाम्रो डाटामा विभिन्न खेलाडीका भूमिकाहरू को जानकारी समावेश भएकाले, हामी भूमिकाअनुसार बक्स प्लट पनि बनाउन सक्छौं - यसले हामीलाई बुझ्न मद्दत गर्छ कि भूमिकाहरूमा आधारित रूपमा मानहरू कसरी फरक छन्। यस पटक हामी उचाइलाई विचार गर्नेछौं:

Box plot by role

यो चित्रले सुझाव दिन्छ कि, औसतमा, पहिलो बेसम्यानहरूको उचाइ दोस्रो बेसम्यानहरूको उचाइभन्दा बढी छ। यस पाठको पछि, हामी यो परिकल्पनालाई औपचारिक रूपमा परीक्षण गर्ने र हाम्रो डाटा सांख्यिकीय रूपमा महत्त्वपूर्ण छ भनेर देखाउने तरिका सिक्नेछौं।

जब हामी वास्तविक जीवनको डाटामा काम गर्छौं, हामी मान्छौं कि सबै डाटा बिन्दुहरू केही सम्भाव्यता वितरणबाट लिइएका नमूनाहरू हुन्। यो मान्यताले हामीलाई मेसिन लर्निङ प्रविधिहरू लागू गर्न र काम गर्ने भविष्यवाणी मोडेलहरू निर्माण गर्न अनुमति दिन्छ।

हाम्रो डाटाको वितरण कस्तो छ भनेर हेर्न, हामी हिस्टोग्राम नामक ग्राफ बनाउन सक्छौं। X-अक्षमा विभिन्न तौल अन्तरालहरूको संख्या (जसलाई बिनहरू भनिन्छ) हुनेछ, र ठाडो अक्षमा हाम्रो र्‍यान्डम भेरिएबल नमूना कुनै निश्चित अन्तरालभित्र भएको संख्या देखाइनेछ।

Histogram of real world data

यस हिस्टोग्रामबाट तपाईं देख्न सक्नुहुन्छ कि सबै मानहरू निश्चित माध्य तौलको वरिपरि केन्द्रित छन्, र हामी त्यो तौलबाट जति टाढा जान्छौं, त्यति नै कम तौलका मानहरू भेटिन्छन्। अर्थात्, बेसबल खेलाडीको तौल माध्य तौलभन्दा धेरै फरक हुने सम्भाव्यता धेरै कम छ। तौलहरूको विचलनले तौलहरू माध्यबाट कति फरक हुन सक्छन् भन्ने देखाउँछ।

यदि हामी बेसबल लिगका होइन, अन्य मानिसहरूको तौल लिन्छौं भने, वितरण फरक हुने सम्भावना छ। तर, वितरणको आकार उस्तै हुनेछ, तर माध्य र विचलन परिवर्तन हुनेछ। त्यसैले, यदि हामीले हाम्रो मोडेल बेसबल खेलाडीहरूमा प्रशिक्षण गर्‍यौं भने, यो विश्वविद्यालयका विद्यार्थीहरूमा लागू गर्दा गलत परिणाम दिन सक्छ, किनभने आधारभूत वितरण फरक छ।

नर्मल वितरण

हाम्रो माथिको तौलहरूको वितरण धेरै सामान्य छ, र वास्तविक जीवनका धेरै मापनहरू उस्तै प्रकारको वितरण अनुसरण गर्छन्, तर फरक माध्य र विचलनका साथ। यस वितरणलाई नर्मल वितरण भनिन्छ, र यसले तथ्याङ्कमा धेरै महत्त्वपूर्ण भूमिका खेल्छ।

नर्मल वितरण प्रयोग गर्नु बेसबल खेलाडीहरूको सम्भावित तौलहरू उत्पन्न गर्ने सही तरिका हो। एक पटक हामीलाई माध्य तौल mean र मानक विचलन std थाहा भयो भने, हामी १००० तौल नमूनाहरू निम्न तरिकाले उत्पन्न गर्न सक्छौं:

samples = np.random.normal(mean,std,1000)

यदि हामी उत्पन्न गरिएका नमूनाहरूको हिस्टोग्राम बनाउँछौं भने, माथि देखाइएको चित्रसँग धेरै मिल्दोजुल्दो चित्र देखिनेछ। र यदि हामी नमूनाहरूको संख्या र बिनहरूको संख्या बढाउँछौं भने, हामी नर्मल वितरणको आदर्श चित्र बनाउन सक्छौं:

Normal Distribution with mean=0 and std.dev=1

माध्य=0 र मानक विचलन=1 भएको नर्मल वितरण

विश्वास अन्तराल (Confidence Intervals)

जब हामी बेसबल खेलाडीहरूको तौलको कुरा गर्छौं, हामी मान्छौं कि त्यहाँ निश्चित र्‍यान्डम भेरिएबल W छ, जसले सबै बेसबल खेलाडीहरूको तौलको आदर्श सम्भाव्यता वितरणलाई प्रतिनिधित्व गर्छ (जसलाई जनसंख्या (population) भनिन्छ)। हाम्रो तौलहरूको शृङ्खला सबै बेसबल खेलाडीहरूको उपसमूहलाई प्रतिनिधित्व गर्छ, जसलाई हामी नमूना (sample) भन्छौं। एउटा रोचक प्रश्न यो हो कि, के हामी W को वितरणका प्यारामिटरहरू, अर्थात् जनसंख्याको माध्य र विचलन थाहा पाउन सक्छौं?

सबैभन्दा सजिलो उत्तर भनेको हाम्रो नमूनाको माध्य र विचलन गणना गर्नु हो। तर, यस्तो हुन सक्छ कि हाम्रो र्‍यान्डम नमूनाले सम्पूर्ण जनसंख्यालाई सही रूपमा प्रतिनिधित्व गर्दैन। त्यसैले विश्वास अन्तराल (confidence interval) को कुरा गर्नु उचित हुन्छ।

विश्वास अन्तराल भनेको हाम्रो नमूनालाई दिइएको जनसंख्याको वास्तविक माध्यको अनुमान हो, जुन निश्चित सम्भाव्यता (वा विश्वासको स्तर) मा सही हुन्छ।

1, ..., Xn हाम्रो वितरणबाट। प्रत्येक पटक हामी हाम्रो वितरणबाट नमूना लिन्छौं, हामी फरक औसत मान μ पाउँछौं। त्यसैले μ लाई एक यादृच्छिक चर मान्न सकिन्छ। विश्वास अन्तराल विश्वास p संग दुई मानहरूको जोडी हो (Lp,Rp), जसमा P(Lp≤μ≤Rp) = p, अर्थात् मापन गरिएको औसत मान अन्तराल भित्र पर्ने सम्भावना p बराबर हुन्छ।

विश्वास अन्तराल कसरी गणना गरिन्छ भन्ने विस्तृत चर्चा हाम्रो छोटो परिचय भन्दा बाहिर जान्छ। थप विवरण विकिपिडिया मा भेट्न सकिन्छ। संक्षेपमा, हामी जनसंख्याको वास्तविक औसतको सापेक्ष गणना गरिएको नमूना औसतको वितरणलाई परिभाषित गर्छौं, जसलाई स्टुडेन्ट वितरण भनिन्छ।

रोचक तथ्य: स्टुडेन्ट वितरणको नाम गणितज्ञ विलियम सीली गोसेटको नाममा राखिएको हो, जसले आफ्नो कागज "स्टुडेन्ट" उपनाम अन्तर्गत प्रकाशित गरे। उनी गिनीज ब्रुअरीमा काम गर्थे, र, एउटा संस्करण अनुसार, उनको नियोक्ताले कच्चा सामग्रीको गुणस्तर निर्धारण गर्न सांख्यिकीय परीक्षण प्रयोग गरिरहेको कुरा सार्वजनिकलाई थाहा होस् भन्ने चाहँदैनथ्यो।

यदि हामी हाम्रो जनसंख्याको औसत μ विश्वास p संग अनुमान गर्न चाहन्छौं भने, हामीलाई स्टुडेन्ट वितरण A को (1-p)/2-थ प्रतिशतक लिनुपर्छ, जुन तालिकाबाट लिइन सक्छ, वा सांख्यिकीय सफ्टवेयर (जस्तै Python, R, आदि) को केही बिल्ट-इन फङ्सन प्रयोग गरेर गणना गर्न सकिन्छ। त्यसपछि μ को लागि अन्तराल X±A*D/√n हुनेछ, जहाँ X नमूनाको प्राप्त औसत हो, D मानक विचलन हो।

नोट: हामी डिग्री अफ फ्रिडम को महत्त्वपूर्ण अवधारणाको चर्चा पनि छोड्छौं, जुन स्टुडेन्ट वितरणसँग सम्बन्धित छ। यो अवधारणालाई गहिरो रूपमा बुझ्नको लागि सांख्यिकीमा पूर्ण पुस्तकहरू हेर्न सकिन्छ।

वजन र उचाइको लागि विश्वास अन्तराल गणना गर्ने उदाहरण संगत नोटबुकहरू मा दिइएको छ।

p वजन औसत
0.85 201.73±0.94
0.90 201.73±1.08
0.95 201.73±1.28

ध्यान दिनुहोस् कि विश्वास सम्भावना जति उच्च हुन्छ, विश्वास अन्तराल त्यति नै चौडा हुन्छ।

परिकल्पना परीक्षण

हाम्रो बेसबल खेलाडीहरूको डेटासेटमा विभिन्न खेलाडी भूमिकाहरू छन्, जुन तल सारांशित गर्न सकिन्छ (यो तालिका कसरी गणना गर्न सकिन्छ हेर्न संगत नोटबुक हेर्नुहोस्):

भूमिका उचाइ वजन संख्या
क्याचर 72.723684 204.328947 76
डिजिनेटेड_हिटर 74.222222 220.888889 18
फर्स्ट_बेसम्यान 74.000000 213.109091 55
आउटफिल्डर 73.010309 199.113402 194
रिलिफ_पिचर 74.374603 203.517460 315
सेकेन्ड_बेसम्यान 71.362069 184.344828 58
शोर्टस्टप 71.903846 182.923077 52
स्टार्टिंग_पिचर 74.719457 205.163636 221
थर्ड_बेसम्यान 73.044444 200.955556 45

हामी देख्न सक्छौं कि फर्स्ट बेसम्यानको औसत उचाइ सेकेन्ड बेसम्यानको भन्दा उच्च छ। त्यसैले, हामी फर्स्ट बेसम्यान सेकेन्ड बेसम्यानभन्दा अग्लो हुन्छन् भन्ने निष्कर्ष निकाल्न इच्छुक हुन सक्छौं।

यो कथनलाई परिकल्पना भनिन्छ, किनकि हामीलाई थाहा छैन कि यो तथ्य वास्तवमा सत्य हो वा होइन।

तर, यो निष्कर्ष निकाल्न सकिन्छ कि छैन भन्ने कुरा सधैं स्पष्ट हुँदैन। माथिको छलफलबाट हामी जान्दछौं कि प्रत्येक औसतसँग सम्बन्धित विश्वास अन्तराल हुन्छ, र त्यसैले यो भिन्नता केवल सांख्यिकीय त्रुटि हुन सक्छ। हामीलाई हाम्रो परिकल्पनाको परीक्षण गर्न केही औपचारिक तरिका चाहिन्छ।

हामी फर्स्ट र सेकेन्ड बेसम्यानको उचाइको लागि विश्वास अन्तराल अलग-अलग गणना गरौं:

विश्वास फर्स्ट बेसम्यान सेकेन्ड बेसम्यान
0.85 73.62..74.38 71.04..71.69
0.90 73.56..74.44 70.99..71.73
0.95 73.47..74.53 70.92..71.81

हामी देख्न सक्छौं कि कुनै पनि विश्वासमा अन्तरालहरू ओभरल्याप गर्दैनन्। यसले हाम्रो परिकल्पनालाई प्रमाणित गर्दछ कि फर्स्ट बेसम्यान सेकेन्ड बेसम्यानभन्दा अग्लो हुन्छन्।

अझ औपचारिक रूपमा, हामीले समाधान गर्न खोजिरहेको समस्या भनेको दुई सम्भाव्यता वितरणहरू समान छन् कि छैनन्, वा कम्तीमा समान प्यारामिटरहरू छन्। वितरणको आधारमा, हामीले त्यसका लागि विभिन्न परीक्षणहरू प्रयोग गर्नुपर्छ। यदि हामीलाई थाहा छ कि हाम्रो वितरणहरू सामान्य छन्, हामी स्टुडेन्ट टि-टेस्ट लागू गर्न सक्छौं।

स्टुडेन्ट टि-टेस्टमा, हामी तथाकथित t-value गणना गर्छौं, जसले औसतहरू बीचको भिन्नता संकेत गर्दछ, विचलनलाई ध्यानमा राख्दै। यो देखाइएको छ कि t-value स्टुडेन्ट वितरण अनुसरण गर्दछ, जसले हामीलाई दिइएको विश्वास स्तर p को लागि थ्रेसहोल्ड मान प्राप्त गर्न अनुमति दिन्छ (यो गणना गर्न सकिन्छ, वा संख्यात्मक तालिकाहरूमा हेर्न सकिन्छ)। त्यसपछि हामी t-value लाई यो थ्रेसहोल्डसँग तुलना गर्छौं परिकल्पनालाई स्वीकृत वा अस्वीकार गर्न।

Python मा, हामी SciPy प्याकेज प्रयोग गर्न सक्छौं, जसमा ttest_ind फङ्सन समावेश छ (थुप्रै अन्य उपयोगी सांख्यिकीय फङ्सनहरू सहित!)। यसले हाम्रो लागि t-value गणना गर्छ, र विश्वास p-value को रिभर्स लुकअप पनि गर्छ, ताकि हामी केवल विश्वासलाई हेरेर निष्कर्ष निकाल्न सकौं।

उदाहरणका लागि, फर्स्ट र सेकेन्ड बेसम्यानको उचाइको तुलना गर्दा हामीलाई निम्न परिणाम प्राप्त हुन्छ:

from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
T-value = 7.65
P-value: 9.137321189738925e-12

हाम्रो केसमा, p-value धेरै कम छ, जसको अर्थ फर्स्ट बेसम्यान अग्लो हुने बलियो प्रमाण छ।

त्यहाँ अन्य विभिन्न प्रकारका परिकल्पनाहरू पनि छन् जुन हामी परीक्षण गर्न चाहन्छौं, उदाहरणका लागि:

  • कुनै नमूना कुनै वितरण अनुसरण गर्छ भन्ने प्रमाणित गर्न। हाम्रो केसमा हामीले मान्य गरेका छौं कि उचाइहरू सामान्य रूपमा वितरण गरिएका छन्, तर त्यसलाई औपचारिक सांख्यिकीय प्रमाण चाहिन्छ।
  • नमूनाको औसत मान कुनै पूर्वनिर्धारित मानसँग मेल खान्छ भन्ने प्रमाणित गर्न
  • विभिन्न नमूनाहरूको औसत तुलना गर्न (जस्तै, विभिन्न उमेर समूहहरू बीचको खुशी स्तरमा के भिन्नता छ)

ठूलो संख्याको नियम र केन्द्रीय सीमा प्रमेय

सामान्य वितरण किन महत्त्वपूर्ण छ भन्ने कारणहरू मध्ये एक केन्द्रीय सीमा प्रमेय हो। मानौं हामीसँग स्वतन्त्र N मानहरूको ठूलो नमूना छ X1, ..., XN, जुन कुनै पनि वितरणबाट औसत μ र विचलन σ2 सहित नमूना गरिएको छ। त्यसपछि, पर्याप्त ठूलो N को लागि (अर्को शब्दमा, जब N→∞), औसत ΣiXi सामान्य रूपमा वितरण गरिनेछ, औसत μ र विचलन σ2/N सहित।

केन्द्रीय सीमा प्रमेयलाई व्याख्या गर्ने अर्को तरिका भनेको भन्नु हो कि वितरणको परवाह नगरी, जब तपाईं कुनै पनि यादृच्छिक चर मानहरूको योगको औसत गणना गर्नुहुन्छ, तपाईं सामान्य वितरणमा पुग्नुहुन्छ।

केन्द्रीय सीमा प्रमेयबाट यो पनि निष्कर्ष निकाल्न सकिन्छ कि, जब N→∞, नमूनाको औसत μ बराबर हुने सम्भावना 1 हुन्छ। यसलाई ठूलो संख्याको नियम भनिन्छ।

सहसंबंध र सहविचलन

डेटा विज्ञानले गर्ने कामहरू मध्ये एक भनेको डेटा बीचको सम्बन्ध पत्ता लगाउनु हो। हामी भन्छौं कि दुई क्रमहरू सहसंबद्ध छन् जब तिनीहरूले एकै समयमा समान व्यवहार देखाउँछन्, अर्थात् तिनीहरू एकसाथ बढ्छन्/घट्छन्, वा एउटा क्रम बढ्दा अर्को घट्छ र उल्टो। अर्को शब्दमा, दुई क्रमहरू बीच केही सम्बन्ध देखिन्छ।

सहसंबंधले दुई क्रमहरू बीचको कारणात्मक सम्बन्धलाई अनिवार्य रूपमा संकेत गर्दैन; कहिलेकाहीं दुवै चरहरू केही बाह्य कारणमा निर्भर हुन सक्छन्, वा यो शुद्ध संयोगले दुई क्रमहरू सहसंबद्ध हुन सक्छ। तर, बलियो गणितीय सहसंबंधले दुई चरहरू कुनै न कुनै रूपमा जडित छन् भन्ने राम्रो संकेत हो।

गणितीय रूपमा, दुई यादृच्छिक चरहरू बीचको सम्बन्ध देखाउने मुख्य अवधारणा सहविचलन हो, जुन यसरी गणना गरिन्छ: Cov(X,Y) = E[(X-E(X))(Y-E(Y))]। हामी दुवै चरहरूको औसत मानबाट विचलन गणना गर्छौं, र त्यस विचलनहरूको गुणनफल। यदि दुवै चरहरू सँगै विचलित हुन्छन्, गुणनफल सधैं सकारात्मक मान हुनेछ, जसले सकारात्मक सहविचलनमा थप्नेछ। यदि दुवै चरहरू असंगत रूपमा विचलित हुन्छन् (अर्थात् एउटा औसतभन्दा तल झर्दा अर्को औसतभन्दा माथि बढ्छ), हामी सधैं नकारात्मक संख्याहरू पाउँछौं, जसले नकारात्मक सहविचलनमा थप्नेछ। यदि विचलनहरू निर्भर छैनन्, तिनीहरूले लगभग शून्यमा थप्नेछन्।

सहविचलनको पूर्ण मानले हामीलाई सहसंबंध कति ठूलो छ भन्ने बारे धेरै बताउँदैन, किनकि यो वास्तविक मानहरूको परिमाणमा निर्भर गर्दछ। यसलाई सामान्य बनाउन, हामी दुवै चरहरूको मानक विचलनद्वारा सहविचलनलाई विभाजन गर्न सक्छौं, सहसंबंध प्राप्त गर्न। राम्रो कुरा यो हो कि सहसंबंध सधैं [-1,1] को दायरामा हुन्छ, जहाँ 1 ले मानहरू बीचको बलियो सकारात्मक सहसंबंध संकेत गर्दछ, -1 - बलियो नकारात्मक सहसंबंध, र 0 - कुनै सहसंबंध छैन (चरहरू स्वतन्त्र छन्)।

उदाहरण: हामी बेसबल खेलाडीहरूको डेटासेटबाट वजन र उचाइ बीचको सहसंबंध गणना गर्न सक्छौं:

print(np.corrcoef(weights,heights))

नतिजाको रूपमा, हामी यस्तो सहसंबंध म्याट्रिक्स प्राप्त गर्छौं:

array([[1.        , 0.52959196],
       [0.52959196, 1.        ]])

सहसंबंध म्याट्रिक्स C कुनै पनि संख्याको इनपुट क्रमहरू S1, ..., Sn को लागि गणना गर्न सकिन्छ। Cij को मान Si र Sj बीचको सहसंबंध हो, र कर्ण तत्वहरू सधैं 1 हुन्छन् (जसलाई Si को आत्म-सहसंबंध पनि भनिन्छ)।

हाम्रो केसमा, मान 0.53 ले व्यक्तिको वजन र उचाइ बीच केही सहसंबंध रहेको संकेत गर्दछ। हामी सम्बन्धलाई दृश्य रूपमा हेर्नको लागि एउटा मानलाई अर्कोको विरुद्ध स्क्याटर प्लट बनाउन सक्छौं:

वजन र उचाइ बीचको सम्बन्ध

सहसंबंध र सहविचलनका थप उदाहरणहरू संगत नोटबुक मा भेट्न सकिन्छ।

निष्कर्ष

यस खण्डमा, हामीले सिक्यौं:

  • डेटा को आधारभूत सांख्यिकीय गुणहरू, जस्तै औसत, विचलन, मोड र क्वार्टाइलहरू
  • यादृच्छिक चरहरूको विभिन्न वितरणहरू, सामान्य वितरण सहित
  • विभिन्न गुणहरू बीचको सहसंबंध कसरी पत्ता लगाउने
  • केही परिकल्पनाहरू प्रमाणित गर्न गणित र सांख्यिकीको ध्वनि उपकरण कसरी प्रयोग गर्ने
  • डेटा नमूना दिइएको यादृच्छिक चरको लागि विश्वास अन्तराल कसरी गणना गर्ने

यद्यपि यो सम्भाव्यता र सांख्यिकी भित्रका विषयहरूको पूर्ण सूची होइन, यो तपाईंलाई यस पाठ्यक्रममा राम्रो सुरुवात दिन पर्याप्त हुनुपर्छ।

🚀 चुनौती

नोटबुकमा रहेको नमूना कोड प्रयोग गरेर अन्य परिकल्पनाहरू परीक्षण गर्नुहोस्:

  1. फर्स्ट बेसम्यान सेकेन्ड बेसम्यानभन्दा पुराना छन्
  2. फर्स्ट बेसम्यान थर्ड बेसम्यानभन्दा अग्लो छन्
  3. शोर्टस्टप सेकेन्ड बेसम्यानभन्दा अग्लो छन्

पाठपश्चात क्विज

समीक्षा र आत्म अध्ययन

संभाव्यता र सांख्यिकी यति व्यापक विषय हो कि यसले आफ्नै पाठ्यक्रमको हकदार छ। यदि तपाईं सिद्धान्तमा गहिरो जान इच्छुक हुनुहुन्छ भने, तपाईं निम्न पुस्तकहरू पढ्न जारी राख्न चाहनुहुन्छ:

  1. न्यूयोर्क विश्वविद्यालयका कार्लोस फर्नान्डेज-ग्रान्डा का उत्कृष्ट व्याख्यान नोटहरू Probability and Statistics for Data Science (अनलाइन उपलब्ध)
  2. पिटर र एन्ड्रु ब्रुस। Practical Statistics for Data Scientists. [R मा नमूना कोड]।
  3. जेम्स डी. मिलर। Statistics for Data Science [R मा नमूना कोड]

असाइनमेन्ट

सानो मधुमेह अध्ययन

श्रेय

यो पाठ दिमित्री सश्निकोभ द्वारा ♥️ सहित लेखिएको हो।


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।