|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "b706a07cfa87ba091cbb91e0aa775600",
|
|
|
"translation_date": "2025-08-30T19:24:56+00:00",
|
|
|
"source_file": "1-Introduction/04-stats-and-probability/README.md",
|
|
|
"language_code": "my"
|
|
|
}
|
|
|
-->
|
|
|
# စာရင်းအင်းနှင့် အလားအလာအကြောင်း အကျဉ်းချုပ်
|
|
|
|
|
|
| ](../../sketchnotes/04-Statistics-Probability.png)|
|
|
|
|:---:|
|
|
|
| စာရင်းအင်းနှင့် အလားအလာ - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
စာရင်းအင်းနှင့် အလားအလာ သီအိုရီများသည် သင်္ချာ၏ အလွန်နီးစပ်သော နယ်ပယ်နှစ်ခုဖြစ်ပြီး ဒေတာသိပ္ပံတွင် အလွန်အရေးပါသည်။ သင်္ချာအကြောင်းနက်နက်ရှိုင်းရှိုင်း မသိဘဲ ဒေတာနှင့် လုပ်ဆောင်နိုင်သည်။ သို့သော် အခြေခံအယူအဆများကို အနည်းဆုံး သိထားခြင်းက ပိုမိုကောင်းမွန်ပါသည်။ ဒီမှာ သင်စတင်နိုင်ရန် အကျိုးရှိမည့် အကျဉ်းချုပ်ကို တင်ပြပေးပါမည်။
|
|
|
|
|
|
[](https://youtu.be/Z5Zy85g4Yjw)
|
|
|
|
|
|
## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6)
|
|
|
|
|
|
## အလားအလာနှင့် အလားအလာမရေရာသော အပြောင်းအလဲများ
|
|
|
|
|
|
**အလားအလာ** ဆိုသည်မှာ 0 နှင့် 1 အကြားရှိ နံပါတ်တစ်ခုဖြစ်ပြီး **အဖြစ်အပျက်** တစ်ခုဖြစ်နိုင်မှုကို ဖော်ပြသည်။ ၎င်းကို အဖြစ်အပျက်ကို ဖြစ်စေသော အကောင်းဆုံးရလဒ်များ၏ အရေအတွက်ကို အားလုံးတူညီစွာဖြစ်နိုင်သော ရလဒ်များ၏ စုစုပေါင်းအရေအတွက်ဖြင့် ခွဲခြားခြင်းဖြင့် သတ်မှတ်သည်။ ဥပမာအားဖြင့် ကစားသမားတစ်ခုကို လွှဲလိုက်သောအခါ၊ စဉ်ကိန်းရရှိနိုင်မှုမှာ 3/6 = 0.5 ဖြစ်သည်။
|
|
|
|
|
|
အဖြစ်အပျက်များကို ပြောသောအခါ **အလားအလာမရေရာသော အပြောင်းအလဲများ** ကို အသုံးပြုသည်။ ဥပမာအားဖြင့် ကစားသမားတစ်ခုကို လွှဲလိုက်သောအခါရရှိသော နံပါတ်ကို ကိုယ်စားပြုသော အလားအလာမရေရာသော အပြောင်းအလဲသည် 1 မှ 6 အထိ တန်ဖိုးများကို ယူပါမည်။ 1 မှ 6 အထိ နံပါတ်များ၏ စုစုပေါင်းကို **နမူနာအကျယ်** ဟုခေါ်သည်။ အလားအလာမရေရာသော အပြောင်းအလဲသည် တန်ဖိုးတစ်ခုကို ယူနိုင်မှုအလားအလာကို ပြောနိုင်သည်။ ဥပမာအားဖြင့် P(X=3)=1/6 ဖြစ်သည်။
|
|
|
|
|
|
အထက်ပါ ဥပမာတွင် အလားအလာမရေရာသော အပြောင်းအလဲကို **Discrete** ဟုခေါ်သည်။ အကြောင်းမှာ ၎င်းတွင် ရေတွက်နိုင်သော နမူနာအကျယ်ရှိပြီး၊ သီးခြားတန်ဖိုးများကို ရေတွက်နိုင်သည်။ နမူနာအကျယ်သည် အမှန်တကယ်နံပါတ်များ၏ အကွာအဝေး သို့မဟုတ် အမှန်တကယ်နံပါတ်များ၏ စုံလုံးဖြစ်သော အခြေအနေများလည်း ရှိနိုင်သည်။ ၎င်းတို့ကို **Continuous** ဟုခေါ်သည်။ ကောင်းမွန်သော ဥပမာတစ်ခုမှာ ဘတ်စ်ကားရောက်ရှိချိန်ဖြစ်သည်။
|
|
|
|
|
|
## အလားအလာဖြန့်ဖြူးမှု
|
|
|
|
|
|
Discrete အလားအလာမရေရာသော အပြောင်းအလဲများ၏ အခြေအနေတွင်၊ အဖြစ်အပျက်တစ်ခုစီ၏ အလားအလာကို P(X) ဟုခေါ်သော အလုပ်လုပ်ပုံတစ်ခုဖြင့် ရှင်းလင်းဖော်ပြရန် လွယ်ကူသည်။ နမူနာအကျယ် *S* မှ တန်ဖိုး *s* တစ်ခုစီအတွက်၊ ၎င်းသည် 0 မှ 1 အထိ နံပါတ်တစ်ခုကို ပေးမည်ဖြစ်ပြီး၊ အဖြစ်အပျက်အားလုံးအတွက် P(X=s) တန်ဖိုးများ၏ စုစုပေါင်းသည် 1 ဖြစ်ရမည်။
|
|
|
|
|
|
အလွန်ကျော်ကြားသော Discrete ဖြန့်ဖြူးမှုတစ်ခုမှာ **Uniform Distribution** ဖြစ်ပြီး၊ ၎င်းတွင် N အစိတ်အပိုင်းများပါရှိသော နမူနာအကျယ်ရှိပြီး၊ ၎င်းတို့၏ တစ်ခုစီအတွက် အလားအလာမှာ 1/N ဖြစ်သည်။
|
|
|
|
|
|
Continuous အပြောင်းအလဲတစ်ခု၏ အလားအလာဖြန့်ဖြူးမှုကို ဖော်ပြရန် ပိုမိုခက်ခဲသည်။ ၎င်းတွင် [a,b] အကွာအဝေး သို့မဟုတ် အမှန်တကယ်နံပါတ်များ၏ စုံလုံး ℝ မှ တန်ဖိုးများကို ရယူသည်။ ဘတ်စ်ကားရောက်ရှိချိန်ကို စဉ်းစားပါ။ အမှန်တကယ်တွင်၊ တိကျသောရောက်ရှိချိန် *t* တစ်ခုအတွက်၊ ဘတ်စ်ကားသည် အတိအကျအချိန်၌ ရောက်ရှိနိုင်မှုအလားအလာမှာ 0 ဖြစ်သည်။
|
|
|
|
|
|
> အလားအလာ 0 ရှိသော အဖြစ်အပျက်များသည် ဖြစ်ပျက်လေ့ရှိပြီး၊ အနည်းဆုံး ဘတ်စ်ကားရောက်ရှိသောအချိန်တိုင်း ဖြစ်ပျက်သည်။
|
|
|
|
|
|
ကျွန်ုပ်တို့သည် အပြောင်းအလဲတစ်ခုသည် တန်ဖိုးများ၏ အကွာအဝေးတစ်ခုတွင် ရောက်ရှိနိုင်မှုအလားအလာကိုသာ ပြောနိုင်သည်။ ဥပမာအားဖြင့် P(t<sub>1</sub>≤X<t<sub>2</sub>) ဖြစ်သည်။ ဒီအခြေအနေတွင်၊ အလားအလာဖြန့်ဖြူးမှုကို **Probability Density Function** p(x) ဖြင့် ဖော်ပြသည်။
|
|
|
|
|
|

|
|
|
|
|
|
Continuous Uniform ဖြန့်ဖြူးမှုသည် Uniform Distribution ၏ Continuous အနုနယ်ဖြစ်ပြီး၊ ၎င်းကို အကွာအဝေးတစ်ခုတွင် သတ်မှတ်သည်။ X တန်ဖိုးသည် အကွာအဝေးတစ်ခုတွင် ရောက်ရှိနိုင်မှုအလားအလာသည် အကွာအဝေး၏ အလျားနှင့် အချိုးကျပြီး၊ 1 အထိ မြင့်တက်သည်။
|
|
|
|
|
|
အရေးပါသော ဖြန့်ဖြူးမှုတစ်ခုမှာ **Normal Distribution** ဖြစ်ပြီး၊ ကျွန်ုပ်တို့သည် အောက်တွင် ပိုမိုအသေးစိတ်ဆွေးနွေးမည်။
|
|
|
|
|
|
## ပျမ်းမျှတန်ဖိုး၊ အပြောင်းအလဲနှင့် စံအလျားအပြောင်းအလဲ
|
|
|
|
|
|
အလားအလာမရေရာသော အပြောင်းအလဲ X ၏ နမူနာများ n ခုကို ရွေးချယ်ကြောင်း စဉ်းစားပါ။ x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub> ဖြစ်သည်။ **ပျမ်းမျှတန်ဖိုး** (သို့မဟုတ် **အက္ခရာပျမ်းမျှ**) ကို (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n အဖြစ် ရိုးရှင်းသောနည်းလမ်းဖြင့် သတ်မှတ်နိုင်သည်။ နမူနာအရွယ်အစားကို ကြီးထွားလာသည် (n→∞ ဖြစ်သည်) ဟုယူဆပါက၊ ဖြန့်ဖြူးမှု၏ ပျမ်းမျှတန်ဖိုး (**မျှော်လင့်ချက်**) ကို ရရှိမည်ဖြစ်သည်။ **E**(x) ဟု မျှော်လင့်ချက်ကို မှတ်သားမည်။
|
|
|
|
|
|
> Discrete ဖြန့်ဖြူးမှုတစ်ခုသည် {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} တန်ဖိုးများနှင့် p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub> အလားအလာများပါရှိသည်ဟုယူဆပါက၊ မျှော်လင့်ချက်သည် E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub> ဖြစ်သည်။
|
|
|
|
|
|
တန်ဖိုးများသည် ဘယ်လောက်အထိ ပျံ့နှံ့နေသည်ကို သိရန်၊ အပြောင်းအလဲ σ<sup>2</sup> = ∑(x<sub>i</sub> - μ)<sup>2</sup>/n ကို တွက်ချက်နိုင်သည်။ μ သည် စဉ်၏ ပျမ်းမျှတန်ဖိုးဖြစ်သည်။ σ ကို **စံအလျားအပြောင်းအလဲ** ဟုခေါ်ပြီး၊ σ<sup>2</sup> ကို **အပြောင်းအလဲ** ဟုခေါ်သည်။
|
|
|
|
|
|
## Mode, Median နှင့် Quartiles
|
|
|
|
|
|
တစ်ခါတစ်ရံ၊ ပျမ်းမျှတန်ဖိုးသည် ဒေတာ၏ "ပုံမှန်" တန်ဖိုးကို လုံလောက်စွာ ကိုယ်စားပြုမထားနိုင်ပါ။ ဥပမာအားဖြင့်၊ အလွန်အမင်းတန်ဖိုးများရှိပြီး၊ ၎င်းတို့သည် ပျမ်းမျှတန်ဖိုးကို ထိခိုက်စေပါက၊ ပျမ်းမျှတန်ဖိုးကို ထိခိုက်စေပါသည်။ **Median** သည် ဒေတာအချက်အလက်၏ တစ်ဝက်သည် ၎င်းထက်နိမ့်ပြီး၊ တစ်ဝက်သည် ၎င်းထက်မြင့်သော တန်ဖိုးဖြစ်သည်။
|
|
|
|
|
|
Quartiles ကို အသုံးပြုခြင်းသည် ဒေတာဖြန့်ဖြူးမှုကို နားလည်ရန် အထောက်အကူဖြစ်သည်။
|
|
|
|
|
|
* ပထမ Quartile (Q1) သည် ဒေတာ၏ 25% သည် ၎င်းထက်နိမ့်သော တန်ဖိုးဖြစ်သည်။
|
|
|
* တတိယ Quartile (Q3) သည် ဒေတာ၏ 75% သည် ၎င်းထက်နိမ့်သော တန်ဖိုးဖြစ်သည်။
|
|
|
|
|
|
Median နှင့် Quartiles တို့၏ ဆက်နွယ်မှုကို **Box Plot** ဟုခေါ်သော အကြမ်းဖျင်းပုံစံတွင် ဖော်ပြနိုင်သည်။
|
|
|
|
|
|
<img src="images/boxplot_explanation.png" width="50%"/>
|
|
|
|
|
|
ဒီမှာ **Inter-quartile Range** IQR=Q3-Q1 ကို တွက်ချက်ပြီး၊ **Outliers** ဟုခေါ်သော တန်ဖိုးများကို တွေ့နိုင်သည်။ ၎င်းတို့သည် [Q1-1.5*IQR,Q3+1.5*IQR] အကွာအဝေးအပြင်ရှိသည်။
|
|
|
|
|
|
နည်းနည်းသော တန်ဖိုးများပါရှိသော အကန့်အသတ်ဖြန့်ဖြူးမှုအတွက်၊ "ပုံမှန်" တန်ဖိုးက အများဆုံးထပ်နေသော တန်ဖိုးဖြစ်ပြီး၊ ၎င်းကို **Mode** ဟုခေါ်သည်။ ၎င်းကို အရောင်များကဲ့သို့သော အမျိုးအစားဒေတာတွင် အများဆုံးအသုံးပြုသည်။
|
|
|
|
|
|
ဥပမာအားဖြင့်၊ လူအုပ်နှစ်အုပ်ရှိပြီး၊ တစ်အုပ်သည် အနီရောင်ကို အလွန်နှစ်သက်ပြီး၊ တစ်အုပ်သည် အပြာရောင်ကို နှစ်သက်သည်။ အရောင်များကို နံပါတ်များဖြင့် ကုဒ်ဖြင့် သတ်မှတ်ပါက၊ အကြိုက်ဆုံးအရောင်အတွက် ပျမ်းမျှတန်ဖိုးသည် လိမ္မော်-အစိမ်းရောင်အကွာအဝေးတွင် ရှိနိုင်ပြီး၊ ၎င်းသည် အုပ်စုနှစ်ခု၏ အကြိုက်ကို မကိုယ်စားပြုနိုင်ပါ။ သို့သော် Mode သည် အရောင်တစ်ခု သို့မဟုတ် အရောင်နှစ်ခုဖြစ်နိုင်ပြီး၊ ၎င်းတို့ကို မဲပေးသူအရေအတွက်တူညီပါက **Multimodal** ဟုခေါ်သည်။
|
|
|
|
|
|
## အမှန်တကယ်ဒေတာ
|
|
|
|
|
|
အမှန်တကယ်ဒေတာကို ခွဲခြမ်းစိတ်ဖြာသောအခါ၊ ၎င်းတို့သည် အလားအလာမရေရာသော အပြောင်းအလဲများမဟုတ်ပါ။ အကြောင်းမှာ ၎င်းတို့သည် မသိသောရလဒ်များဖြင့် စမ်းသပ်မှုများမလုပ်ဆောင်ပါ။
|
|
|
|
|
|
ဥပမာအားဖြင့် ဘေ့စ်ဘောကစားသမားအဖွဲ့တစ်ခုနှင့် ၎င်းတို့၏ ကိုယ်ခန္ဓာဒေတာများ၊ height, weight နှင့် age ကဲ့သို့သော ဒေတာများကို စဉ်းစားပါ။ ၎င်းတို့သည် အလားအလာမရေရာသော အပြောင်းအလဲများမဟုတ်သော်လည်း၊ အလားအလာသီအိုရီများကို အလွယ်တကူ အသုံးပြုနိုင်သည်။
|
|
|
|
|
|
ဥပမာအားဖြင့် လူများ၏ အလေးချိန်များ၏ စဉ်သည် အလားအလာမရေရာသော အပြောင်းအလဲတစ်ခုမှ ရယူထားသော တန်ဖိုးများ၏ စဉ်အဖြစ် စဉ်းစားနိုင်သည်။
|
|
|
|
|
|
```
|
|
|
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
|
|
|
```
|
|
|
|
|
|
> **Note**: ဒီဒေတာကို အသုံးပြု၍ အလုပ်လုပ်ပုံကို ကြည့်ရန် [accompanying notebook](notebook.ipynb) ကို ကြည့်ပါ။ ၎င်းသင်ခန်းစာတွင် စိန်ခေါ်မှုများစွာပါရှိပြီး၊ ၎င်းတို့ကို notebook တွင် ကုဒ်ထည့်သွင်းခြင်းဖြင့် ပြီးမြောက်နိုင်သည်။ ဒေတာကို လုပ်ဆောင်ရန် မသိပါက စိတ်မပူပါနှင့် - ကျွန်ုပ်တို့သည် Python ကို အသုံးပြု၍ ဒေတာနှင့် လုပ်ဆောင်ခြင်းကို နောက်ပိုင်းတွင် ပြန်လည်ဆွေးနွေးမည်။ Jupyter Notebook တွင် ကုဒ်ကို အကောင်အထည်ဖော်ရန် မသိပါက [ဒီဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။
|
|
|
|
|
|
ဒီမှာ ကျွန်ုပ်တို့၏ ဒေတာအတွက် ပျမ်းမျှတန်ဖိုး၊ Median နှင့် Quartiles ကို ဖော်ပြထားသော Box Plot ဖြစ်သည်။
|
|
|
|
|
|

|
|
|
|
|
|
ကျွန်ုပ်တို့၏ ဒေတာတွင် ကစားသမား **Roles** များအကြောင်း အချက်အလက်များပါရှိသောကြောင့်၊ Role အလိုက် Box Plot ကို ပြုလုပ်နိုင်သည်။ ၎င်းသည် Role အလိုက် Parameter တန်ဖိုးများကွာခြားမှုကို နားလည်ရန် အထောက်အကူဖြစ်စေသည်။ ဒီအကြိမ်မှာ Height ကို စဉ်းစားပါမည်။
|
|
|
|
|
|

|
|
|
|
|
|
ဒီပုံစံသည် ပထမအခြေခံကစားသမား၏ အမြင့်သည် ဒုတိယအခြေခံကစားသမား၏ အမြင့်ထက် ပျမ်းမျှအားဖြင့် မြင့်မားသည်ဟု ဖော်ပြသည်။ ဒီသင်ခန်းစာတွင် ကျွန်ုပ်တို့သည် ဒီအယူအဆကို ပိုမိုတိကျစွာ စမ်းသပ်နည်းများနှင့် ဒေတာသည် အထောက်အထားအလုံလောက်ရှိကြောင်း သက်သေပြနည်းများကို လေ့လာမည်။
|
|
|
|
|
|
> အမှန်တကယ်ဒေတာနှင့် အလုပ်လုပ်သောအခါ၊ ဒေတာအချက်အလက်များအားလုံးသည် အလားအလာဖြန့်ဖြူးမှုတစ်ခုမှ ရယူထားသော နမူနာများဖြစ်သည်ဟု ယူဆပါသည်။ ဒီယူဆချက်သည် Machine Learning နည်းလမ်းများကို အသုံးပြုရန်နှင့် အလုပ်လုပ်နိုင်သော ခန့်မှန်းပုံစံများကို တည်ဆောက်ရန် ခွင့်ပြုသည်။
|
|
|
|
|
|
ကျွန်ုပ်တို့၏ ဒေတာဖြန့်ဖြူးမှုကို ကြည့်ရန် **Histogram** ဟုခေါ်သော ပုံစံကို ရှုနိုင်သည်။ X-axis တွင် အလေးချိန် interval များ (သို့မဟုတ် **bins**) ပါရှိပြီး၊ Y-axis တွင် အလားအလာမရေရာသော အပြောင်းအလဲနမူနာသည် interval တစ်ခုတွင် ရှိနေသော အကြိမ်အရေအတွက်ကို ဖော်ပြသည်။
|
|
|
|
|
|

|
|
|
|
|
|
ဒီ Histogram မှာ အလေးချိန်များ
|
|
|
> **ယုံကြည်မှုအကွာအဝေး** ဆိုသည်မှာ ကျွန်ုပ်တို့၏နမူနာအရ လူဦးရေ၏ အမှန်တကယ်အလယ်တန်းကို ခန့်မှန်းခြင်းဖြစ်ပြီး၊ သတ်မှတ်ထားသော အချို့သောဖြစ်နိုင်ခြေ (သို့မဟုတ် **ယုံကြည်မှုအဆင့်**) ဖြင့် တိကျမှုရှိသည်။
|
|
|
Suppose ကျွန်တော်တို့မှာ X<sub>1</sub>, ..., X<sub>n</sub> ဆိုတဲ့ distribution မှာ sample တစ်ခုရှိတယ်။ Distribution မှာ sample တစ်ခုကို အကြိမ်ကြိမ်ယူတဲ့အခါ mean value μ က မတူညီတဲ့အချိန်တိုင်းရရှိမယ်။ ဒါကြောင့် μ ကို random variable တစ်ခုအနေနဲ့ သတ်မှတ်နိုင်တယ်။ **Confidence interval** ဆိုတာ confidence p ရှိတဲ့ value pair (L<sub>p</sub>,R<sub>p</sub>) ဖြစ်ပြီး **P**(L<sub>p</sub>≤μ≤R<sub>p</sub>) = p ဖြစ်တယ်။ ဒါဟာ mean value တစ်ခု interval အတွင်းမှာ ရောက်ရှိဖို့ probability p ရှိတယ်ဆိုတာကို ဆိုလိုတာပါ။
|
|
|
|
|
|
Confidence interval တွေကို ဘယ်လိုတွက်ချက်ရမယ်ဆိုတာကို အကြမ်းဖျင်းအနေနဲ့ မဖော်ပြနိုင်ပါဘူး။ [Wikipedia](https://en.wikipedia.org/wiki/Confidence_interval) မှာ အချက်အလက်ပိုမိုသိရှိနိုင်ပါတယ်။ အကြမ်းဖျင်းအားဖြင့် population ရဲ့ true mean နဲ့ sample mean ရဲ့ distribution ကို **student distribution** လို့ခေါ်ပါတယ်။
|
|
|
|
|
|
> **စိတ်ဝင်စားစရာအချက်**: Student distribution ကို mathematician William Sealy Gosset ရေးသားခဲ့ပြီး "Student" ဆိုတဲ့ နာမည်နဲ့ စာတမ်းတင်ခဲ့တယ်။ သူ Guinness brewery မှာ အလုပ်လုပ်ခဲ့ပြီး statistical tests တွေကို raw materials ရဲ့ quality ကိုသတ်မှတ်ဖို့ အသုံးပြုတာကို သူ့အလုပ်ရှင်က အများပြည်သူမသိစေချင်ခဲ့တယ်လို့ ဆိုပါတယ်။
|
|
|
|
|
|
Population ရဲ့ mean μ ကို confidence p နဲ့ ခန့်မှန်းချင်ရင် *(1-p)/2-th percentile* ကို Student distribution A မှာယူရမယ်။ Tables မှာယူနိုင်သလို statistical software (ဥပမာ Python, R, စသည်) ရဲ့ built-in functions တွေကို အသုံးပြုနိုင်ပါတယ်။ μ ရဲ့ interval ကို X±A*D/√n နဲ့ ရရှိမယ်။ ဒီမှာ X က sample ရဲ့ mean ဖြစ်ပြီး D က standard deviation ဖြစ်ပါတယ်။
|
|
|
|
|
|
> **Note**: Student distribution နဲ့ ဆက်စပ်တဲ့ [degrees of freedom](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) ဆိုတဲ့ အရေးကြီးသော concept ကို ဒီမှာ မဖော်ပြပါဘူး။ Statistics ပိုမိုနက်နက်ရှိုင်းရှိုင်းလေ့လာချင်ရင် စာအုပ်တွေကို ဖတ်ရှုနိုင်ပါတယ်။
|
|
|
|
|
|
Weight နဲ့ height တွေကို confidence interval တွေတွက်ချက်တဲ့ ဥပမာကို [accompanying notebooks](notebook.ipynb) မှာတွေ့နိုင်ပါတယ်။
|
|
|
|
|
|
| p | Weight mean |
|
|
|
|-----|-----------|
|
|
|
| 0.85 | 201.73±0.94 |
|
|
|
| 0.90 | 201.73±1.08 |
|
|
|
| 0.95 | 201.73±1.28 |
|
|
|
|
|
|
Confidence probability ပိုမြင့်လာတာနဲ့ confidence interval ပိုကျယ်လာတာကို သတိပြုပါ။
|
|
|
|
|
|
## Hypothesis Testing
|
|
|
|
|
|
Baseball players dataset မှာ player roles မျိုးစုံရှိပြီး အောက်ပါအတိုင်း စုစည်းနိုင်ပါတယ် ([accompanying notebook](notebook.ipynb) ကိုကြည့်ပါ):
|
|
|
|
|
|
| Role | Height | Weight | Count |
|
|
|
|------|--------|--------|-------|
|
|
|
| Catcher | 72.723684 | 204.328947 | 76 |
|
|
|
| Designated_Hitter | 74.222222 | 220.888889 | 18 |
|
|
|
| First_Baseman | 74.000000 | 213.109091 | 55 |
|
|
|
| Outfielder | 73.010309 | 199.113402 | 194 |
|
|
|
| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
|
|
|
| Second_Baseman | 71.362069 | 184.344828 | 58 |
|
|
|
| Shortstop | 71.903846 | 182.923077 | 52 |
|
|
|
| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
|
|
|
| Third_Baseman | 73.044444 | 200.955556 | 45 |
|
|
|
|
|
|
First basemen ရဲ့ mean height က second basemen ရဲ့ height ထက် မြင့်တယ်ဆိုတာကို သတိပြုမိတယ်။ ဒါကြောင့် **first basemen are higher than second basemen** ဆိုတဲ့ အကြောင်းအရာကို သတ်မှတ်ချင်တယ်။
|
|
|
|
|
|
> ဒီ statement ကို **hypothesis** လို့ခေါ်တယ်။ အကြောင်းက ဒီအချက်အလက်ဟာ တကယ်မှန်မမှန် မသိရသေးလို့ပါ။
|
|
|
|
|
|
ဒါပေမယ့် ဒီအချက်အလက်ကို သတ်မှတ်ဖို့ အလွယ်တကူ မဖြစ်နိုင်ပါဘူး။ Mean တစ်ခုစီမှာ confidence interval ရှိပြီး statistical error ဖြစ်နိုင်ပါတယ်။ Hypothesis ကို စမ်းသပ်ဖို့ formal method တစ်ခုလိုအပ်ပါတယ်။
|
|
|
|
|
|
First basemen နဲ့ second basemen ရဲ့ height တွေကို confidence interval တွေတွက်ချက်ကြည့်ရအောင်:
|
|
|
|
|
|
| Confidence | First Basemen | Second Basemen |
|
|
|
|------------|---------------|----------------|
|
|
|
| 0.85 | 73.62..74.38 | 71.04..71.69 |
|
|
|
| 0.90 | 73.56..74.44 | 70.99..71.73 |
|
|
|
| 0.95 | 73.47..74.53 | 70.92..71.81 |
|
|
|
|
|
|
Confidence level မည်သည့်အချိန်မှာမဆို interval တွေ overlap မဖြစ်ပါဘူး။ ဒါဟာ first basemen are higher than second basemen ဆိုတဲ့ hypothesis ကို အတည်ပြုပါတယ်။
|
|
|
|
|
|
Formal အနေနဲ့ ကျွန်တော်တို့ရဲ့ ပြဿနာက **two probability distributions are the same** ဖြစ်မဖြစ်ကို စမ်းသပ်ဖို့ပါ။ Distribution ပေါ်မူတည်ပြီး test မျိုးစုံကို အသုံးပြုရမယ်။ Distribution တွေ normal ဖြစ်တယ်ဆိုရင် **[Student t-test](https://en.wikipedia.org/wiki/Student%27s_t-test)** ကို အသုံးပြုနိုင်ပါတယ်။
|
|
|
|
|
|
Student t-test မှာ **t-value** ကိုတွက်ချက်ပြီး variance ကို ထည့်သွင်းစဉ်းစားတယ်။ T-value ဟာ **student distribution** ကို follow လုပ်ပြီး confidence level **p** အတွက် threshold value ရရှိနိုင်တယ်။ T-value ကို threshold နဲ့ နှိုင်းယှဉ်ပြီး hypothesis ကို approve/reject လုပ်နိုင်ပါတယ်။
|
|
|
|
|
|
Python မှာ **SciPy** package ကို အသုံးပြုနိုင်ပြီး `ttest_ind` function ပါဝင်ပါတယ်။ Function က t-value ကိုတွက်ချက်ပေးပြီး confidence p-value ကို reverse lookup လုပ်ပေးတယ်။ ဒါကြောင့် confidence ကိုကြည့်ပြီး အတည်ပြုနိုင်ပါတယ်။
|
|
|
|
|
|
ဥပမာအားဖြင့် first basemen နဲ့ second basemen ရဲ့ height တွေကို နှိုင်းယှဉ်တဲ့အခါ:
|
|
|
```python
|
|
|
from scipy.stats import ttest_ind
|
|
|
|
|
|
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
|
|
|
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
|
|
|
```
|
|
|
```
|
|
|
T-value = 7.65
|
|
|
P-value: 9.137321189738925e-12
|
|
|
```
|
|
|
P-value အနည်းငယ်ရှိတာကြောင့် first basemen are taller ဆိုတဲ့ hypothesis ကို အတည်ပြုနိုင်ပါတယ်။
|
|
|
|
|
|
အခြား hypothesis မျိုးစုံကိုလည်း စမ်းသပ်နိုင်ပါတယ်၊ ဥပမာ:
|
|
|
* Sample တစ်ခုက distribution တစ်ခုကို follow လုပ်တယ်ဆိုတာကို အတည်ပြုဖို့
|
|
|
* Sample ရဲ့ mean value က predefined value တစ်ခုနဲ့ ကိုက်ညီတယ်ဆိုတာကို အတည်ပြုဖို့
|
|
|
* Samples များစွာရဲ့ mean တွေကို နှိုင်းယှဉ်ဖို့ (ဥပမာ: အသက်အရွယ်အုပ်စုများအကြား happiness level တွေကို နှိုင်းယှဉ်)
|
|
|
|
|
|
## Law of Large Numbers and Central Limit Theorem
|
|
|
|
|
|
Normal distribution အရေးကြီးတဲ့အကြောင်းအရင်းတစ်ခုက **central limit theorem** ဖြစ်ပါတယ်။ N→∞ ဖြစ်တဲ့အခါ independent N values X<sub>1</sub>, ..., X<sub>N</sub> ရဲ့ mean Σ<sub>i</sub>X<sub>i</sub> ဟာ normal distribution ဖြစ်တယ်။ Mean က μ ဖြစ်ပြီး variance က σ<sup>2</sup>/N ဖြစ်တယ်။
|
|
|
|
|
|
> Central limit theorem ကို အခြားနည်းလမ်းတစ်ခုနဲ့လည်း ရှင်းလင်းနိုင်ပါတယ်။ Random variable values တွေကို စုပေါင်းပြီး mean တွက်တဲ့အခါ normal distribution ရရှိတယ်။
|
|
|
|
|
|
Central limit theorem က N→∞ ဖြစ်တဲ့အခါ sample mean က μ နဲ့ တူဖို့ probability 1 ရှိတယ်ဆိုတာကိုလည်း ပြောပါတယ်။ ဒါကို **law of large numbers** လို့ခေါ်တယ်။
|
|
|
|
|
|
## Covariance and Correlation
|
|
|
|
|
|
Data Science ရဲ့ အရေးကြီးအပိုင်းတစ်ခုက data တွေကြားဆက်စပ်မှုကို ရှာဖွေဖို့ပါ။ Sequence နှစ်ခု **correlate** လုပ်တယ်ဆိုတာက တစ်ချိန်တည်းမှာ behavior တူတူပြသတယ်ဆိုတာပါ။ Sequence တစ်ခုတက်တဲ့အခါ တစ်ခုကျသွားတာမျိုးလည်း ဖြစ်နိုင်ပါတယ်။
|
|
|
|
|
|
> Correlation ဟာ causal relationship ကို မပြသနိုင်ပါဘူး။ Variables နှစ်ခုဟာ အခြားအကြောင်းအရာတစ်ခုကြောင့် ဆက်စပ်နိုင်ပါတယ်၊ ဒါမှမဟုတ် chance ကြောင့် correlation ဖြစ်နိုင်ပါတယ်။ ဒါပေမယ့် strong mathematical correlation ရှိရင် variables နှစ်ခုကြားမှာ ဆက်စပ်မှုရှိတယ်လို့ သံသယရှိနိုင်ပါတယ်။
|
|
|
|
|
|
Mathematically, random variables နှစ်ခုကြားဆက်စပ်မှုကို **covariance** နဲ့ဖော်ပြတယ်။ Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\] ဖြစ်တယ်။ Variables နှစ်ခု mean values ကနေ ဘယ်လို deviate လုပ်တယ်ဆိုတာကို တွက်ပြီး product တွေကို စုပေါင်းတယ်။ Deviations တူတူဖြစ်ရင် positive covariance ရရှိတယ်။ Deviations မတူရင် negative covariance ရရှိတယ်။ Deviations မဆက်စပ်ရင် covariance က 0 နီးပါးဖြစ်တယ်။
|
|
|
|
|
|
Covariance ရဲ့ absolute value က correlation ရဲ့ အရွယ်အစားကို မပြသနိုင်ပါဘူး။ Standard deviation နဲ့ normalize လုပ်ပြီး **correlation** ရရှိနိုင်တယ်။ Correlation က [-1,1] အတွင်းရှိပြီး 1 က strong positive correlation, -1 က strong negative correlation, 0 က correlation မရှိတာကို ဆိုလိုတယ်။
|
|
|
|
|
|
**ဥပမာ**: Baseball players dataset မှာ weight နဲ့ height ကြား correlation တွက်ကြည့်ရအောင်:
|
|
|
```python
|
|
|
print(np.corrcoef(weights,heights))
|
|
|
```
|
|
|
Result အနေနဲ့ **correlation matrix** ရရှိတယ်:
|
|
|
```
|
|
|
array([[1. , 0.52959196],
|
|
|
[0.52959196, 1. ]])
|
|
|
```
|
|
|
|
|
|
> Correlation matrix C ကို input sequences S<sub>1</sub>, ..., S<sub>n</sub> အတွက် တွက်နိုင်တယ်။ C<sub>ij</sub> က S<sub>i</sub> နဲ့ S<sub>j</sub> ကြား correlation ဖြစ်ပြီး diagonal elements တွေက 1 ဖြစ်တယ် (self-correlation of S<sub>i</sub>).
|
|
|
|
|
|
Weight နဲ့ height ကြား correlation 0.53 ရှိတာက variables နှစ်ခုကြား ဆက်စပ်မှုရှိတယ်ဆိုတာကို ပြသတယ်။ Scatter plot ကိုလည်း ရိုက်ပြီး relationship ကို visually ကြည့်နိုင်တယ်:
|
|
|
|
|
|

|
|
|
|
|
|
> Correlation နဲ့ covariance ရဲ့ ဥပမာများကို [accompanying notebook](notebook.ipynb) မှာတွေ့နိုင်ပါတယ်။
|
|
|
|
|
|
## နိဂုံး
|
|
|
|
|
|
ဒီအပိုင်းမှာ ကျွန်တော်တို့:
|
|
|
|
|
|
* data ရဲ့ mean, variance, mode, quartiles စတဲ့ statistical properties တွေကို လေ့လာခဲ့တယ်
|
|
|
* random variables ရဲ့ distributions မျိုးစုံကို လေ့လာခဲ့တယ်
|
|
|
* properties မျိုးစုံကြား correlation ရှာဖွေခဲ့တယ်
|
|
|
* math နဲ့ statistics apparatus ကို hypothesis တွေကို အတည်ပြုဖို့ အသုံးပြုခဲ့တယ်
|
|
|
* data sample ရဲ့ random variable အတွက် confidence interval တွေတွက်ခဲ့တယ်
|
|
|
|
|
|
Probability နဲ့ statistics ရဲ့ အခြေခံအချက်အလက်တွေကို လေ့လာခဲ့ပြီး ဒီ course ကို စတင်ဖို့ လုံလောက်ပါတယ်။
|
|
|
|
|
|
## 🚀 Challenge
|
|
|
|
|
|
Notebook မှာ sample code ကို အသုံးပြုပြီး hypothesis အောက်ပါအတိုင်း စမ်းသပ်ပါ:
|
|
|
1. First basemen are older than second basemen
|
|
|
2. First basemen are taller than third basemen
|
|
|
3. Shortstops are taller than second basemen
|
|
|
|
|
|
## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7)
|
|
|
|
|
|
## Review & Self Study
|
|
|
|
|
|
Probability နဲ့ statistics ဟာ အကျယ်အဝန်းရှိတဲ့အကြောင်းအရာဖြစ်ပြီး သီးသန့် course တစ်ခုအနေနဲ့လေ့လာဖို့ လိုအပ်ပါတယ်။ Theory ကိုပိုမိုနက်နက်ရှိုင်းရှိုင်းလေ့လာချင်ရင် အောက်ပါစာအုပ်များကို ဖတ်ရှုနိုင်ပါတယ်:
|
|
|
|
|
|
1. [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) ရဲ့ [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) lecture notes (online မှာရရှိနိုင်ပါတယ်)
|
|
|
1. [Peter and Andrew Bruce. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[sample code in R](https://github.com/andrewgbruce/statistics-for-data-scientists)].
|
|
|
1. [James D. Miller. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[sample code in R](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
|
|
|
|
|
|
## Assignment
|
|
|
|
|
|
[Small Diabetes Study](assignment.md)
|
|
|
|
|
|
## Credits
|
|
|
|
|
|
ဒီ lesson ကို [Dmitry Soshnikov](http://soshnikov.com) မှ ♥️ နဲ့ရေးသားထားပါတယ်။
|
|
|
|
|
|
---
|
|
|
|
|
|
**အကြောင်းကြားချက်**:
|
|
|
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါရှိနိုင်သည်ကို သတိပြုပါ။ မူရင်းဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာရှိသော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပရော်ဖက်ရှင်နယ် ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအလွတ်များ သို့မဟုတ် အနားယူမှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။ |