History

leestott 8dcd54c138 🌐 Update translations via Co-op Translator		3 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	3 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

Unescape Escape

စာရင်းအင်းနှင့် အလားအလာအကြောင်း အကျဉ်းချုပ်


စာရင်းအင်းနှင့် အလားအလာ - Sketchnote by @nitya

စာရင်းအင်းနှင့် အလားအလာ သီအိုရီများသည် သင်္ချာ၏ အလွန်နီးစပ်သော နယ်ပယ်နှစ်ခုဖြစ်ပြီး ဒေတာသိပ္ပံတွင် အလွန်အရေးပါသည်။ သင်္ချာအကြောင်းနက်နက်ရှိုင်းရှိုင်း မသိဘဲ ဒေတာနှင့် လုပ်ဆောင်နိုင်သည်။ သို့သော် အခြေခံအယူအဆများကို အနည်းဆုံး သိထားခြင်းက ပိုမိုကောင်းမွန်ပါသည်။ ဒီမှာ သင်စတင်နိုင်ရန် အကျိုးရှိမည့် အကျဉ်းချုပ်ကို တင်ပြပေးပါမည်။

Pre-lecture quiz

အလားအလာနှင့် အလားအလာမရေရာသော အပြောင်းအလဲများ

အလားအလာ ဆိုသည်မှာ 0 နှင့် 1 အကြားရှိ နံပါတ်တစ်ခုဖြစ်ပြီး အဖြစ်အပျက် တစ်ခုဖြစ်နိုင်မှုကို ဖော်ပြသည်။ ၎င်းကို အဖြစ်အပျက်ကို ဖြစ်စေသော အကောင်းဆုံးရလဒ်များ၏ အရေအတွက်ကို အားလုံးတူညီစွာဖြစ်နိုင်သော ရလဒ်များ၏ စုစုပေါင်းအရေအတွက်ဖြင့် ခွဲခြားခြင်းဖြင့် သတ်မှတ်သည်။ ဥပမာအားဖြင့် ကစားသမားတစ်ခုကို လွှဲလိုက်သောအခါ၊ စဉ်ကိန်းရရှိနိုင်မှုမှာ 3/6 = 0.5 ဖြစ်သည်။

အဖြစ်အပျက်များကို ပြောသောအခါ အလားအလာမရေရာသော အပြောင်းအလဲများ ကို အသုံးပြုသည်။ ဥပမာအားဖြင့် ကစားသမားတစ်ခုကို လွှဲလိုက်သောအခါရရှိသော နံပါတ်ကို ကိုယ်စားပြုသော အလားအလာမရေရာသော အပြောင်းအလဲသည် 1 မှ 6 အထိ တန်ဖိုးများကို ယူပါမည်။ 1 မှ 6 အထိ နံပါတ်များ၏ စုစုပေါင်းကို နမူနာအကျယ် ဟုခေါ်သည်။ အလားအလာမရေရာသော အပြောင်းအလဲသည် တန်ဖိုးတစ်ခုကို ယူနိုင်မှုအလားအလာကို ပြောနိုင်သည်။ ဥပမာအားဖြင့် P(X=3)=1/6 ဖြစ်သည်။

အထက်ပါ ဥပမာတွင် အလားအလာမရေရာသော အပြောင်းအလဲကို Discrete ဟုခေါ်သည်။ အကြောင်းမှာ ၎င်းတွင် ရေတွက်နိုင်သော နမူနာအကျယ်ရှိပြီး၊ သီးခြားတန်ဖိုးများကို ရေတွက်နိုင်သည်။ နမူနာအကျယ်သည် အမှန်တကယ်နံပါတ်များ၏ အကွာအဝေး သို့မဟုတ် အမှန်တကယ်နံပါတ်များ၏ စုံလုံးဖြစ်သော အခြေအနေများလည်း ရှိနိုင်သည်။ ၎င်းတို့ကို Continuous ဟုခေါ်သည်။ ကောင်းမွန်သော ဥပမာတစ်ခုမှာ ဘတ်စ်ကားရောက်ရှိချိန်ဖြစ်သည်။

အလားအလာဖြန့်ဖြူးမှု

Discrete အလားအလာမရေရာသော အပြောင်းအလဲများ၏ အခြေအနေတွင်၊ အဖြစ်အပျက်တစ်ခုစီ၏ အလားအလာကို P(X) ဟုခေါ်သော အလုပ်လုပ်ပုံတစ်ခုဖြင့် ရှင်းလင်းဖော်ပြရန် လွယ်ကူသည်။ နမူနာအကျယ် S မှ တန်ဖိုး s တစ်ခုစီအတွက်၊ ၎င်းသည် 0 မှ 1 အထိ နံပါတ်တစ်ခုကို ပေးမည်ဖြစ်ပြီး၊ အဖြစ်အပျက်အားလုံးအတွက် P(X=s) တန်ဖိုးများ၏ စုစုပေါင်းသည် 1 ဖြစ်ရမည်။

အလွန်ကျော်ကြားသော Discrete ဖြန့်ဖြူးမှုတစ်ခုမှာ Uniform Distribution ဖြစ်ပြီး၊ ၎င်းတွင် N အစိတ်အပိုင်းများပါရှိသော နမူနာအကျယ်ရှိပြီး၊ ၎င်းတို့၏ တစ်ခုစီအတွက် အလားအလာမှာ 1/N ဖြစ်သည်။

Continuous အပြောင်းအလဲတစ်ခု၏ အလားအလာဖြန့်ဖြူးမှုကို ဖော်ပြရန် ပိုမိုခက်ခဲသည်။ ၎င်းတွင် [a,b] အကွာအဝေး သို့မဟုတ် အမှန်တကယ်နံပါတ်များ၏ စုံလုံး ℝ မှ တန်ဖိုးများကို ရယူသည်။ ဘတ်စ်ကားရောက်ရှိချိန်ကို စဉ်းစားပါ။ အမှန်တကယ်တွင်၊ တိကျသောရောက်ရှိချိန် t တစ်ခုအတွက်၊ ဘတ်စ်ကားသည် အတိအကျအချိန်၌ ရောက်ရှိနိုင်မှုအလားအလာမှာ 0 ဖြစ်သည်။

အလားအလာ 0 ရှိသော အဖြစ်အပျက်များသည် ဖြစ်ပျက်လေ့ရှိပြီး၊ အနည်းဆုံး ဘတ်စ်ကားရောက်ရှိသောအချိန်တိုင်း ဖြစ်ပျက်သည်။

ကျွန်ုပ်တို့သည် အပြောင်းအလဲတစ်ခုသည် တန်ဖိုးများ၏ အကွာအဝေးတစ်ခုတွင် ရောက်ရှိနိုင်မှုအလားအလာကိုသာ ပြောနိုင်သည်။ ဥပမာအားဖြင့် P(t₁≤X<t₂) ဖြစ်သည်။ ဒီအခြေအနေတွင်၊ အလားအလာဖြန့်ဖြူးမှုကို Probability Density Function p(x) ဖြင့် ဖော်ပြသည်။

$P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx$

Continuous Uniform ဖြန့်ဖြူးမှုသည် Uniform Distribution ၏ Continuous အနုနယ်ဖြစ်ပြီး၊ ၎င်းကို အကွာအဝေးတစ်ခုတွင် သတ်မှတ်သည်။ X တန်ဖိုးသည် အကွာအဝေးတစ်ခုတွင် ရောက်ရှိနိုင်မှုအလားအလာသည် အကွာအဝေး၏ အလျားနှင့် အချိုးကျပြီး၊ 1 အထိ မြင့်တက်သည်။

အရေးပါသော ဖြန့်ဖြူးမှုတစ်ခုမှာ Normal Distribution ဖြစ်ပြီး၊ ကျွန်ုပ်တို့သည် အောက်တွင် ပိုမိုအသေးစိတ်ဆွေးနွေးမည်။

ပျမ်းမျှတန်ဖိုး၊ အပြောင်းအလဲနှင့် စံအလျားအပြောင်းအလဲ

အလားအလာမရေရာသော အပြောင်းအလဲ X ၏ နမူနာများ n ခုကို ရွေးချယ်ကြောင်း စဉ်းစားပါ။ x₁, x₂, ..., x_n ဖြစ်သည်။ ပျမ်းမျှတန်ဖိုး (သို့မဟုတ် အက္ခရာပျမ်းမျှ) ကို (x₁+x₂+x_n)/n အဖြစ် ရိုးရှင်းသောနည်းလမ်းဖြင့် သတ်မှတ်နိုင်သည်။ နမူနာအရွယ်အစားကို ကြီးထွားလာသည် (n→∞ ဖြစ်သည်) ဟုယူဆပါက၊ ဖြန့်ဖြူးမှု၏ ပျမ်းမျှတန်ဖိုး (မျှော်လင့်ချက်) ကို ရရှိမည်ဖြစ်သည်။ E(x) ဟု မျှော်လင့်ချက်ကို မှတ်သားမည်။

Discrete ဖြန့်ဖြူးမှုတစ်ခုသည် {x₁, x₂, ..., x_N} တန်ဖိုးများနှင့် p₁, p₂, ..., p_N အလားအလာများပါရှိသည်ဟုယူဆပါက၊ မျှော်လင့်ချက်သည် E(X)=x₁p₁+x₂p₂+...+x_Np_N ဖြစ်သည်။

တန်ဖိုးများသည် ဘယ်လောက်အထိ ပျံ့နှံ့နေသည်ကို သိရန်၊ အပြောင်းအလဲ σ² = ∑(x_i - μ)²/n ကို တွက်ချက်နိုင်သည်။ μ သည် စဉ်၏ ပျမ်းမျှတန်ဖိုးဖြစ်သည်။ σ ကို စံအလျားအပြောင်းအလဲ ဟုခေါ်ပြီး၊ σ² ကို အပြောင်းအလဲ ဟုခေါ်သည်။

Mode, Median နှင့် Quartiles

တစ်ခါတစ်ရံ၊ ပျမ်းမျှတန်ဖိုးသည် ဒေတာ၏ "ပုံမှန်" တန်ဖိုးကို လုံလောက်စွာ ကိုယ်စားပြုမထားနိုင်ပါ။ ဥပမာအားဖြင့်၊ အလွန်အမင်းတန်ဖိုးများရှိပြီး၊ ၎င်းတို့သည် ပျမ်းမျှတန်ဖိုးကို ထိခိုက်စေပါက၊ ပျမ်းမျှတန်ဖိုးကို ထိခိုက်စေပါသည်။ Median သည် ဒေတာအချက်အလက်၏ တစ်ဝက်သည် ၎င်းထက်နိမ့်ပြီး၊ တစ်ဝက်သည် ၎င်းထက်မြင့်သော တန်ဖိုးဖြစ်သည်။

Quartiles ကို အသုံးပြုခြင်းသည် ဒေတာဖြန့်ဖြူးမှုကို နားလည်ရန် အထောက်အကူဖြစ်သည်။

ပထမ Quartile (Q1) သည် ဒေတာ၏ 25% သည် ၎င်းထက်နိမ့်သော တန်ဖိုးဖြစ်သည်။
တတိယ Quartile (Q3) သည် ဒေတာ၏ 75% သည် ၎င်းထက်နိမ့်သော တန်ဖိုးဖြစ်သည်။

Median နှင့် Quartiles တို့၏ ဆက်နွယ်မှုကို Box Plot ဟုခေါ်သော အကြမ်းဖျင်းပုံစံတွင် ဖော်ပြနိုင်သည်။

ဒီမှာ Inter-quartile Range IQR=Q3-Q1 ကို တွက်ချက်ပြီး၊ Outliers ဟုခေါ်သော တန်ဖိုးများကို တွေ့နိုင်သည်။ ၎င်းတို့သည် [Q1-1.5IQR,Q3+1.5IQR] အကွာအဝေးအပြင်ရှိသည်။

နည်းနည်းသော တန်ဖိုးများပါရှိသော အကန့်အသတ်ဖြန့်ဖြူးမှုအတွက်၊ "ပုံမှန်" တန်ဖိုးက အများဆုံးထပ်နေသော တန်ဖိုးဖြစ်ပြီး၊ ၎င်းကို Mode ဟုခေါ်သည်။ ၎င်းကို အရောင်များကဲ့သို့သော အမျိုးအစားဒေတာတွင် အများဆုံးအသုံးပြုသည်။

ဥပမာအားဖြင့်၊ လူအုပ်နှစ်အုပ်ရှိပြီး၊ တစ်အုပ်သည် အနီရောင်ကို အလွန်နှစ်သက်ပြီး၊ တစ်အုပ်သည် အပြာရောင်ကို နှစ်သက်သည်။ အရောင်များကို နံပါတ်များဖြင့် ကုဒ်ဖြင့် သတ်မှတ်ပါက၊ အကြိုက်ဆုံးအရောင်အတွက် ပျမ်းမျှတန်ဖိုးသည် လိမ္မော်-အစိမ်းရောင်အကွာအဝေးတွင် ရှိနိုင်ပြီး၊ ၎င်းသည် အုပ်စုနှစ်ခု၏ အကြိုက်ကို မကိုယ်စားပြုနိုင်ပါ။ သို့သော် Mode သည် အရောင်တစ်ခု သို့မဟုတ် အရောင်နှစ်ခုဖြစ်နိုင်ပြီး၊ ၎င်းတို့ကို မဲပေးသူအရေအတွက်တူညီပါက Multimodal ဟုခေါ်သည်။

အမှန်တကယ်ဒေတာ

အမှန်တကယ်ဒေတာကို ခွဲခြမ်းစိတ်ဖြာသောအခါ၊ ၎င်းတို့သည် အလားအလာမရေရာသော အပြောင်းအလဲများမဟုတ်ပါ။ အကြောင်းမှာ ၎င်းတို့သည် မသိသောရလဒ်များဖြင့် စမ်းသပ်မှုများမလုပ်ဆောင်ပါ။

ဥပမာအားဖြင့် ဘေ့စ်ဘောကစားသမားအဖွဲ့တစ်ခုနှင့် ၎င်းတို့၏ ကိုယ်ခန္ဓာဒေတာများ၊ height, weight နှင့် age ကဲ့သို့သော ဒေတာများကို စဉ်းစားပါ။ ၎င်းတို့သည် အလားအလာမရေရာသော အပြောင်းအလဲများမဟုတ်သော်လည်း၊ အလားအလာသီအိုရီများကို အလွယ်တကူ အသုံးပြုနိုင်သည်။

ဥပမာအားဖြင့် လူများ၏ အလေးချိန်များ၏ စဉ်သည် အလားအလာမရေရာသော အပြောင်းအလဲတစ်ခုမှ ရယူထားသော တန်ဖိုးများ၏ စဉ်အဖြစ် စဉ်းစားနိုင်သည်။

[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]

Note: ဒီဒေတာကို အသုံးပြု၍ အလုပ်လုပ်ပုံကို ကြည့်ရန် accompanying notebook ကို ကြည့်ပါ။ ၎င်းသင်ခန်းစာတွင် စိန်ခေါ်မှုများစွာပါရှိပြီး၊ ၎င်းတို့ကို notebook တွင် ကုဒ်ထည့်သွင်းခြင်းဖြင့် ပြီးမြောက်နိုင်သည်။ ဒေတာကို လုပ်ဆောင်ရန် မသိပါက စိတ်မပူပါနှင့် - ကျွန်ုပ်တို့သည် Python ကို အသုံးပြု၍ ဒေတာနှင့် လုပ်ဆောင်ခြင်းကို နောက်ပိုင်းတွင် ပြန်လည်ဆွေးနွေးမည်။ Jupyter Notebook တွင် ကုဒ်ကို အကောင်အထည်ဖော်ရန် မသိပါက ဒီဆောင်းပါး ကို ကြည့်ပါ။

ဒီမှာ ကျွန်ုပ်တို့၏ ဒေတာအတွက် ပျမ်းမျှတန်ဖိုး၊ Median နှင့် Quartiles ကို ဖော်ပြထားသော Box Plot ဖြစ်သည်။

ကျွန်ုပ်တို့၏ ဒေတာတွင် ကစားသမား Roles များအကြောင်း အချက်အလက်များပါရှိသောကြောင့်၊ Role အလိုက် Box Plot ကို ပြုလုပ်နိုင်သည်။ ၎င်းသည် Role အလိုက် Parameter တန်ဖိုးများကွာခြားမှုကို နားလည်ရန် အထောက်အကူဖြစ်စေသည်။ ဒီအကြိမ်မှာ Height ကို စဉ်းစားပါမည်။

ဒီပုံစံသည် ပထမအခြေခံကစားသမား၏ အမြင့်သည် ဒုတိယအခြေခံကစားသမား၏ အမြင့်ထက် ပျမ်းမျှအားဖြင့် မြင့်မားသည်ဟု ဖော်ပြသည်။ ဒီသင်ခန်းစာတွင် ကျွန်ုပ်တို့သည် ဒီအယူအဆကို ပိုမိုတိကျစွာ စမ်းသပ်နည်းများနှင့် ဒေတာသည် အထောက်အထားအလုံလောက်ရှိကြောင်း သက်သေပြနည်းများကို လေ့လာမည်။

အမှန်တကယ်ဒေတာနှင့် အလုပ်လုပ်သောအခါ၊ ဒေတာအချက်အလက်များအားလုံးသည် အလားအလာဖြန့်ဖြူးမှုတစ်ခုမှ ရယူထားသော နမူနာများဖြစ်သည်ဟု ယူဆပါသည်။ ဒီယူဆချက်သည် Machine Learning နည်းလမ်းများကို အသုံးပြုရန်နှင့် အလုပ်လုပ်နိုင်သော ခန့်မှန်းပုံစံများကို တည်ဆောက်ရန် ခွင့်ပြုသည်။

ကျွန်ုပ်တို့၏ ဒေတာဖြန့်ဖြူးမှုကို ကြည့်ရန် Histogram ဟုခေါ်သော ပုံစံကို ရှုနိုင်သည်။ X-axis တွင် အလေးချိန် interval များ (သို့မဟုတ် bins) ပါရှိပြီး၊ Y-axis တွင် အလားအလာမရေရာသော အပြောင်းအလဲနမူနာသည် interval တစ်ခုတွင် ရှိနေသော အကြိမ်အရေအတွက်ကို ဖော်ပြသည်။

ဒီ Histogram မှာ အလေးချိန်များ

ယုံကြည်မှုအကွာအဝေး ဆိုသည်မှာ ကျွန်ုပ်တို့၏နမူနာအရ လူဦးရေ၏ အမှန်တကယ်အလယ်တန်းကို ခန့်မှန်းခြင်းဖြစ်ပြီး၊ သတ်မှတ်ထားသော အချို့သောဖြစ်နိုင်ခြေ (သို့မဟုတ် ယုံကြည်မှုအဆင့်) ဖြင့် တိကျမှုရှိသည်။ Suppose ကျွန်တော်တို့မှာ X₁, ..., X_n ဆိုတဲ့ distribution မှာ sample တစ်ခုရှိတယ်။ Distribution မှာ sample တစ်ခုကို အကြိမ်ကြိမ်ယူတဲ့အခါ mean value μ က မတူညီတဲ့အချိန်တိုင်းရရှိမယ်။ ဒါကြောင့် μ ကို random variable တစ်ခုအနေနဲ့ သတ်မှတ်နိုင်တယ်။ Confidence interval ဆိုတာ confidence p ရှိတဲ့ value pair (L_p,R_p) ဖြစ်ပြီး P(L_p≤μ≤R_p) = p ဖြစ်တယ်။ ဒါဟာ mean value တစ်ခု interval အတွင်းမှာ ရောက်ရှိဖို့ probability p ရှိတယ်ဆိုတာကို ဆိုလိုတာပါ။

Confidence interval တွေကို ဘယ်လိုတွက်ချက်ရမယ်ဆိုတာကို အကြမ်းဖျင်းအနေနဲ့ မဖော်ပြနိုင်ပါဘူး။ Wikipedia မှာ အချက်အလက်ပိုမိုသိရှိနိုင်ပါတယ်။ အကြမ်းဖျင်းအားဖြင့် population ရဲ့ true mean နဲ့ sample mean ရဲ့ distribution ကို student distribution လို့ခေါ်ပါတယ်။

စိတ်ဝင်စားစရာအချက်: Student distribution ကို mathematician William Sealy Gosset ရေးသားခဲ့ပြီး "Student" ဆိုတဲ့ နာမည်နဲ့ စာတမ်းတင်ခဲ့တယ်။ သူ Guinness brewery မှာ အလုပ်လုပ်ခဲ့ပြီး statistical tests တွေကို raw materials ရဲ့ quality ကိုသတ်မှတ်ဖို့ အသုံးပြုတာကို သူ့အလုပ်ရှင်က အများပြည်သူမသိစေချင်ခဲ့တယ်လို့ ဆိုပါတယ်။

Population ရဲ့ mean μ ကို confidence p နဲ့ ခန့်မှန်းချင်ရင် (1-p)/2-th percentile ကို Student distribution A မှာယူရမယ်။ Tables မှာယူနိုင်သလို statistical software (ဥပမာ Python, R, စသည်) ရဲ့ built-in functions တွေကို အသုံးပြုနိုင်ပါတယ်။ μ ရဲ့ interval ကို X±A*D/√n နဲ့ ရရှိမယ်။ ဒီမှာ X က sample ရဲ့ mean ဖြစ်ပြီး D က standard deviation ဖြစ်ပါတယ်။

Note: Student distribution နဲ့ ဆက်စပ်တဲ့ degrees of freedom ဆိုတဲ့ အရေးကြီးသော concept ကို ဒီမှာ မဖော်ပြပါဘူး။ Statistics ပိုမိုနက်နက်ရှိုင်းရှိုင်းလေ့လာချင်ရင် စာအုပ်တွေကို ဖတ်ရှုနိုင်ပါတယ်။

Weight နဲ့ height တွေကို confidence interval တွေတွက်ချက်တဲ့ ဥပမာကို accompanying notebooks မှာတွေ့နိုင်ပါတယ်။

p	Weight mean
0.85	201.73±0.94
0.90	201.73±1.08
0.95	201.73±1.28

Confidence probability ပိုမြင့်လာတာနဲ့ confidence interval ပိုကျယ်လာတာကို သတိပြုပါ။

Hypothesis Testing

Baseball players dataset မှာ player roles မျိုးစုံရှိပြီး အောက်ပါအတိုင်း စုစည်းနိုင်ပါတယ် (accompanying notebook ကိုကြည့်ပါ):

Role	Height	Weight	Count
Catcher	72.723684	204.328947	76
Designated_Hitter	74.222222	220.888889	18
First_Baseman	74.000000	213.109091	55
Outfielder	73.010309	199.113402	194
Relief_Pitcher	74.374603	203.517460	315
Second_Baseman	71.362069	184.344828	58
Shortstop	71.903846	182.923077	52
Starting_Pitcher	74.719457	205.163636	221
Third_Baseman	73.044444	200.955556	45

First basemen ရဲ့ mean height က second basemen ရဲ့ height ထက် မြင့်တယ်ဆိုတာကို သတိပြုမိတယ်။ ဒါကြောင့် first basemen are higher than second basemen ဆိုတဲ့ အကြောင်းအရာကို သတ်မှတ်ချင်တယ်။

ဒီ statement ကို hypothesis လို့ခေါ်တယ်။ အကြောင်းက ဒီအချက်အလက်ဟာ တကယ်မှန်မမှန် မသိရသေးလို့ပါ။

ဒါပေမယ့် ဒီအချက်အလက်ကို သတ်မှတ်ဖို့ အလွယ်တကူ မဖြစ်နိုင်ပါဘူး။ Mean တစ်ခုစီမှာ confidence interval ရှိပြီး statistical error ဖြစ်နိုင်ပါတယ်။ Hypothesis ကို စမ်းသပ်ဖို့ formal method တစ်ခုလိုအပ်ပါတယ်။

First basemen နဲ့ second basemen ရဲ့ height တွေကို confidence interval တွေတွက်ချက်ကြည့်ရအောင်:

Confidence	First Basemen	Second Basemen
0.85	73.62..74.38	71.04..71.69
0.90	73.56..74.44	70.99..71.73
0.95	73.47..74.53	70.92..71.81

Confidence level မည်သည့်အချိန်မှာမဆို interval တွေ overlap မဖြစ်ပါဘူး။ ဒါဟာ first basemen are higher than second basemen ဆိုတဲ့ hypothesis ကို အတည်ပြုပါတယ်။

Formal အနေနဲ့ ကျွန်တော်တို့ရဲ့ ပြဿနာက two probability distributions are the same ဖြစ်မဖြစ်ကို စမ်းသပ်ဖို့ပါ။ Distribution ပေါ်မူတည်ပြီး test မျိုးစုံကို အသုံးပြုရမယ်။ Distribution တွေ normal ဖြစ်တယ်ဆိုရင် Student t-test ကို အသုံးပြုနိုင်ပါတယ်။

Student t-test မှာ t-value ကိုတွက်ချက်ပြီး variance ကို ထည့်သွင်းစဉ်းစားတယ်။ T-value ဟာ student distribution ကို follow လုပ်ပြီး confidence level p အတွက် threshold value ရရှိနိုင်တယ်။ T-value ကို threshold နဲ့ နှိုင်းယှဉ်ပြီး hypothesis ကို approve/reject လုပ်နိုင်ပါတယ်။

Python မှာ SciPy package ကို အသုံးပြုနိုင်ပြီး ttest_ind function ပါဝင်ပါတယ်။ Function က t-value ကိုတွက်ချက်ပေးပြီး confidence p-value ကို reverse lookup လုပ်ပေးတယ်။ ဒါကြောင့် confidence ကိုကြည့်ပြီး အတည်ပြုနိုင်ပါတယ်။

ဥပမာအားဖြင့် first basemen နဲ့ second basemen ရဲ့ height တွေကို နှိုင်းယှဉ်တဲ့အခါ:

from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

T-value = 7.65
P-value: 9.137321189738925e-12

P-value အနည်းငယ်ရှိတာကြောင့် first basemen are taller ဆိုတဲ့ hypothesis ကို အတည်ပြုနိုင်ပါတယ်။

အခြား hypothesis မျိုးစုံကိုလည်း စမ်းသပ်နိုင်ပါတယ်၊ ဥပမာ:

Sample တစ်ခုက distribution တစ်ခုကို follow လုပ်တယ်ဆိုတာကို အတည်ပြုဖို့
Sample ရဲ့ mean value က predefined value တစ်ခုနဲ့ ကိုက်ညီတယ်ဆိုတာကို အတည်ပြုဖို့
Samples များစွာရဲ့ mean တွေကို နှိုင်းယှဉ်ဖို့ (ဥပမာ: အသက်အရွယ်အုပ်စုများအကြား happiness level တွေကို နှိုင်းယှဉ်)

Law of Large Numbers and Central Limit Theorem

Normal distribution အရေးကြီးတဲ့အကြောင်းအရင်းတစ်ခုက central limit theorem ဖြစ်ပါတယ်။ N→∞ ဖြစ်တဲ့အခါ independent N values X₁, ..., X_N ရဲ့ mean Σ_iX_i ဟာ normal distribution ဖြစ်တယ်။ Mean က μ ဖြစ်ပြီး variance က σ²/N ဖြစ်တယ်။

Central limit theorem ကို အခြားနည်းလမ်းတစ်ခုနဲ့လည်း ရှင်းလင်းနိုင်ပါတယ်။ Random variable values တွေကို စုပေါင်းပြီး mean တွက်တဲ့အခါ normal distribution ရရှိတယ်။

Central limit theorem က N→∞ ဖြစ်တဲ့အခါ sample mean က μ နဲ့ တူဖို့ probability 1 ရှိတယ်ဆိုတာကိုလည်း ပြောပါတယ်။ ဒါကို law of large numbers လို့ခေါ်တယ်။

Covariance and Correlation

Data Science ရဲ့ အရေးကြီးအပိုင်းတစ်ခုက data တွေကြားဆက်စပ်မှုကို ရှာဖွေဖို့ပါ။ Sequence နှစ်ခု correlate လုပ်တယ်ဆိုတာက တစ်ချိန်တည်းမှာ behavior တူတူပြသတယ်ဆိုတာပါ။ Sequence တစ်ခုတက်တဲ့အခါ တစ်ခုကျသွားတာမျိုးလည်း ဖြစ်နိုင်ပါတယ်။

Correlation ဟာ causal relationship ကို မပြသနိုင်ပါဘူး။ Variables နှစ်ခုဟာ အခြားအကြောင်းအရာတစ်ခုကြောင့် ဆက်စပ်နိုင်ပါတယ်၊ ဒါမှမဟုတ် chance ကြောင့် correlation ဖြစ်နိုင်ပါတယ်။ ဒါပေမယ့် strong mathematical correlation ရှိရင် variables နှစ်ခုကြားမှာ ဆက်စပ်မှုရှိတယ်လို့ သံသယရှိနိုင်ပါတယ်။

Mathematically, random variables နှစ်ခုကြားဆက်စပ်မှုကို covariance နဲ့ဖော်ပြတယ်။ Cov(X,Y) = E[(X-E(X))(Y-E(Y))] ဖြစ်တယ်။ Variables နှစ်ခု mean values ကနေ ဘယ်လို deviate လုပ်တယ်ဆိုတာကို တွက်ပြီး product တွေကို စုပေါင်းတယ်။ Deviations တူတူဖြစ်ရင် positive covariance ရရှိတယ်။ Deviations မတူရင် negative covariance ရရှိတယ်။ Deviations မဆက်စပ်ရင် covariance က 0 နီးပါးဖြစ်တယ်။

Covariance ရဲ့ absolute value က correlation ရဲ့ အရွယ်အစားကို မပြသနိုင်ပါဘူး။ Standard deviation နဲ့ normalize လုပ်ပြီး correlation ရရှိနိုင်တယ်။ Correlation က [-1,1] အတွင်းရှိပြီး 1 က strong positive correlation, -1 က strong negative correlation, 0 က correlation မရှိတာကို ဆိုလိုတယ်။

ဥပမာ: Baseball players dataset မှာ weight နဲ့ height ကြား correlation တွက်ကြည့်ရအောင်:

print(np.corrcoef(weights,heights))

Result အနေနဲ့ correlation matrix ရရှိတယ်:

array([[1.        , 0.52959196],
       [0.52959196, 1.        ]])

Correlation matrix C ကို input sequences S₁, ..., S_n အတွက် တွက်နိုင်တယ်။ C_ij က S_i နဲ့ S_j ကြား correlation ဖြစ်ပြီး diagonal elements တွေက 1 ဖြစ်တယ် (self-correlation of S_i).

Weight နဲ့ height ကြား correlation 0.53 ရှိတာက variables နှစ်ခုကြား ဆက်စပ်မှုရှိတယ်ဆိုတာကို ပြသတယ်။ Scatter plot ကိုလည်း ရိုက်ပြီး relationship ကို visually ကြည့်နိုင်တယ်:

Correlation နဲ့ covariance ရဲ့ ဥပမာများကို accompanying notebook မှာတွေ့နိုင်ပါတယ်။

နိဂုံး

ဒီအပိုင်းမှာ ကျွန်တော်တို့:

data ရဲ့ mean, variance, mode, quartiles စတဲ့ statistical properties တွေကို လေ့လာခဲ့တယ်
random variables ရဲ့ distributions မျိုးစုံကို လေ့လာခဲ့တယ်
properties မျိုးစုံကြား correlation ရှာဖွေခဲ့တယ်
math နဲ့ statistics apparatus ကို hypothesis တွေကို အတည်ပြုဖို့ အသုံးပြုခဲ့တယ်
data sample ရဲ့ random variable အတွက် confidence interval တွေတွက်ခဲ့တယ်

Probability နဲ့ statistics ရဲ့ အခြေခံအချက်အလက်တွေကို လေ့လာခဲ့ပြီး ဒီ course ကို စတင်ဖို့ လုံလောက်ပါတယ်။

🚀 Challenge

Notebook မှာ sample code ကို အသုံးပြုပြီး hypothesis အောက်ပါအတိုင်း စမ်းသပ်ပါ:

First basemen are older than second basemen
First basemen are taller than third basemen
Shortstops are taller than second basemen

Post-lecture quiz

Review & Self Study

Probability နဲ့ statistics ဟာ အကျယ်အဝန်းရှိတဲ့အကြောင်းအရာဖြစ်ပြီး သီးသန့် course တစ်ခုအနေနဲ့လေ့လာဖို့ လိုအပ်ပါတယ်။ Theory ကိုပိုမိုနက်နက်ရှိုင်းရှိုင်းလေ့လာချင်ရင် အောက်ပါစာအုပ်များကို ဖတ်ရှုနိုင်ပါတယ်:

Carlos Fernandez-Granda ရဲ့ Probability and Statistics for Data Science lecture notes (online မှာရရှိနိုင်ပါတယ်)
Peter and Andrew Bruce. Practical Statistics for Data Scientists. [sample code in R].
James D. Miller. Statistics for Data Science [sample code in R]

Assignment

Small Diabetes Study

Credits

ဒီ lesson ကို Dmitry Soshnikov မှ ♥️ နဲ့ရေးသားထားပါတယ်။

အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါရှိနိုင်သည်ကို သတိပြုပါ။ မူရင်းဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာရှိသော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပရော်ဖက်ရှင်နယ် ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအလွတ်များ သို့မဟုတ် အနားယူမှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။

README.md Unescape Escape