|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.ipynb | 3 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း
![]() |
---|
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း - Sketchnote by @nitya |
Pre-Lecture Quiz
ဒေတာအသက်တာစဉ်တွင် ခွဲခြမ်းစိတ်ဖြာခြင်းသည် ပေးထားသောမေးခွန်းများကိုဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သို့မဟုတ် တစ်ခုခုသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အရေးပါသည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အာရုံစိုက်နိုင်ပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်ပြီး ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်ပါသည်။
Python နှင့် Pandas library ကို အသုံးပြု၍ Kaggle မှ အတုဒေတာစုစည်းမှုကို အသုံးပြု၍ ဤနည်းလမ်းများကို လက်တွေ့အသုံးချပုံကို ပြသမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ notebook ကို အသုံးပြုပြီး လိုက်လျောပါ။
Exploratory Data Analysis
အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို ရယူခြင်းတို့ကို လုပ်ဆောင်ပါသည်။ ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်းကို ဘယ်လိုသိနိုင်မလဲ?
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးသည် ဒေတာရရှိသောအခါ အောက်ပါမေးခွန်းများကို မေးနိုင်ပါသည်-
- ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိပါသလား?
- ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးက လက်ခံနိုင်ဖွယ်ရှိပါသလား?
- ဒီဒေတာမှ ထပ်မံသောအချက်အလက်များကို ရှာဖွေတွေ့ရှိခဲ့ပါက ရည်မှန်းချက်များကို ပြောင်းလဲခြင်း သို့မဟုတ် ပြန်လည်သတ်မှတ်ခြင်းကို စဉ်းစားသင့်ပါသလား?
Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည့်အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သည့် စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်ပါသည်။ ဒီနည်းလမ်းများကို အာရုံစိုက်ပြီး လေ့လာကြမည်။
ဒေတာပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများနှင့် Pandas
ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိမရှိကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာပရိုဖိုင်းလုပ်ခြင်းသည် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြု၍ ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို စုစည်းနိုင်သည်။ ဒေတာပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေရှိလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများက ဘယ်လောက်များရှိလဲဆိုတာ နားလည်စေပါသည်။
ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြု၍ describe()
function ဖြင့် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများကို ပေးခဲ့ပါသည်။ ဒါက အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှုန်းနှင့် quantiles တို့ကို ရှင်းလင်းပေးပါသည်။ describe()
function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြုခြင်းက သင်မှာ ဘယ်လောက်ရှိလဲ၊ ထပ်မံလိုအပ်မလားဆိုတာကို အကဲဖြတ်နိုင်စေပါသည်။
Sampling နှင့် Querying
ဒေတာစုစည်းမှုကြီးတစ်ခုကို အားလုံးကို လေ့လာခြင်းသည် အချိန်အလွန်ကြာရှည်ပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေသင့်သော တာဝန်တစ်ခုဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်စေပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေပါသည်။ Sample ရရှိပါက သင် Probability နှင့် Statistics ကို အသုံးပြု၍ သင့်ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်ပါသည်။ ဒေတာကို ဘယ်လောက်များ Sample လုပ်သင့်သည်ဆိုတာအတွက် သတ်မှတ်ချက်မရှိသော်လည်း ဒေတာ Sample လုပ်လို့ရရှိသောအရေအတွက်များများရှိလေ၊ ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်ပါသည်။
Pandas မှ sample()
function ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို argument အနေနဲ့ ပေးပြီး အသုံးပြုနိုင်ပါသည်။
ဒေတာကို General querying လုပ်ခြင်းက သင့်မှာရှိတဲ့ အထွေထွေမေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်စေပါသည်။ Sampling နှင့် ဆန့်ကျင်ဘက်အနေနဲ့ Queries တွေက သင့်မှာရှိတဲ့ ဒေတာအပိုင်းအစများကို အထူးအာရုံစိုက်ပြီး အထူးမေးခွန်းများကို ဖြေရှင်းနိုင်စေပါသည်။
Pandas library မှ query()
function ကို အသုံးပြု၍ column တွေကို ရွေးချယ်ပြီး row တွေမှ ဒေတာအကြောင်း အလွယ်တကူဖြေရှင်းနိုင်သော အဖြေများကို ရယူနိုင်ပါသည်။
Visualizations ဖြင့် လေ့လာခြင်း
ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး ခွဲခြမ်းစိတ်ဖြာပြီးမှ Visualization တွေကို ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ လေ့လာနေစဉ်မှာ Visualizations ရှိခြင်းက pattern တွေ၊ ဆက်နွယ်မှုတွေ၊ ဒေတာအတွင်းရှိပြဿနာတွေကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲနေသူများမဟုတ်သောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး capture အဆင့်မှာ မဖြေရှင်းနိုင်သော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေပါသည်။ Visualizations ကို လေ့လာရန် Visualizations အပိုင်း ကို ရည်ညွှန်းပါ။
မညီညာမှုများကို ရှာဖွေခြင်း
ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက မရှိသောတန်ဖိုးများ သို့မဟုတ် မညီညာသောတန်ဖိုးများကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ Pandas မှ isna() သို့မဟုတ် isnull() function တွေက မရှိသောတန်ဖိုးများကို စစ်ဆေးနိုင်စေပါသည်။ ဒေတာအတွင်းရှိ မရှိသောတန်ဖိုးများကို ရှာဖွေခြင်း၏ အရေးပါသောအပိုင်းတစ်ခုက ဒီတန်ဖိုးတွေ ဘာကြောင့် ဒီအခြေအနေမှာ ရောက်လာခဲ့တာလဲဆိုတာကို ရှာဖွေဖော်ထုတ်ခြင်းဖြစ်သည်။ ဒါက သင့်အနေဖြင့် အရေးယူဆောင်ရွက်မှုများ ကို ဆောင်ရွက်ရန် ဆုံးဖြတ်နိုင်စေပါသည်။
Post-lecture quiz
လုပ်ငန်းတာဝန်
ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ဆိုမှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသောအချက်အလက်များအတွက် ပရော်ဖက်ရှင်နယ် လူသားဘာသာပြန်ကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားမှုများ သို့မဟုတ် အဓိပ္ပါယ်မှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။