You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/4-Data-Science-Lifecycle/15-analyzing
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း

 Sketchnote by (@sketchthedocs)
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း - Sketchnote by @nitya

Pre-Lecture Quiz

ဒေတာအသက်တာစဉ်တွင် ခွဲခြမ်းစိတ်ဖြာခြင်းသည် ပေးထားသောမေးခွန်းများကိုဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သို့မဟုတ် တစ်ခုခုသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အရေးပါသည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အာရုံစိုက်နိုင်ပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်ပြီး ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်ပါသည်။

Python နှင့် Pandas library ကို အသုံးပြု၍ Kaggle မှ အတုဒေတာစုစည်းမှုကို အသုံးပြု၍ ဤနည်းလမ်းများကို လက်တွေ့အသုံးချပုံကို ပြသမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ notebook ကို အသုံးပြုပြီး လိုက်လျောပါ။

Exploratory Data Analysis

အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို ရယူခြင်းတို့ကို လုပ်ဆောင်ပါသည်။ ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်းကို ဘယ်လိုသိနိုင်မလဲ?
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးသည် ဒေတာရရှိသောအခါ အောက်ပါမေးခွန်းများကို မေးနိုင်ပါသည်-

  • ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိပါသလား?
  • ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးက လက်ခံနိုင်ဖွယ်ရှိပါသလား?
  • ဒီဒေတာမှ ထပ်မံသောအချက်အလက်များကို ရှာဖွေတွေ့ရှိခဲ့ပါက ရည်မှန်းချက်များကို ပြောင်းလဲခြင်း သို့မဟုတ် ပြန်လည်သတ်မှတ်ခြင်းကို စဉ်းစားသင့်ပါသလား?

Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည့်အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သည့် စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်ပါသည်။ ဒီနည်းလမ်းများကို အာရုံစိုက်ပြီး လေ့လာကြမည်။

ဒေတာပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများနှင့် Pandas

ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိမရှိကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာပရိုဖိုင်းလုပ်ခြင်းသည် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြု၍ ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို စုစည်းနိုင်သည်။ ဒေတာပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေရှိလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများက ဘယ်လောက်များရှိလဲဆိုတာ နားလည်စေပါသည်။

ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြု၍ describe() function ဖြင့် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများကို ပေးခဲ့ပါသည်။ ဒါက အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှုန်းနှင့် quantiles တို့ကို ရှင်းလင်းပေးပါသည်။ describe() function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြုခြင်းက သင်မှာ ဘယ်လောက်ရှိလဲ၊ ထပ်မံလိုအပ်မလားဆိုတာကို အကဲဖြတ်နိုင်စေပါသည်။

Sampling နှင့် Querying

ဒေတာစုစည်းမှုကြီးတစ်ခုကို အားလုံးကို လေ့လာခြင်းသည် အချိန်အလွန်ကြာရှည်ပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေသင့်သော တာဝန်တစ်ခုဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်စေပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေပါသည်။ Sample ရရှိပါက သင် Probability နှင့် Statistics ကို အသုံးပြု၍ သင့်ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်ပါသည်။ ဒေတာကို ဘယ်လောက်များ Sample လုပ်သင့်သည်ဆိုတာအတွက် သတ်မှတ်ချက်မရှိသော်လည်း ဒေတာ Sample လုပ်လို့ရရှိသောအရေအတွက်များများရှိလေ၊ ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်ပါသည်။

Pandas မှ sample() function ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို argument အနေနဲ့ ပေးပြီး အသုံးပြုနိုင်ပါသည်။

ဒေတာကို General querying လုပ်ခြင်းက သင့်မှာရှိတဲ့ အထွေထွေမေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်စေပါသည်။ Sampling နှင့် ဆန့်ကျင်ဘက်အနေနဲ့ Queries တွေက သင့်မှာရှိတဲ့ ဒေတာအပိုင်းအစများကို အထူးအာရုံစိုက်ပြီး အထူးမေးခွန်းများကို ဖြေရှင်းနိုင်စေပါသည်။
Pandas library မှ query() function ကို အသုံးပြု၍ column တွေကို ရွေးချယ်ပြီး row တွေမှ ဒေတာအကြောင်း အလွယ်တကူဖြေရှင်းနိုင်သော အဖြေများကို ရယူနိုင်ပါသည်။

Visualizations ဖြင့် လေ့လာခြင်း

ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး ခွဲခြမ်းစိတ်ဖြာပြီးမှ Visualization တွေကို ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ လေ့လာနေစဉ်မှာ Visualizations ရှိခြင်းက pattern တွေ၊ ဆက်နွယ်မှုတွေ၊ ဒေတာအတွင်းရှိပြဿနာတွေကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲနေသူများမဟုတ်သောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး capture အဆင့်မှာ မဖြေရှင်းနိုင်သော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေပါသည်။ Visualizations ကို လေ့လာရန် Visualizations အပိုင်း ကို ရည်ညွှန်းပါ။

မညီညာမှုများကို ရှာဖွေခြင်း

ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက မရှိသောတန်ဖိုးများ သို့မဟုတ် မညီညာသောတန်ဖိုးများကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ Pandas မှ isna() သို့မဟုတ် isnull() function တွေက မရှိသောတန်ဖိုးများကို စစ်ဆေးနိုင်စေပါသည်။ ဒေတာအတွင်းရှိ မရှိသောတန်ဖိုးများကို ရှာဖွေခြင်း၏ အရေးပါသောအပိုင်းတစ်ခုက ဒီတန်ဖိုးတွေ ဘာကြောင့် ဒီအခြေအနေမှာ ရောက်လာခဲ့တာလဲဆိုတာကို ရှာဖွေဖော်ထုတ်ခြင်းဖြစ်သည်။ ဒါက သင့်အနေဖြင့် အရေးယူဆောင်ရွက်မှုများ ကို ဆောင်ရွက်ရန် ဆုံးဖြတ်နိုင်စေပါသည်။

Post-lecture quiz

လုပ်ငန်းတာဝန်

အဖြေများကို ရှာဖွေခြင်း


ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ဆိုမှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသောအချက်အလက်များအတွက် ပရော်ဖက်ရှင်နယ် လူသားဘာသာပြန်ကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားမှုများ သို့မဟုတ် အဓိပ္ပါယ်မှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။