15 KiB
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: အနက်ဖွင့်ခြင်း
![]() |
---|
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: အနက်ဖွင့်ခြင်း - Sketchnote by @nitya |
မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ
မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ
ဒေတာအသက်တာစဉ်တွင် အနက်ဖွင့်ခြင်းသည် ပေးထားသောမေးခွန်းများကို ဒေတာက ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သက်သေပြခြင်းနှင့် သတ်မှတ်ထားသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုခြင်းဖြစ်သည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာ ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုခြင်းကိုလည်း အဓိကထားပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်သည်။ ဒါဟာ ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်သည်။
Python နှင့် Pandas library ကို အသုံးပြု၍ Kaggle မှ အတုဒေတာစုစည်းမှုကို အသုံးပြုမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ notebook ကို အသုံးပြုပြီး လိုက်လျောပါ။
Exploratory Data Analysis
အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို သတ်မှတ်ခြင်းဖြစ်သည်။ ဒါပေမယ့် ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်း ဘယ်လိုသိနိုင်မလဲ?
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးက ဒေတာရရှိတဲ့အခါမှာ အောက်ပါမေးခွန်းများကို မေးနိုင်သည်-
- ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်ပါသလား?
- ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးလက်ခံနိုင်ဖွယ်ရှိပါသလား?
- ဒီဒေတာမှ ထပ်မံသိရှိရသော အချက်အလက်များကြောင့် ရည်မှန်းချက်များကို ပြောင်းလဲသို့မဟုတ် ပြန်လည်သတ်မှတ်သင့်ပါသလား?
Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည်။ ဒါ့အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သော စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်သည်။ ဒီနည်းလမ်းများကို အဓိကထားပြီး လေ့လာကြမည်။
ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများနှင့် Pandas
ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်ပါသလားဆိုတာကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်းသည် ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို ဖော်ပြနိုင်ပြီး ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းနည်းလမ်းများကို အသုံးပြုသည်။ ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေ ရှိနေလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းက ဘယ်လောက်အရေအတွက် ရှိနေလဲဆိုတာ နားလည်စေသည်။
ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြုပြီး describe()
function ဖြင့် ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများကို ဖော်ပြခဲ့သည်။ ဒါဟာ အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှင့် quantiles ကို ဖော်ပြသည်။ describe()
function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများကို အသုံးပြုခြင်းက သင့်မှာ ဘယ်လောက်ရှိနေလဲ၊ ထပ်မံလိုအပ်ပါသလားဆိုတာကို အကဲဖြတ်နိုင်စေသည်။
Sampling နှင့် Querying
ဒေတာစုစည်းမှုကြီးတစ်ခုကို အကုန်လုံး လေ့လာဖို့က အချိန်အလွန်များပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေဖို့လိုအပ်သော တာဝန်ဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်ပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေသည်။ Sample ရရှိပြီးနောက် Probability နှင့် Statistics ကို အသုံးပြု၍ ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်သည်။ Sample လုပ်ရန် ဒေတာအရေအတွက်ကို သတ်မှတ်ထားသော စည်းမျဉ်းမရှိသော်လည်း Sample လုပ်သော ဒေတာများ ပိုများလျှင် ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်သည်။
Pandas မှ sample()
function ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို သတ်မှတ်ပြီး အသုံးပြုနိုင်သည်။
ဒေတာကို Query လုပ်ခြင်းက သင့်မှာရှိတဲ့ မေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်သည်။ Sampling နှင့် ဆန့်ကျင်ဘက်ဖြစ်ပြီး Querying က သင့်မှာရှိတဲ့ မေးခွန်းများအပေါ် အာရုံစိုက်ပြီး ဒေတာ၏ အထူးအစိတ်အပိုင်းများကို ထိန်းချုပ်နိုင်သည်။
Pandas library မှ query()
function ကို အသုံးပြု၍ ကော်လံများကို ရွေးချယ်ပြီး ရိုးရှင်းသော အဖြေများကို ရယူနိုင်သည်။
Visualizations ဖြင့် လေ့လာခြင်း
ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး အနက်ဖွင့်ပြီးမှ Visualizations ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ Visualizations ရှိခြင်းက ဒေတာအတွင်းရှိ Pattern, ဆက်နွယ်မှုများနှင့် ပြဿနာများကို သတ်မှတ်နိုင်စေသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲမှုတွင် ပါဝင်မထားသောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး Capture အဆင့်တွင် မဖြေရှင်းထားသော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေသည်။ Visualizations ကို လေ့လာရန် Visualizations အပိုင်း ကို ရည်ညွှန်းပါ။
မညီညွတ်မှုများကို ရှာဖွေခြင်း
ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက ပျောက်ဆုံးနေသော ဒေတာများ သို့မဟုတ် မညီညွတ်သော တန်ဖိုးများကို ရှာဖွေရာတွင် အထောက်အကူဖြစ်စေသည်။ Pandas မှ isna() သို့မဟုတ် isnull() function ကို အသုံးပြု၍ ပျောက်ဆုံးနေသော တန်ဖိုးများကို စစ်ဆေးနိုင်သည်။ ဒေတာအတွင်းရှိ ပျောက်ဆုံးနေသော တန်ဖိုးများကို ရှာဖွေရာတွင် အရေးကြီးသောအချက်တစ်ခုက အဲဒီတန်ဖိုးတွေ ဘာကြောင့် အဲဒီအတိုင်းဖြစ်သွားတာလဲဆိုတာကို ရှာဖွေဖို့ဖြစ်သည်။ ဒါက အဲဒီတန်ဖိုးတွေကို ဖြေရှင်းဖို့ လုပ်ဆောင်ချက်များကို ဆုံးဖြတ်ရာတွင် အထောက်အကူဖြစ်စေသည်။
မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ
လုပ်ငန်းတာဝန်
ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။