You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/4-Data-Science-Lifecycle/15-analyzing
leestott 8dcd54c138
🌐 Update translations via Co-op Translator
3 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: အနက်ဖွင့်ခြင်း

 Sketchnote by (@sketchthedocs)
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: အနက်ဖွင့်ခြင်း - Sketchnote by @nitya

မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ

မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ

ဒေတာအသက်တာစဉ်တွင် အနက်ဖွင့်ခြင်းသည် ပေးထားသောမေးခွန်းများကို ဒေတာက ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သက်သေပြခြင်းနှင့် သတ်မှတ်ထားသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုခြင်းဖြစ်သည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာ ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုခြင်းကိုလည်း အဓိကထားပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်သည်။ ဒါဟာ ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်သည်။

Python နှင့် Pandas library ကို အသုံးပြု၍ Kaggle မှ အတုဒေတာစုစည်းမှုကို အသုံးပြုမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ notebook ကို အသုံးပြုပြီး လိုက်လျောပါ။

Exploratory Data Analysis

အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို သတ်မှတ်ခြင်းဖြစ်သည်။ ဒါပေမယ့် ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်း ဘယ်လိုသိနိုင်မလဲ?
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးက ဒေတာရရှိတဲ့အခါမှာ အောက်ပါမေးခွန်းများကို မေးနိုင်သည်-

  • ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်ပါသလား?
  • ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးလက်ခံနိုင်ဖွယ်ရှိပါသလား?
  • ဒီဒေတာမှ ထပ်မံသိရှိရသော အချက်အလက်များကြောင့် ရည်မှန်းချက်များကို ပြောင်းလဲသို့မဟုတ် ပြန်လည်သတ်မှတ်သင့်ပါသလား?

Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည်။ ဒါ့အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သော စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်သည်။ ဒီနည်းလမ်းများကို အဓိကထားပြီး လေ့လာကြမည်။

ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများနှင့် Pandas

ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်ပါသလားဆိုတာကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်းသည် ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို ဖော်ပြနိုင်ပြီး ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းနည်းလမ်းများကို အသုံးပြုသည်။ ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေ ရှိနေလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းက ဘယ်လောက်အရေအတွက် ရှိနေလဲဆိုတာ နားလည်စေသည်။

ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြုပြီး describe() function ဖြင့် ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများကို ဖော်ပြခဲ့သည်။ ဒါဟာ အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှင့် quantiles ကို ဖော်ပြသည်။ describe() function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများကို အသုံးပြုခြင်းက သင့်မှာ ဘယ်လောက်ရှိနေလဲ၊ ထပ်မံလိုအပ်ပါသလားဆိုတာကို အကဲဖြတ်နိုင်စေသည်။

Sampling နှင့် Querying

ဒေတာစုစည်းမှုကြီးတစ်ခုကို အကုန်လုံး လေ့လာဖို့က အချိန်အလွန်များပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေဖို့လိုအပ်သော တာဝန်ဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်ပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေသည်။ Sample ရရှိပြီးနောက် Probability နှင့် Statistics ကို အသုံးပြု၍ ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်သည်။ Sample လုပ်ရန် ဒေတာအရေအတွက်ကို သတ်မှတ်ထားသော စည်းမျဉ်းမရှိသော်လည်း Sample လုပ်သော ဒေတာများ ပိုများလျှင် ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်သည်။
Pandas မှ sample() function ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို သတ်မှတ်ပြီး အသုံးပြုနိုင်သည်။

ဒေတာကို Query လုပ်ခြင်းက သင့်မှာရှိတဲ့ မေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်သည်။ Sampling နှင့် ဆန့်ကျင်ဘက်ဖြစ်ပြီး Querying က သင့်မှာရှိတဲ့ မေးခွန်းများအပေါ် အာရုံစိုက်ပြီး ဒေတာ၏ အထူးအစိတ်အပိုင်းများကို ထိန်းချုပ်နိုင်သည်။
Pandas library မှ query() function ကို အသုံးပြု၍ ကော်လံများကို ရွေးချယ်ပြီး ရိုးရှင်းသော အဖြေများကို ရယူနိုင်သည်။

Visualizations ဖြင့် လေ့လာခြင်း

ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး အနက်ဖွင့်ပြီးမှ Visualizations ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ Visualizations ရှိခြင်းက ဒေတာအတွင်းရှိ Pattern, ဆက်နွယ်မှုများနှင့် ပြဿနာများကို သတ်မှတ်နိုင်စေသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲမှုတွင် ပါဝင်မထားသောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး Capture အဆင့်တွင် မဖြေရှင်းထားသော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေသည်။ Visualizations ကို လေ့လာရန် Visualizations အပိုင်း ကို ရည်ညွှန်းပါ။

မညီညွတ်မှုများကို ရှာဖွေခြင်း

ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက ပျောက်ဆုံးနေသော ဒေတာများ သို့မဟုတ် မညီညွတ်သော တန်ဖိုးများကို ရှာဖွေရာတွင် အထောက်အကူဖြစ်စေသည်။ Pandas မှ isna() သို့မဟုတ် isnull() function ကို အသုံးပြု၍ ပျောက်ဆုံးနေသော တန်ဖိုးများကို စစ်ဆေးနိုင်သည်။ ဒေတာအတွင်းရှိ ပျောက်ဆုံးနေသော တန်ဖိုးများကို ရှာဖွေရာတွင် အရေးကြီးသောအချက်တစ်ခုက အဲဒီတန်ဖိုးတွေ ဘာကြောင့် အဲဒီအတိုင်းဖြစ်သွားတာလဲဆိုတာကို ရှာဖွေဖို့ဖြစ်သည်။ ဒါက အဲဒီတန်ဖိုးတွေကို ဖြေရှင်းဖို့ လုပ်ဆောင်ချက်များကို ဆုံးဖြတ်ရာတွင် အထောက်အကူဖြစ်စေသည်။

မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ

လုပ်ငန်းတာဝန်

အဖြေများကို ရှာဖွေခြင်း


ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။