You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/4-Data-Science-Lifecycle/14-Introduction
leestott 7373a19c39
🌐 Update translations via Co-op Translator
5 months ago
..
README.md 🌐 Update translations via Co-op Translator 5 months ago
assignment.md 🌐 Update translations via Co-op Translator 5 months ago
notebook.ipynb 🌐 Update translations via Co-op Translator 5 months ago

README.md

ဒေတာသိပ္ပံ၏ အသက်တာစဉ်ကိုမိတ်ဆက်ခြင်း

 Sketchnote by (@sketchthedocs)
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်ကိုမိတ်ဆက်ခြင်း - Sketchnote by @nitya

Pre-Lecture Quiz

ဒီအချိန်မှာ သင်ဟာ ဒေတာသိပ္ပံဟာ တစ်ခုတည်းသော လုပ်ငန်းစဉ်ဖြစ်တယ်ဆိုတာ သိရှိလာပြီးဖြစ်နိုင်ပါတယ်။ ဒီလုပ်ငန်းစဉ်ကို အောက်ပါ ၅ အဆင့်အလိုက် ခွဲခြားနိုင်ပါတယ်-

  • ဒေတာရယူခြင်း
  • ဒေတာကိုလုပ်ဆောင်ခြင်း
  • ဒေတာကိုခွဲခြမ်းစိတ်ဖြာခြင်း
  • ဆက်သွယ်ပေးခြင်း
  • ထိန်းသိမ်းခြင်း

ဒီသင်ခန်းစာမှာ အသက်တာစဉ်ရဲ့ အရေးကြီးတဲ့ အပိုင်း ၃ ခုဖြစ်တဲ့ ဒေတာရယူခြင်း၊ ဒေတာကိုလုပ်ဆောင်ခြင်း၊ ထိန်းသိမ်းခြင်းတို့ကို အဓိကထားပြီး လေ့လာသင်ကြားမှာဖြစ်ပါတယ်။

Diagram of the data science lifecycle

Berkeley School of Information မှဓာတ်ပုံ

ဒေတာရယူခြင်း

အသက်တာစဉ်ရဲ့ ပထမအဆင့်ဟာ အရေးကြီးဆုံးဖြစ်ပြီး နောက်အဆင့်တွေဟာ ဒီအဆင့်ပေါ်မှာ မူတည်ပါတယ်။ ဒါဟာ အလုံးစုံရယူခြင်းနဲ့ ရည်ရွယ်ချက်နဲ့ ဖြေရှင်းရမယ့် ပြဿနာတွေကို သတ်မှတ်ခြင်းဆိုတဲ့ အဆင့် ၂ ခုကို ပေါင်းစပ်ထားတဲ့ အဆင့်တစ်ခုဖြစ်ပါတယ်။
ပရောဂျက်ရဲ့ ရည်ရွယ်ချက်တွေကို သတ်မှတ်ဖို့အတွက် ပြဿနာနဲ့ မေးခွန်းရဲ့ နက်ရှိုင်းတဲ့ အကြောင်းအရာကို လိုအပ်ပါတယ်။ ပထမဦးဆုံးမှာ ပြဿနာကို ဖြေရှင်းဖို့ လိုအပ်တဲ့သူတွေကို ရှာဖွေပြီး ရယူဖို့ လိုအပ်ပါတယ်။ ဒါတွေဟာ စီးပွားရေးလုပ်ငန်းရဲ့ အကျိုးဆောင်တွေ သို့မဟုတ် ပရောဂျက်ရဲ့ အားပေးသူတွေဖြစ်နိုင်ပြီး ဒီပရောဂျက်က ဘယ်သူတွေ၊ ဘာတွေ အကျိုးရှိမလဲ၊ ဘာကြောင့် လိုအပ်လဲဆိုတာကို သတ်မှတ်ဖို့ ကူညီနိုင်ပါတယ်။ ရည်ရွယ်ချက်တစ်ခုကို သတ်မှတ်တဲ့အခါမှာ တိကျပြီး တိုင်းတာနိုင်တဲ့ ရလဒ်ကို သတ်မှတ်ဖို့ လိုအပ်ပါတယ်။

ဒေတာသိပ္ပံပညာရှင်တွေ မေးနိုင်တဲ့ မေးခွန်းတွေ:

  • ဒီပြဿနာကို အရင်က လေ့လာဖူးလား? ဘာတွေ ရှာဖွေတွေ့ရှိခဲ့လဲ?
  • ရည်ရွယ်ချက်နဲ့ ရည်မှန်းချက်ကို ပါဝင်သူအားလုံး နားလည်ထားလား?
  • မရေရာမှုရှိလား? ဘယ်လို လျှော့ချမလဲ?
  • အကန့်အသတ်တွေ ဘာတွေလဲ?
  • နောက်ဆုံးရလဒ်ဟာ ဘယ်လိုပုံစံရှိနိုင်မလဲ?
  • အရင်းအမြစ် (အချိန်၊ လူတွေ၊ ကွန်ပျူတာ) ဘယ်လောက် ရရှိနိုင်လဲ?

နောက်တစ်ခုက ရည်ရွယ်ချက်တွေကို ပြည့်မီဖို့ လိုအပ်တဲ့ ဒေတာကို ရှာဖွေ၊ စုဆောင်းပြီး စူးစမ်းခြင်းဖြစ်ပါတယ်။ ဒီအဆင့်မှာ ဒေတာသိပ္ပံပညာရှင်တွေဟာ ဒေတာရဲ့ အရည်အသွေးနဲ့ အရေအတွက်ကို သုံးသပ်ဖို့ လိုအပ်ပါတယ်။ ဒေတာရရှိမှုအဆင့်မှာ ရရှိထားတဲ့ ဒေတာဟာ ရည်ရွယ်ချက်ကို ပြည့်မီစေဖို့ အထောက်အကူဖြစ်မလားဆိုတာကို အတည်ပြုဖို့ ဒေတာကို စူးစမ်းဖို့ လိုအပ်ပါတယ်။

ဒေတာအကြောင်း ဒေတာသိပ္ပံပညာရှင်တွေ မေးနိုင်တဲ့ မေးခွန်းတွေ:

  • အခုတစ်ခါမှာ ရရှိထားတဲ့ ဒေတာတွေ ဘာတွေလဲ?
  • ဒီဒေတာကို ဘယ်သူပိုင်လဲ?
  • ကိုယ်ရေးကိုယ်တာအချက်အလက်နဲ့ ပတ်သက်တဲ့ စိုးရိမ်မှုတွေ ရှိလား?
  • ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်လား?
  • ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေး လုံလောက်လား?
  • ဒေတာကနေ ထပ်မံသိရှိလာတဲ့ အချက်အလက်တွေကြောင့် ရည်ရွယ်ချက်တွေကို ပြောင်းလဲသတ်မှတ်ဖို့ လိုအပ်လား?

ဒေတာကိုလုပ်ဆောင်ခြင်း

အသက်တာစဉ်ရဲ့ ဒေတာကိုလုပ်ဆောင်ခြင်းအဆင့်ဟာ ဒေတာထဲမှာ ပုံစံတွေကို ရှာဖွေခြင်းနဲ့ မော်ဒယ်တည်ဆောက်ခြင်းကို အဓိကထားပါတယ်။ ဒီအဆင့်မှာ အသုံးပြုတဲ့ နည်းလမ်းတွေဟာ ဒေတာထဲမှာ ပုံစံတွေကို ရှာဖွေဖို့ စာရင်းဇယားနည်းလမ်းတွေကို လိုအပ်ပါတယ်။ ဒေတာအစုအဝေးကြီးတွေကို လူသားတစ်ဦးတည်းနဲ့ လုပ်ဆောင်ရင် အချိန်ကြာပြီး အလုပ်ရှုပ်စေမယ့်အတွက် ကွန်ပျူတာတွေကို အသုံးပြုရပါတယ်။ ဒီအဆင့်ဟာ ဒေတာသိပ္ပံနဲ့ စက်ရုပ်သင်ယူမှု (Machine Learning) တို့ရဲ့ ဆုံမှတ်ဖြစ်ပါတယ်။ ပထမသင်ခန်းစာမှာ သင်လေ့လာခဲ့သလို စက်ရုပ်သင်ယူမှုဟာ ဒေတာကို နားလည်ဖို့ မော်ဒယ်တည်ဆောက်ခြင်းဖြစ်ပါတယ်။ မော်ဒယ်တွေဟာ ဒေတာထဲမှာ အပြောင်းအလဲတွေကို ခန့်မှန်းဖို့ ကူညီတဲ့ အချက်အလက်တွေကြား ဆက်နွယ်မှုကို ကိုယ်စားပြုပါတယ်။

ဒီအဆင့်မှာ အသုံးပြုတဲ့ နည်းလမ်းတွေကို ML for Beginners သင်ခန်းစာမှာ လေ့လာနိုင်ပါတယ်။ အောက်ပါလင့်ခ်တွေကို နှိပ်ပြီး နည်းလမ်းတွေကို ပိုမိုလေ့လာပါ-

  • Classification: ဒေတာကို အမျိုးအစားအလိုက် စီစဉ်ခြင်း။
  • Clustering: ဒေတာကို ဆင်တူတဲ့ အုပ်စုတွေထဲမှာ စုပေါင်းခြင်း။
  • Regression: အပြောင်းအလဲတွေကြား ဆက်နွယ်မှုကို သတ်မှတ်ပြီး တန်ဖိုးတွေကို ခန့်မှန်းခြင်း။

ထိန်းသိမ်းခြင်း

အသက်တာစဉ်ရဲ့ ပုံစံမှာ Maintenance (ထိန်းသိမ်းခြင်း) ဟာ ဒေတာရယူခြင်းနဲ့ ဒေတာကိုလုပ်ဆောင်ခြင်းကြားမှာ ရှိနေပါတယ်။ Maintenance ဟာ ပရောဂျက်တစ်ခုရဲ့ လုပ်ငန်းစဉ်တစ်လျှောက်လုံးမှာ ဒေတာကို စီမံခန့်ခွဲခြင်း၊ သိမ်းဆည်းခြင်းနဲ့ လုံခြုံရေးကို အဆက်မပြတ်လုပ်ဆောင်ရတဲ့ လုပ်ငန်းစဉ်ဖြစ်ပါတယ်။

ဒေတာကို သိမ်းဆည်းခြင်း

ဒေတာကို ဘယ်လိုနဲ့ ဘယ်မှာ သိမ်းဆည်းမလဲဆိုတာက ဒေတာရဲ့ သိမ်းဆည်းမှုကုန်ကျစရိတ်နဲ့ ဒေတာကို အမြန်ဆုံးရယူနိုင်မှုကို သက်ရောက်စေပါတယ်။ ဒီလိုဆုံးဖြတ်ချက်တွေဟာ ဒေတာသိပ္ပံပညာရှင်တစ်ဦးတည်းက မလုပ်ဆောင်နိုင်ပေမယ့် ဒေတာကို ဘယ်လိုနဲ့ အလုပ်လုပ်မလဲဆိုတာကို သိမ်းဆည်းမှုနည်းလမ်းပေါ်မူတည်ပြီး ရွေးချယ်ရနိုင်ပါတယ်။

ဒေတာကို စီမံခန့်ခွဲခြင်း

ဒေတာနဲ့ အလုပ်လုပ်တဲ့အခါမှာ ဒေတာတစ်ချို့ကို သန့်စင်ဖို့ လိုအပ်တတ်ပါတယ်။ ဒေတာသန့်စင်ခြင်းနည်းလမ်းတွေကို data preparation သင်ခန်းစာမှာ လေ့လာနိုင်ပါတယ်။

ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းခြင်း

ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းဖို့ရည်ရွယ်ချက်က ဒေတာကို စီမံခန့်ခွဲသူတွေက ဘယ်အချက်အလက်တွေကို ရယူပြီး ဘယ်အခြေအနေမှာ အသုံးပြုမလဲဆိုတာကို ထိန်းချုပ်နိုင်စေဖို့ ဖြစ်ပါတယ်။ ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းဖို့အတွက် ဒေတာကို လိုအပ်သူတွေကိုသာ ခွင့်ပြုခြင်း၊ ဒေတာကို အသုံးပြုတဲ့ နေရာမှာ တရားဥပဒေတွေကို လိုက်နာခြင်း၊ အကျင့်စာရိတ္တကို ထိန်းသိမ်းခြင်းတို့ကို လိုအပ်ပါတယ်။

🚀 စိန်ခေါ်မှု

Data Science Lifecycle ရဲ့ အမျိုးအစားတွေ အများကြီးရှိပြီး အဆင့်နဲ့ အမည်တွေက မတူနိုင်ပေမယ့် ဒီသင်ခန်းစာမှာ ဖော်ပြထားတဲ့ လုပ်ငန်းစဉ်တွေကို ပါဝင်ထားပါတယ်။

Team Data Science Process lifecycle နဲ့ Cross-industry standard process for data mining ကို လေ့လာပြီး အတူတူနဲ့ ကွဲပြားချက် ၃ ခုကို ဖော်ပြပါ။

Team Data Science Process (TDSP) Cross-industry standard process for data mining (CRISP-DM)
Team Data Science Lifecycle Data Science Process Alliance Image
Microsoft မှပုံ Data Science Process Alliance မှပုံ

Post-lecture quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

Data Science Lifecycle ကို အသုံးချတဲ့အခါမှာ အခန်းကဏ္ဍနဲ့ တာဝန်တွေ အများကြီးပါဝင်ပြီး တစ်ချို့က အဆင့်တစ်ခုချင်းစီရဲ့ အပိုင်းအချို့ကို အဓိကထားလုပ်ဆောင်ရပါတယ်။ Team Data Science Process ဟာ ပရောဂျက်တစ်ခုမှာ တစ်ဦးတစ်ယောက်ရဲ့ အခန်းကဏ္ဍနဲ့ တာဝန်တွေကို ရှင်းပြတဲ့ အရင်းအမြစ်တွေကို ပေးထားပါတယ်။

အိမ်စာ

Assessing a Dataset


အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာရှိသော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပရော်ဖက်ရှင်နယ် ဘာသာပြန်မှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအမှားများ သို့မဟုတ် အနားလွဲမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။