You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/4-Data-Science-Lifecycle/14-Introduction
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

ဒေတာသိပ္ပံ၏ အသက်တာစဉ်ကို မိတ်ဆက်ခြင်း

 Sketchnote by (@sketchthedocs)
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်ကို မိတ်ဆက်ခြင်း - Sketchnote by @nitya

Pre-Lecture Quiz

ဒီအချိန်မှာ သင်ဟာ ဒေတာသိပ္ပံဟာ တစ်ခုတည်းသော လုပ်ငန်းစဉ်ဖြစ်တယ်ဆိုတာ သိရှိလာပြီးဖြစ်နိုင်ပါတယ်။ ဒီလုပ်ငန်းစဉ်ကို အောက်ပါ ၅ အဆင့်အလိုက် ခွဲခြားနိုင်ပါတယ်-

  • ဒေတာရယူခြင်း
  • ဒေတာကို အလုပ်လုပ်ခြင်း
  • ဒေတာကို ခွဲခြမ်းစိတ်ဖြာခြင်း
  • အချက်အလက်ကို ဆက်သွယ်ပေးခြင်း
  • စီမံခန့်ခွဲခြင်း

ဒီသင်ခန်းစာမှာ အသက်တာစဉ်ရဲ့ အရေးကြီးတဲ့ အပိုင်း ၃ ခုကို အဓိကထားပြီး လေ့လာပါမယ်- ဒေတာရယူခြင်း၊ အလုပ်လုပ်ခြင်း၊ စီမံခန့်ခွဲခြင်း။

Diagram of the data science lifecycle

Berkeley School of Information မှဓာတ်ပုံ

ဒေတာရယူခြင်း

အသက်တာစဉ်ရဲ့ ပထမအဆင့်ဟာ အရေးကြီးဆုံးဖြစ်ပြီး နောက်အဆင့်တွေဟာ ဒီအဆင့်ပေါ်မှာ မူတည်ပါတယ်။ ဒါဟာ အလုံးစုံ ၂ အဆင့်ကို ပေါင်းစပ်ထားတဲ့ အဆင့်တစ်ခုဖြစ်ပါတယ်- ဒေတာရယူခြင်းနဲ့ လိုအပ်တဲ့ ရည်ရွယ်ချက်နဲ့ ပြဿနာတွေကို သတ်မှတ်ခြင်း။
ပရောဂျက်ရဲ့ ရည်မှန်းချက်တွေကို သတ်မှတ်ဖို့ ပြဿနာနဲ့ မေးခွန်းကို နက်နက်ရှိုင်းရှိုင်း နားလည်ဖို့ လိုအပ်ပါတယ်။ ပထမဦးဆုံး ကျွန်တော်တို့အနေနဲ့ ပြဿနာကို ဖြေရှင်းဖို့ လိုအပ်တဲ့သူတွေကို ရှာဖွေပြီး ရယူဖို့ လိုအပ်ပါတယ်။ ဒါတွေဟာ စီးပွားရေးလုပ်ငန်းရဲ့ အကျိုးဆောင်တွေ ဖြစ်နိုင်ပြီး ပရောဂျက်ရဲ့ အဓိကပံ့ပိုးသူတွေ ဖြစ်နိုင်ပါတယ်။ သူတို့က ဒီပရောဂျက်က ဘယ်သူတွေ၊ ဘာတွေ အကျိုးရှိမလဲဆိုတာကို သတ်မှတ်ပေးနိုင်ပါတယ်။ ရည်မှန်းချက်တစ်ခုဟာ တိကျပြီး တိုင်းတာနိုင်ဖို့ လိုအပ်ပါတယ်။

ဒေတာသိပ္ပံပညာရှင်တွေ မေးနိုင်တဲ့ မေးခွန်းတွေ:

  • ဒီပြဿနာကို အရင်က ရှင်းလင်းဖူးလား? ဘာတွေ ရှာဖွေတွေ့ရှိခဲ့လဲ?
  • ရည်ရွယ်ချက်နဲ့ ရည်မှန်းချက်ကို ပါဝင်သူအားလုံး နားလည်ထားလား?
  • မရေရာမှုရှိလား? ဘယ်လို လျှော့ချနိုင်မလဲ?
  • အကန့်အသတ်တွေ ဘာတွေလဲ?
  • နောက်ဆုံးရလဒ်ဟာ ဘယ်လိုပုံစံရှိနိုင်မလဲ?
  • အရင်းအမြစ် (အချိန်၊ လူတွေ၊ ကွန်ပျူတာ) ဘယ်လောက် ရရှိနိုင်လဲ?

နောက်တစ်ခုကတော့ ရည်မှန်းချက်တွေကို ရောက်ရှိဖို့ လိုအပ်တဲ့ ဒေတာကို ရှာဖွေ၊ စုဆောင်းပြီး စမ်းသပ်ဖို့ ဖြစ်ပါတယ်။ ဒီအဆင့်မှာ ဒေတာသိပ္ပံပညာရှင်တွေဟာ ဒေတာရဲ့ အရည်အသွေးနဲ့ အရေအတွက်ကို သုံးသပ်ဖို့ လိုအပ်ပါတယ်။ ဒေတာရရှိမှုဟာ ရည်မှန်းချက်ကို ရောက်ရှိဖို့ အထောက်အကူဖြစ်မယ်လို့ အတည်ပြုဖို့ ဒေတာကို စမ်းသပ်ဖို့ လိုအပ်ပါတယ်။

ဒေတာအပေါ် ဒေတာသိပ္ပံပညာရှင်တွေ မေးနိုင်တဲ့ မေးခွန်းတွေ:

  • ကျွန်တော့်မှာ ရရှိပြီးသား ဒေတာတွေ ဘာတွေလဲ?
  • ဒီဒေတာကို ဘယ်သူပိုင်ထားလဲ?
  • ကိုယ်ရေးကိုယ်တာအချက်အလက်ဆိုင်ရာ စိုးရိမ်မှုတွေ ရှိလား?
  • ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်လား?
  • ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေး လုံလောက်လား?
  • ဒေတာကနေ ထပ်မံသိရှိလာတဲ့ အချက်အလက်တွေကြောင့် ရည်မှန်းချက်တွေကို ပြောင်းလဲသင့်လား?

ဒေတာကို အလုပ်လုပ်ခြင်း

အသက်တာစဉ်ရဲ့ ဒီအဆင့်မှာ ဒေတာထဲက ပုံစံတွေကို ရှာဖွေခြင်းနဲ့ မော်ဒယ်တည်ဆောက်ခြင်းကို အဓိကထားပါတယ်။ ဒီအဆင့်မှာ အသုံးပြုတဲ့ နည်းလမ်းတွေဟာ ဒေတာထဲက ပုံစံတွေကို ရှာဖွေဖို့ သင်္ချာနည်းလမ်းတွေကို အသုံးပြုပါတယ်။ ဒေတာအများကြီးနဲ့ အလုပ်လုပ်တဲ့အခါ လူတွေ အလုပ်လုပ်ဖို့ အလွန်ခက်ခဲတဲ့အတွက် ကွန်ပျူတာတွေကို အသုံးပြုရပါတယ်။ ဒီအဆင့်မှာ ဒေတာသိပ္ပံနဲ့ စက်လေ့လာမှု (Machine Learning) တို့ ဆုံဆည်းပါတယ်။ စက်လေ့လာမှုဟာ ဒေတာကို နားလည်ဖို့ မော်ဒယ်တည်ဆောက်တဲ့ လုပ်ငန်းစဉ်ဖြစ်ပါတယ်။ မော်ဒယ်တွေဟာ ဒေတာထဲက အပြောင်းအလဲတွေကို ကိုယ်စားပြုပြီး ရလဒ်ကို ခန့်မှန်းဖို့ အထောက်အကူဖြစ်ပါတယ်။

ဒီအဆင့်မှာ အသုံးပြုတဲ့ နည်းလမ်းတွေကို ML for Beginners သင်ခန်းစာမှာ လေ့လာနိုင်ပါတယ်။ အောက်ပါလင့်ခ်တွေကို အသုံးပြုပြီး ပိုမိုသိရှိပါ:

  • Classification: ဒေတာကို အမျိုးအစားအလိုက် စီစဉ်ခြင်း။
  • Clustering: ဒေတာကို ဆင်တူတဲ့ အုပ်စုတွေထဲ စုပေါင်းခြင်း။
  • Regression: အပြောင်းအလဲတွေကြား ဆက်နွယ်မှုကို သတ်မှတ်ပြီး တန်ဖိုးတွေကို ခန့်မှန်းခြင်း။

စီမံခန့်ခွဲခြင်း

အသက်တာစဉ်ရဲ့ ပုံစံမှာ Maintenance (စီမံခန့်ခွဲခြင်း) ဟာ ဒေတာရယူခြင်းနဲ့ ဒေတာကို အလုပ်လုပ်ခြင်းကြားမှာ ရှိနေပါတယ်။ Maintenance ဟာ ပရောဂျက်တစ်ခုရဲ့ လုပ်ငန်းစဉ်တစ်လျှောက်လုံးမှာ ဒေတာကို စီမံခန့်ခွဲခြင်း၊ သိမ်းဆည်းခြင်းနဲ့ လုံခြုံရေးကို အဆက်မပြတ်လုပ်ဆောင်ရတဲ့ လုပ်ငန်းစဉ်ဖြစ်ပါတယ်။

ဒေတာကို သိမ်းဆည်းခြင်း

ဒေတာကို ဘယ်လိုနဲ့ ဘယ်မှာ သိမ်းဆည်းမလဲဆိုတာက ဒေတာရဲ့ သိမ်းဆည်းမှုကုန်ကျစရိတ်နဲ့ ဒေတာကို အမြန်ဆုံးရယူနိုင်မှုကို သက်ရောက်စေပါတယ်။ ဒီဆုံးဖြတ်ချက်တွေဟာ ဒေတာသိပ္ပံပညာရှင်တစ်ဦးတည်းက မလုပ်နိုင်ပေမယ့် ဒေတာကို ဘယ်လိုနဲ့ အလုပ်လုပ်မလဲဆိုတာမှာ သက်ရောက်မှုရှိနိုင်ပါတယ်။

အခေတ်သစ် ဒေတာသိမ်းဆည်းမှုစနစ်တွေမှာ သက်ရောက်မှုရှိနိုင်တဲ့ အချက်အလက်တွေ:

On premise vs off premise vs public or private cloud

On premise ဆိုတာက ကိုယ့်ပိုင် စက်ပစ္စည်းပေါ်မှာ ဒေတာကို သိမ်းဆည်းခြင်းဖြစ်ပြီး၊ off premise ဆိုတာက ကိုယ့်ပိုင်မဟုတ်တဲ့ ဒေတာစင်တာပေါ်မှာ အားထားခြင်းဖြစ်ပါတယ်။ Public cloud ဟာ ဒေတာကို သိမ်းဆည်းဖို့ လူကြိုက်များတဲ့ ရွေးချယ်မှုဖြစ်ပြီး ဒေတာကို ဘယ်မှာ သိမ်းဆည်းထားတယ်ဆိုတာ မသိရပါဘူး။ Public cloud ဟာ အခြေခံအဆောက်အအုံကို အားလုံးနဲ့ မျှဝေထားပြီး၊ Private cloud ဟာ လုံခြုံရေးလိုအပ်ချက်များကြောင့် ကိုယ်ပိုင် cloud services ကို အသုံးပြုပါတယ်။ Cloud-based ဒေတာနဲ့ ပတ်သက်တဲ့ သင်ခန်းစာတွေကို နောက်ပိုင်းသင်ခန်းစာတွေ မှာ လေ့လာနိုင်ပါတယ်။

Cold vs hot data

မော်ဒယ်တွေကို လေ့ကျင့်ဖို့ ဒေတာပိုမိုလိုအပ်နိုင်ပါတယ်။ မော်ဒယ်ကို ပြည့်စုံအောင်လုပ်ပြီးတဲ့အခါမှာလည်း အသုံးပြုဖို့ ဒေတာအသစ်တွေ ရောက်ရှိလာနိုင်ပါတယ်။ ဒေတာကို သိမ်းဆည်းခြင်းနဲ့ ရယူခြင်းမှာ ကုန်ကျစရိတ်တိုးလာနိုင်ပါတယ်။ အလွန်ရှားရှားသုံးတဲ့ ဒေတာ (cold data) ကို အမြဲအသုံးပြုတဲ့ ဒေတာ (hot data) နဲ့ ခွဲခြားထားခြင်းက စျေးသက်သာတဲ့ ရွေးချယ်မှုဖြစ်နိုင်ပါတယ်။ Cold data ကို ရယူဖို့ လိုအပ်တဲ့အခါမှာ Hot data ထက် နည်းနည်းနောက်ကျနိုင်ပါတယ်။

ဒေတာကို စီမံခန့်ခွဲခြင်း

ဒေတာနဲ့ အလုပ်လုပ်တဲ့အခါမှာ ဒေတာတစ်ချို့ကို သန့်စင်ဖို့ လိုအပ်နိုင်ပါတယ်။ ဒေတာပြင်ဆင်မှု သင်ခန်းစာမှာ လေ့လာထားတဲ့ နည်းလမ်းတွေကို အသုံးပြုနိုင်ပါတယ်။ ဒေတာအသစ်ရောက်လာတဲ့အခါမှာလည်း အရည်အသွေးကို တူညီအောင် ထိန်းသိမ်းဖို့ လိုအပ်ပါတယ်။ Automated tool တွေကို အသုံးပြုပြီး ဒေတာကို သန့်စင်ခြင်း၊ စုပေါင်းခြင်းနဲ့ ဖိသိမ်းခြင်းလုပ်ငန်းစဉ်တွေကို အလိုအလျောက်လုပ်ဆောင်နိုင်ပါတယ်။ Azure Data Factory ဟာ ဒီ tool တွေထဲက တစ်ခုဖြစ်ပါတယ်။

ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းခြင်း

ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းဖို့ရည်ရွယ်ချက်က ဒေတာကို ဘယ်လိုရယူပြီး ဘယ်လိုအသုံးပြုမလဲဆိုတာကို ထိန်းချုပ်နိုင်ဖို့ ဖြစ်ပါတယ်။ ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းဖို့ အောက်ပါအချက်တွေကို လိုက်နာရပါတယ်-

  • ဒေတာအားလုံးကို စကားဝှက်ဖြင့် ကာကွယ်ထားကြောင်း အတည်ပြုပါ။
  • ဖောက်သည်တွေကို သူတို့ရဲ့ ဒေတာကို ဘယ်လိုအသုံးပြုမလဲဆိုတာ အကြောင်းကြားပါ။
  • ပရောဂျက်ကနေ ထွက်သွားတဲ့သူတွေကို ဒေတာရယူခွင့်ကို ဖယ်ရှားပါ။
  • ပရောဂျက်အဖွဲ့ဝင်တစ်ချို့ကိုသာ ဒေတာကို ပြောင်းလဲခွင့်ပေးပါ။

🚀 စိန်ခေါ်မှု

Data Science Lifecycle ဟာ အမျိုးမျိုးသော ဗားရှင်းတွေ ရှိပြီး အဆင့်နဲ့ အမည်တွေက မတူနိုင်ပေမယ့် ဒီသင်ခန်းစာမှာ ဖော်ပြထားတဲ့ လုပ်ငန်းစဉ်တွေကို ပါဝင်ထားပါတယ်။

Team Data Science Process lifecycle နဲ့ Cross-industry standard process for data mining ကို လေ့လာပြီး တူညီချက် ၃ ခုနဲ့ ကွဲပြားချက် ၃ ခုကို ဖော်ပြပါ။

Team Data Science Process (TDSP) Cross-industry standard process for data mining (CRISP-DM)
Team Data Science Lifecycle Data Science Process Alliance Image
Microsoft မှပုံ Data Science Process Alliance မှပုံ

Post-lecture quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

Data Science Lifecycle ကို အသုံးချဖို့ အခန်းကဏ္ဍနဲ့ တာဝန်တွေ အမျိုးမျိုး ပါဝင်ပြီး အချို့က အဆင့်တစ်ခုချင်းစီရဲ့ အပိုင်းအချို့ကို အဓိကထားလုပ်ဆောင်နိုင်ပါတယ်။ Team Data Science Process ဟာ ပရောဂျက်တစ်ခုမှာ ပါဝင်နိုင်တဲ့ အခန်းကဏ္ဍနဲ့ တာဝန်တွေကို ရှင်းလင်းဖော်ပြထားတဲ့ အရင်းအမြစ်တွေကို ပေးထားပါတယ်။

အိမ်စာ

Assessing a Dataset


ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်ရန် လိုအပ်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူကောင်းမွန်သော ပရော်ဖက်ရှင်နယ်ဘာသာပြန်ဝန်ဆောင်မှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။