|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
| notebook.ipynb | 5 months ago | |
README.md
ဒေတာသိပ္ပံ၏ အသက်တာစဉ်ကိုမိတ်ဆက်ခြင်း
![]() |
|---|
| ဒေတာသိပ္ပံ၏ အသက်တာစဉ်ကိုမိတ်ဆက်ခြင်း - Sketchnote by @nitya |
Pre-Lecture Quiz
ဒီအချိန်မှာ သင်ဟာ ဒေတာသိပ္ပံဟာ တစ်ခုတည်းသော လုပ်ငန်းစဉ်ဖြစ်တယ်ဆိုတာ သိရှိလာပြီးဖြစ်နိုင်ပါတယ်။ ဒီလုပ်ငန်းစဉ်ကို အောက်ပါ ၅ အဆင့်အလိုက် ခွဲခြားနိုင်ပါတယ်-
- ဒေတာရယူခြင်း
- ဒေတာကိုလုပ်ဆောင်ခြင်း
- ဒေတာကိုခွဲခြမ်းစိတ်ဖြာခြင်း
- ဆက်သွယ်ပေးခြင်း
- ထိန်းသိမ်းခြင်း
ဒီသင်ခန်းစာမှာ အသက်တာစဉ်ရဲ့ အရေးကြီးတဲ့ အပိုင်း ၃ ခုဖြစ်တဲ့ ဒေတာရယူခြင်း၊ ဒေတာကိုလုပ်ဆောင်ခြင်း၊ ထိန်းသိမ်းခြင်းတို့ကို အဓိကထားပြီး လေ့လာသင်ကြားမှာဖြစ်ပါတယ်။
Berkeley School of Information မှဓာတ်ပုံ
ဒေတာရယူခြင်း
အသက်တာစဉ်ရဲ့ ပထမအဆင့်ဟာ အရေးကြီးဆုံးဖြစ်ပြီး နောက်အဆင့်တွေဟာ ဒီအဆင့်ပေါ်မှာ မူတည်ပါတယ်။ ဒါဟာ အလုံးစုံရယူခြင်းနဲ့ ရည်ရွယ်ချက်နဲ့ ဖြေရှင်းရမယ့် ပြဿနာတွေကို သတ်မှတ်ခြင်းဆိုတဲ့ အဆင့် ၂ ခုကို ပေါင်းစပ်ထားတဲ့ အဆင့်တစ်ခုဖြစ်ပါတယ်။
ပရောဂျက်ရဲ့ ရည်ရွယ်ချက်တွေကို သတ်မှတ်ဖို့အတွက် ပြဿနာနဲ့ မေးခွန်းရဲ့ နက်ရှိုင်းတဲ့ အကြောင်းအရာကို လိုအပ်ပါတယ်။ ပထမဦးဆုံးမှာ ပြဿနာကို ဖြေရှင်းဖို့ လိုအပ်တဲ့သူတွေကို ရှာဖွေပြီး ရယူဖို့ လိုအပ်ပါတယ်။ ဒါတွေဟာ စီးပွားရေးလုပ်ငန်းရဲ့ အကျိုးဆောင်တွေ သို့မဟုတ် ပရောဂျက်ရဲ့ အားပေးသူတွေဖြစ်နိုင်ပြီး ဒီပရောဂျက်က ဘယ်သူတွေ၊ ဘာတွေ အကျိုးရှိမလဲ၊ ဘာကြောင့် လိုအပ်လဲဆိုတာကို သတ်မှတ်ဖို့ ကူညီနိုင်ပါတယ်။ ရည်ရွယ်ချက်တစ်ခုကို သတ်မှတ်တဲ့အခါမှာ တိကျပြီး တိုင်းတာနိုင်တဲ့ ရလဒ်ကို သတ်မှတ်ဖို့ လိုအပ်ပါတယ်။
ဒေတာသိပ္ပံပညာရှင်တွေ မေးနိုင်တဲ့ မေးခွန်းတွေ:
- ဒီပြဿနာကို အရင်က လေ့လာဖူးလား? ဘာတွေ ရှာဖွေတွေ့ရှိခဲ့လဲ?
- ရည်ရွယ်ချက်နဲ့ ရည်မှန်းချက်ကို ပါဝင်သူအားလုံး နားလည်ထားလား?
- မရေရာမှုရှိလား? ဘယ်လို လျှော့ချမလဲ?
- အကန့်အသတ်တွေ ဘာတွေလဲ?
- နောက်ဆုံးရလဒ်ဟာ ဘယ်လိုပုံစံရှိနိုင်မလဲ?
- အရင်းအမြစ် (အချိန်၊ လူတွေ၊ ကွန်ပျူတာ) ဘယ်လောက် ရရှိနိုင်လဲ?
နောက်တစ်ခုက ရည်ရွယ်ချက်တွေကို ပြည့်မီဖို့ လိုအပ်တဲ့ ဒေတာကို ရှာဖွေ၊ စုဆောင်းပြီး စူးစမ်းခြင်းဖြစ်ပါတယ်။ ဒီအဆင့်မှာ ဒေတာသိပ္ပံပညာရှင်တွေဟာ ဒေတာရဲ့ အရည်အသွေးနဲ့ အရေအတွက်ကို သုံးသပ်ဖို့ လိုအပ်ပါတယ်။ ဒေတာရရှိမှုအဆင့်မှာ ရရှိထားတဲ့ ဒေတာဟာ ရည်ရွယ်ချက်ကို ပြည့်မီစေဖို့ အထောက်အကူဖြစ်မလားဆိုတာကို အတည်ပြုဖို့ ဒေတာကို စူးစမ်းဖို့ လိုအပ်ပါတယ်။
ဒေတာအကြောင်း ဒေတာသိပ္ပံပညာရှင်တွေ မေးနိုင်တဲ့ မေးခွန်းတွေ:
- အခုတစ်ခါမှာ ရရှိထားတဲ့ ဒေတာတွေ ဘာတွေလဲ?
- ဒီဒေတာကို ဘယ်သူပိုင်လဲ?
- ကိုယ်ရေးကိုယ်တာအချက်အလက်နဲ့ ပတ်သက်တဲ့ စိုးရိမ်မှုတွေ ရှိလား?
- ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်လား?
- ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေး လုံလောက်လား?
- ဒေတာကနေ ထပ်မံသိရှိလာတဲ့ အချက်အလက်တွေကြောင့် ရည်ရွယ်ချက်တွေကို ပြောင်းလဲသတ်မှတ်ဖို့ လိုအပ်လား?
ဒေတာကိုလုပ်ဆောင်ခြင်း
အသက်တာစဉ်ရဲ့ ဒေတာကိုလုပ်ဆောင်ခြင်းအဆင့်ဟာ ဒေတာထဲမှာ ပုံစံတွေကို ရှာဖွေခြင်းနဲ့ မော်ဒယ်တည်ဆောက်ခြင်းကို အဓိကထားပါတယ်။ ဒီအဆင့်မှာ အသုံးပြုတဲ့ နည်းလမ်းတွေဟာ ဒေတာထဲမှာ ပုံစံတွေကို ရှာဖွေဖို့ စာရင်းဇယားနည်းလမ်းတွေကို လိုအပ်ပါတယ်။ ဒေတာအစုအဝေးကြီးတွေကို လူသားတစ်ဦးတည်းနဲ့ လုပ်ဆောင်ရင် အချိန်ကြာပြီး အလုပ်ရှုပ်စေမယ့်အတွက် ကွန်ပျူတာတွေကို အသုံးပြုရပါတယ်။ ဒီအဆင့်ဟာ ဒေတာသိပ္ပံနဲ့ စက်ရုပ်သင်ယူမှု (Machine Learning) တို့ရဲ့ ဆုံမှတ်ဖြစ်ပါတယ်။ ပထမသင်ခန်းစာမှာ သင်လေ့လာခဲ့သလို စက်ရုပ်သင်ယူမှုဟာ ဒေတာကို နားလည်ဖို့ မော်ဒယ်တည်ဆောက်ခြင်းဖြစ်ပါတယ်။ မော်ဒယ်တွေဟာ ဒေတာထဲမှာ အပြောင်းအလဲတွေကို ခန့်မှန်းဖို့ ကူညီတဲ့ အချက်အလက်တွေကြား ဆက်နွယ်မှုကို ကိုယ်စားပြုပါတယ်။
ဒီအဆင့်မှာ အသုံးပြုတဲ့ နည်းလမ်းတွေကို ML for Beginners သင်ခန်းစာမှာ လေ့လာနိုင်ပါတယ်။ အောက်ပါလင့်ခ်တွေကို နှိပ်ပြီး နည်းလမ်းတွေကို ပိုမိုလေ့လာပါ-
- Classification: ဒေတာကို အမျိုးအစားအလိုက် စီစဉ်ခြင်း။
- Clustering: ဒေတာကို ဆင်တူတဲ့ အုပ်စုတွေထဲမှာ စုပေါင်းခြင်း။
- Regression: အပြောင်းအလဲတွေကြား ဆက်နွယ်မှုကို သတ်မှတ်ပြီး တန်ဖိုးတွေကို ခန့်မှန်းခြင်း။
ထိန်းသိမ်းခြင်း
အသက်တာစဉ်ရဲ့ ပုံစံမှာ Maintenance (ထိန်းသိမ်းခြင်း) ဟာ ဒေတာရယူခြင်းနဲ့ ဒေတာကိုလုပ်ဆောင်ခြင်းကြားမှာ ရှိနေပါတယ်။ Maintenance ဟာ ပရောဂျက်တစ်ခုရဲ့ လုပ်ငန်းစဉ်တစ်လျှောက်လုံးမှာ ဒေတာကို စီမံခန့်ခွဲခြင်း၊ သိမ်းဆည်းခြင်းနဲ့ လုံခြုံရေးကို အဆက်မပြတ်လုပ်ဆောင်ရတဲ့ လုပ်ငန်းစဉ်ဖြစ်ပါတယ်။
ဒေတာကို သိမ်းဆည်းခြင်း
ဒေတာကို ဘယ်လိုနဲ့ ဘယ်မှာ သိမ်းဆည်းမလဲဆိုတာက ဒေတာရဲ့ သိမ်းဆည်းမှုကုန်ကျစရိတ်နဲ့ ဒေတာကို အမြန်ဆုံးရယူနိုင်မှုကို သက်ရောက်စေပါတယ်။ ဒီလိုဆုံးဖြတ်ချက်တွေဟာ ဒေတာသိပ္ပံပညာရှင်တစ်ဦးတည်းက မလုပ်ဆောင်နိုင်ပေမယ့် ဒေတာကို ဘယ်လိုနဲ့ အလုပ်လုပ်မလဲဆိုတာကို သိမ်းဆည်းမှုနည်းလမ်းပေါ်မူတည်ပြီး ရွေးချယ်ရနိုင်ပါတယ်။
ဒေတာကို စီမံခန့်ခွဲခြင်း
ဒေတာနဲ့ အလုပ်လုပ်တဲ့အခါမှာ ဒေတာတစ်ချို့ကို သန့်စင်ဖို့ လိုအပ်တတ်ပါတယ်။ ဒေတာသန့်စင်ခြင်းနည်းလမ်းတွေကို data preparation သင်ခန်းစာမှာ လေ့လာနိုင်ပါတယ်။
ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းခြင်း
ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းဖို့ရည်ရွယ်ချက်က ဒေတာကို စီမံခန့်ခွဲသူတွေက ဘယ်အချက်အလက်တွေကို ရယူပြီး ဘယ်အခြေအနေမှာ အသုံးပြုမလဲဆိုတာကို ထိန်းချုပ်နိုင်စေဖို့ ဖြစ်ပါတယ်။ ဒေတာကို လုံခြုံစွာ သိမ်းဆည်းဖို့အတွက် ဒေတာကို လိုအပ်သူတွေကိုသာ ခွင့်ပြုခြင်း၊ ဒေတာကို အသုံးပြုတဲ့ နေရာမှာ တရားဥပဒေတွေကို လိုက်နာခြင်း၊ အကျင့်စာရိတ္တကို ထိန်းသိမ်းခြင်းတို့ကို လိုအပ်ပါတယ်။
🚀 စိန်ခေါ်မှု
Data Science Lifecycle ရဲ့ အမျိုးအစားတွေ အများကြီးရှိပြီး အဆင့်နဲ့ အမည်တွေက မတူနိုင်ပေမယ့် ဒီသင်ခန်းစာမှာ ဖော်ပြထားတဲ့ လုပ်ငန်းစဉ်တွေကို ပါဝင်ထားပါတယ်။
Team Data Science Process lifecycle နဲ့ Cross-industry standard process for data mining ကို လေ့လာပြီး အတူတူနဲ့ ကွဲပြားချက် ၃ ခုကို ဖော်ပြပါ။
| Team Data Science Process (TDSP) | Cross-industry standard process for data mining (CRISP-DM) |
|---|---|
![]() |
![]() |
| Microsoft မှပုံ | Data Science Process Alliance မှပုံ |
Post-lecture quiz
ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း
Data Science Lifecycle ကို အသုံးချတဲ့အခါမှာ အခန်းကဏ္ဍနဲ့ တာဝန်တွေ အများကြီးပါဝင်ပြီး တစ်ချို့က အဆင့်တစ်ခုချင်းစီရဲ့ အပိုင်းအချို့ကို အဓိကထားလုပ်ဆောင်ရပါတယ်။ Team Data Science Process ဟာ ပရောဂျက်တစ်ခုမှာ တစ်ဦးတစ်ယောက်ရဲ့ အခန်းကဏ္ဍနဲ့ တာဝန်တွေကို ရှင်းပြတဲ့ အရင်းအမြစ်တွေကို ပေးထားပါတယ်။
- Team Data Science Process roles and tasks
- Execute data science tasks: exploration, modeling, and deployment
အိမ်စာ
အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာရှိသော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပရော်ဖက်ရှင်နယ် ဘာသာပြန်မှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအမှားများ သို့မဟုတ် အနားလွဲမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။



