You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

78 lines
18 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a76ab694b1534fa57981311975660bfe",
"translation_date": "2025-09-06T12:36:35+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "my"
}
-->
## ဒေတာအမျိုးအစားများ
ကျွန်တော်တို့ ပြောခဲ့သလို ဒေတာဟာ နေရာတိုင်းမှာရှိပါတယ်။ ဒေတာကို မှန်ကန်တဲ့နည်းလမ်းနဲ့ ဖမ်းယူနိုင်ရုံသာလိုအပ်ပါတယ်! **ဖွဲ့စည်းထားသော** ဒေတာနဲ့ **မဖွဲ့စည်းထားသော** ဒေတာကို ခွဲခြားဖို့ အသုံးဝင်ပါတယ်။ ဖွဲ့စည်းထားသော ဒေတာဟာ အများအားဖြင့် စနစ်တကျ ဖွဲ့စည်းထားတဲ့ ပုံစံတစ်ခုခု (ဥပမာ - ဇယားတစ်ခု သို့မဟုတ် ဇယားများစွာ) အနေနဲ့ ဖော်ပြထားပြီး မဖွဲ့စည်းထားသော ဒေတာဟာ ဖိုင်များစုစည်းမှုသာဖြစ်ပါတယ်။ တစ်ခါတစ်ရံ **အနည်းငယ်ဖွဲ့စည်းထားသော** ဒေတာကိုလည်း ပြောနိုင်ပြီး၊ ဒါဟာ တစ်ခုခုသော ဖွဲ့စည်းမှုရှိပေမယ့် အလွန်ပုံစံကွဲပြားနိုင်ပါတယ်။
| ဖွဲ့စည်းထားသော | အနည်းငယ်ဖွဲ့စည်းထားသော | မဖွဲ့စည်းထားသော |
| ---------------- | ------------------------ | ----------------- |
| လူများ၏ ဖုန်းနံပါတ်စာရင်း | လင့်များပါရှိသော Wikipedia စာမျက်နှာများ | Encyclopedia Britannica စာသား |
| ၂၀ နှစ်အတွင်း အခန်းများ၏ အပူချိန် | JSON ပုံစံဖြင့် စာတမ်းများ (စာရေးသူများ၊ ထုတ်ဝေသည့်ရက်စွဲ၊ အကျဉ်းချုပ်) | ကုမ္ပဏီစာရွက်စာတမ်းများပါရှိသော ဖိုင်များ |
| အဆောက်အဦးထဲသို့ ဝင်ရောက်သော လူများ၏ အသက်နှင့် ကျားမ | အင်တာနက်စာမျက်နှာများ | စောင့်ကြည့်ကင်မရာမှ raw ဗီဒီယိုဖိုင် |
## ဒေတာကို ဘယ်မှာရနိုင်မလဲ
ဒေတာရရှိနိုင်တဲ့ အရင်းအမြစ်တွေ အများကြီးရှိပြီး၊ အားလုံးကို စာရင်းပြုစုဖော်ပြဖို့ မဖြစ်နိုင်ပါဘူး! သို့သော် ဒေတာရရှိနိုင်တဲ့ နေရာများအနက် အများဆုံးတွေ့ရတဲ့ နေရာများကို ပြောပါမယ်။
* **ဖွဲ့စည်းထားသော**
- **Internet of Things (IoT)**: အပူချိန်၊ ဖိအား စသည့် အာရုံခံကိရိယာများမှ ဒေတာများကို ရရှိနိုင်ပါတယ်။ ဥပမာအားဖြင့် အဆောက်အဦးတစ်ခု IoT အာရုံခံကိရိယာများဖြင့် တပ်ဆင်ထားပါက၊ အပူနှင့် အလင်းရောင်ကို အလိုအလျောက်ထိန်းချုပ်ပြီး ကုန်ကျစရိတ်ကို လျှော့ချနိုင်ပါတယ်။
- **စစ်တမ်းများ**: ဝယ်ယူပြီးနောက် သို့မဟုတ် ဝဘ်ဆိုဒ်ကို သွားရောက်ပြီးနောက် အသုံးပြုသူများကို ဖြေဆိုရန် တောင်းဆိုသော စစ်တမ်းများ။
- **အပြုအမူဆန်းစစ်ခြင်း**: အသုံးပြုသူတစ်ဦးဦးသည် ဝဘ်ဆိုဒ်ကို ဘယ်လောက်အထိ အသုံးပြုသွားသလဲ၊ ဘယ်အကြောင်းကြောင့် ဝဘ်ဆိုဒ်မှ ထွက်သွားသလဲ စသည့်အချက်များကို သိရှိနိုင်ပါတယ်။
* **မဖွဲ့စည်းထားသော**
- **စာသားများ**: စုစုပေါင်း **sentiment score** ကို သိရှိခြင်း၊ သို့မဟုတ် keyword များနှင့် အဓိပ္ပါယ်ဆိုင်ရာ အချက်များကို ထုတ်ယူခြင်း။
- **ပုံများ** သို့မဟုတ် **ဗီဒီယိုများ**: စောင့်ကြည့်ကင်မရာမှ ဗီဒီယိုကို လမ်းပေါ်ရှိ ယာဉ်အသွားအလာကို ခန့်မှန်းရန် အသုံးပြုနိုင်ပြီး၊ ယာဉ်ကြောပိတ်ဆို့မှုများအကြောင်း သတိပေးနိုင်ပါတယ်။
- ဝဘ်ဆာဗာ **Logs**: ဝဘ်ဆိုဒ်၏ ဘယ်စာမျက်နှာများကို အများဆုံးလည်ပတ်ကြသည်၊ ဘယ်လောက်ကြာကြာလည်ပတ်ကြသည် စသည့်အချက်များကို သိရှိနိုင်ပါတယ်။
* **အနည်းငယ်ဖွဲ့စည်းထားသော**
- **Social Network** graphs: အသုံးပြုသူများ၏ ပုဂ္ဂိုလ်ရေးအချက်အလက်များနှင့် သတင်းအချက်အလက်များကို ပြန့်ပွားစေမှုအကျိုးရှိမှုကို သိရှိရန် အရင်းအမြစ်ကောင်းများဖြစ်နိုင်ပါတယ်။
- ပါတီမှ ဓာတ်ပုံများစွာရှိပါက၊ ဓာတ်ပုံရိုက်ထားသော လူများ၏ **Group Dynamics** ကို graph တစ်ခုအဖြစ် ဖွဲ့စည်းပြီး အချက်အလက်များကို ထုတ်ယူနိုင်ပါတယ်။
ဒေတာရရှိနိုင်တဲ့ အရင်းအမြစ်များကို သိရှိထားခြင်းဖြင့်၊ ဒေတာသိပ္ပံနည်းလမ်းများကို အသုံးပြုပြီး အခြေအနေကို ပိုမိုနားလည်စေခြင်းနှင့် စီးပွားရေးလုပ်ငန်းများကို တိုးတက်စေခြင်းအတွက် အခြားသော နေရာအခြေအနေများကို စဉ်းစားနိုင်ပါတယ်။
## ဒေတာနဲ့ ဘာလုပ်နိုင်မလဲ
ဒေတာသိပ္ပံမှာ ဒေတာခရီးစဉ်၏ အောက်ပါအဆင့်များကို အဓိကထားလုပ်ဆောင်ပါတယ်:
## ဒစ်ဂျစ်တိုင်ဇေးရှင်းနှင့် ဒစ်ဂျစ်တယ် ပြောင်းလဲမှု
နောက်ဆုံးတစ်ဆယ်စုနှစ်အတွင်း စီးပွားရေးလုပ်ငန်းများစွာသည် စီးပွားရေးဆိုင်ရာ ဆုံးဖြတ်ချက်များကို ချမှတ်ရာတွင် ဒေတာ၏ အရေးပါမှုကို နားလည်လာကြသည်။ စီးပွားရေးလုပ်ငန်းများကို ဒေတာသိပ္ပံနည်းလမ်းများဖြင့် လုပ်ဆောင်ရန်အတွက် ပထမဦးဆုံး ဒေတာကို စုဆောင်းရမည်ဖြစ်ပြီး၊ စီးပွားရေးလုပ်ငန်းလုပ်ငန်းစဉ်များကို ဒစ်ဂျစ်တယ်ပုံစံသို့ ပြောင်းလဲရမည်ဖြစ်သည်။ ဒါကို **ဒစ်ဂျစ်တိုင်ဇေးရှင်း** ဟုခေါ်သည်။ ဒေတာသိပ္ပံနည်းလမ်းများကို ဒီဒေတာတွင် အသုံးပြုခြင်းဖြင့် ထုတ်လုပ်မှုတိုးတက်မှု (သို့မဟုတ် စီးပွားရေးလုပ်ငန်းပြောင်းလဲမှု) ကို ရရှိစေသည်။ ဒါကို **ဒစ်ဂျစ်တယ် ပြောင်းလဲမှု** ဟုခေါ်သည်။
ဥပမာတစ်ခုကို စဉ်းစားကြည့်ပါ။ ကျွန်တော်တို့မှာ (ဒီလို) ဒေတာသိပ္ပံသင်တန်းတစ်ခုရှိပြီး၊ ကျောင်းသားများကို အွန်လိုင်းမှ သင်ကြားပေးနေသည်။ ဒါကို တိုးတက်အောင်လုပ်ရန် ဒေတာသိပ္ပံကို အသုံးပြုချင်တယ်ဆိုပါစို့။
"ဘာတွေကို ဒစ်ဂျစ်တိုင်ဇေးရှင်းလုပ်နိုင်မလဲ?" ဆိုတဲ့ မေးခွန်းကို စတင်မေးနိုင်ပါတယ်။ အလွယ်ဆုံးနည်းလမ်းကတော့ ကျောင်းသားတစ်ဦးစီသည် module တစ်ခုစီကို ပြီးမြောက်ရန် ကြာမြင့်ချိန်ကို တိုင်းတာခြင်းနှင့် module တစ်ခုစီ၏ အဆုံးတွင် multiple-choice စမ်းသပ်မှုဖြင့် ရရှိသော အသိပညာကို တိုင်းတာခြင်းဖြစ်နိုင်ပါတယ်။ module တစ်ခုစီကို ပြီးမြောက်ရန် ကြာမြင့်ချိန်ကို ကျောင်းသားအားလုံးအတွက် ပျမ်းမျှတွက်ချက်ခြင်းဖြင့်၊ ကျောင်းသားများအတွက် အခက်အခဲများဖြစ်စေသော module များကို ရှာဖွေနိုင်ပြီး၊ module များကို လွယ်ကူအောင် ပြုပြင်နိုင်ပါတယ်။
သင်ဤနည်းလမ်းကို အကောင်းဆုံးမဟုတ်ဘူးလို့ အငြင်းပွားနိုင်ပါတယ်၊ အကြောင်းကတော့ module တွေဟာ အရှည်အတို မတူညီနိုင်ပါတယ်။ module ရဲ့ အရှည် (အက္ခရာအရေအတွက်) ကို အချိန်နဲ့ ခွဲခြားပြီး၊ အဲဒီတန်ဖိုးတွေကို နှိုင်းယှဉ်တာက ပိုတရားမျှတနိုင်ပါတယ်။
အများပြည်သူရွေးချယ်မှု စမ်းသပ်မှုရလဒ်များကို စတင်လေ့လာတဲ့အခါမှာ ကျောင်းသားတွေ နားလည်ဖို့ အခက်အခဲရှိတဲ့ အကြောင်းအရာတွေကို သတ်မှတ်နိုင်ဖို့ ကြိုးစားနိုင်ပါတယ်။ ဒီအချက်အလက်တွေကို အသုံးပြုပြီး အကြောင်းအရာတွေကို ပိုမိုကောင်းမွန်အောင် ပြင်ဆင်နိုင်ပါတယ်။ ဒါကိုလုပ်ဖို့အတွက် စမ်းသပ်မေးခွန်းတွေကို တစ်ခုချင်းစီ အကြောင်းအရာတစ်ခုတည်းနဲ့ သက်ဆိုင်အောင် ဒီဇိုင်းဆွဲဖို့ လိုအပ်ပါတယ်။
ပိုမိုရှုပ်ထွေးတဲ့အဆင့်ကို ရောက်ချင်ရင် ကျောင်းသားတွေ အသက်အရွယ်အုပ်စုနဲ့ module တစ်ခုစီကို ပြီးမြောက်ဖို့ ကြာချိန်ကို ရှုထောင့်ပေါ်မှာ ရေးဆွဲနိုင်ပါတယ်။ အသက်အရွယ်အုပ်စုတစ်ချို့အတွက် module ကို ပြီးမြောက်ဖို့ မသင့်တော်တဲ့အချိန်ကြာမြင့်မှုရှိတတ်တာ၊ ဒါမှမဟုတ် module ကို ပြီးမြောက်မချင်း ကျောင်းသားတွေ ထွက်ခွာသွားတတ်တာကို တွေ့နိုင်ပါတယ်။ ဒီအချက်အလက်တွေက module အတွက် အသက်အရွယ်အကြံပြုချက်တွေ ပေးနိုင်ဖို့၊ လူတွေ မျှော်လင့်ချက်မှားပြီး မကျေနပ်မှုကို လျော့ချနိုင်ဖို့ ကူညီပေးနိုင်ပါတယ်။
## 🚀 စိန်ခေါ်မှု
ဒီစိန်ခေါ်မှုမှာ Data Science နယ်ပယ်နဲ့ သက်ဆိုင်တဲ့ အကြောင်းအရာတွေကို စာသားတွေကို ကြည့်ပြီး ရှာဖွေကြည့်ပါမယ်။ Data Science အကြောင်း Wikipedia ဆောင်းပါးတစ်ခုကို ယူပြီး စာသားကို ဒေါင်းလုပ်လုပ်၊ ပြုပြင်ပြီးတော့ ဒီလို word cloud တစ်ခုကို တည်ဆောက်ပါမယ်:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.my.png)
[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ကို သွားပြီး code ကို ဖတ်ရှုပါ။ code ကို run လုပ်ပြီး data transformation တွေကို အချိန်နဲ့တပြေးညီ ဘယ်လိုလုပ်ဆောင်သွားတယ်ဆိုတာ ကြည့်နိုင်ပါတယ်။
> Jupyter Notebook မှာ code ကို ဘယ်လို run လုပ်ရမလဲ မသိရင် [ဒီဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/1)
## အလုပ်များ
* **Task 1**: အထက်ပါ code ကို ပြင်ဆင်ပြီး **Big Data** နဲ့ **Machine Learning** နယ်ပယ်တွေအတွက် သက်ဆိုင်တဲ့ အကြောင်းအရာတွေကို ရှာဖွေပါ။
* **Task 2**: [Data Science အခြေအနေတွေကို စဉ်းစားပါ](assignment.md)
## အကျိုးတူ
ဒီသင်ခန်းစာကို [Dmitry Soshnikov](http://soshnikov.com) မှ ♥️ နဲ့ရေးသားထားပါတယ်။
---
**ဝက်ဘ်ဆိုက်မှတ်ချက်**:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်ရန် လိုအပ်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူက ဘာသာပြန်မှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားမှုများ သို့မဟုတ် အဓိပ္ပါယ်မှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။