You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
60 lines
15 KiB
60 lines
15 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "661dad02c3ac239644d34c1eb51e76f8",
|
|
"translation_date": "2025-09-06T21:48:02+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
|
|
"language_code": "my"
|
|
}
|
|
-->
|
|
# ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း
|
|
|
|
| ](../../sketchnotes/15-Analyzing.png)|
|
|
|:---:|
|
|
| ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
## [Pre-Lecture Quiz](https://ff-quizzes.netlify.app/en/ds/quiz/28)
|
|
|
|
ဒေတာအသက်တာစဉ်တွင် ခွဲခြမ်းစိတ်ဖြာခြင်းသည် ပေးထားသောမေးခွန်းများကိုဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သို့မဟုတ် တစ်ခုခုသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အရေးပါသည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အာရုံစိုက်နိုင်ပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်ပြီး ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်ပါသည်။
|
|
|
|
Python နှင့် Pandas library ကို အသုံးပြု၍ [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) မှ အတုဒေတာစုစည်းမှုကို အသုံးပြု၍ ဤနည်းလမ်းများကို လက်တွေ့အသုံးချပုံကို ပြသမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ [notebook](notebook.ipynb) ကို အသုံးပြုပြီး လိုက်လျောပါ။
|
|
|
|
## Exploratory Data Analysis
|
|
|
|
အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို ရယူခြင်းတို့ကို လုပ်ဆောင်ပါသည်။ ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်းကို ဘယ်လိုသိနိုင်မလဲ?
|
|
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးသည် ဒေတာရရှိသောအခါ အောက်ပါမေးခွန်းများကို မေးနိုင်ပါသည်-
|
|
- ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိပါသလား?
|
|
- ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးက လက်ခံနိုင်ဖွယ်ရှိပါသလား?
|
|
- ဒီဒေတာမှ ထပ်မံသောအချက်အလက်များကို ရှာဖွေတွေ့ရှိခဲ့ပါက ရည်မှန်းချက်များကို ပြောင်းလဲခြင်း သို့မဟုတ် ပြန်လည်သတ်မှတ်ခြင်းကို စဉ်းစားသင့်ပါသလား?
|
|
|
|
Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည့်အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သည့် စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်ပါသည်။ ဒီနည်းလမ်းများကို အာရုံစိုက်ပြီး လေ့လာကြမည်။
|
|
|
|
## ဒေတာပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများနှင့် Pandas
|
|
ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိမရှိကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာပရိုဖိုင်းလုပ်ခြင်းသည် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြု၍ ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို စုစည်းနိုင်သည်။ ဒေတာပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေရှိလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများက ဘယ်လောက်များရှိလဲဆိုတာ နားလည်စေပါသည်။
|
|
|
|
ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြု၍ [`describe()` function]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) ဖြင့် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများကို ပေးခဲ့ပါသည်။ ဒါက အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှုန်းနှင့် quantiles တို့ကို ရှင်းလင်းပေးပါသည်။ `describe()` function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြုခြင်းက သင်မှာ ဘယ်လောက်ရှိလဲ၊ ထပ်မံလိုအပ်မလားဆိုတာကို အကဲဖြတ်နိုင်စေပါသည်။
|
|
|
|
## Sampling နှင့် Querying
|
|
ဒေတာစုစည်းမှုကြီးတစ်ခုကို အားလုံးကို လေ့လာခြင်းသည် အချိန်အလွန်ကြာရှည်ပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေသင့်သော တာဝန်တစ်ခုဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်စေပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေပါသည်။ Sample ရရှိပါက သင် Probability နှင့် Statistics ကို အသုံးပြု၍ သင့်ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်ပါသည်။ ဒေတာကို ဘယ်လောက်များ Sample လုပ်သင့်သည်ဆိုတာအတွက် သတ်မှတ်ချက်မရှိသော်လည်း ဒေတာ Sample လုပ်လို့ရရှိသောအရေအတွက်များများရှိလေ၊ ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်ပါသည်။
|
|
|
|
Pandas မှ [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို argument အနေနဲ့ ပေးပြီး အသုံးပြုနိုင်ပါသည်။
|
|
|
|
ဒေတာကို General querying လုပ်ခြင်းက သင့်မှာရှိတဲ့ အထွေထွေမေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်စေပါသည်။ Sampling နှင့် ဆန့်ကျင်ဘက်အနေနဲ့ Queries တွေက သင့်မှာရှိတဲ့ ဒေတာအပိုင်းအစများကို အထူးအာရုံစိုက်ပြီး အထူးမေးခွန်းများကို ဖြေရှင်းနိုင်စေပါသည်။
|
|
Pandas library မှ [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) ကို အသုံးပြု၍ column တွေကို ရွေးချယ်ပြီး row တွေမှ ဒေတာအကြောင်း အလွယ်တကူဖြေရှင်းနိုင်သော အဖြေများကို ရယူနိုင်ပါသည်။
|
|
|
|
## Visualizations ဖြင့် လေ့လာခြင်း
|
|
ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး ခွဲခြမ်းစိတ်ဖြာပြီးမှ Visualization တွေကို ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ လေ့လာနေစဉ်မှာ Visualizations ရှိခြင်းက pattern တွေ၊ ဆက်နွယ်မှုတွေ၊ ဒေတာအတွင်းရှိပြဿနာတွေကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲနေသူများမဟုတ်သောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး capture အဆင့်မှာ မဖြေရှင်းနိုင်သော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေပါသည်။ Visualizations ကို လေ့လာရန် [Visualizations အပိုင်း](../../../../../../../../../3-Data-Visualization) ကို ရည်ညွှန်းပါ။
|
|
|
|
## မညီညာမှုများကို ရှာဖွေခြင်း
|
|
ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက မရှိသောတန်ဖိုးများ သို့မဟုတ် မညီညာသောတန်ဖိုးများကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ Pandas မှ [isna() သို့မဟုတ် isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) function တွေက မရှိသောတန်ဖိုးများကို စစ်ဆေးနိုင်စေပါသည်။ ဒေတာအတွင်းရှိ မရှိသောတန်ဖိုးများကို ရှာဖွေခြင်း၏ အရေးပါသောအပိုင်းတစ်ခုက ဒီတန်ဖိုးတွေ ဘာကြောင့် ဒီအခြေအနေမှာ ရောက်လာခဲ့တာလဲဆိုတာကို ရှာဖွေဖော်ထုတ်ခြင်းဖြစ်သည်။ ဒါက သင့်အနေဖြင့် [အရေးယူဆောင်ရွက်မှုများ]( /2-Working-With-Data/08-data-preparation/notebook.ipynb) ကို ဆောင်ရွက်ရန် ဆုံးဖြတ်နိုင်စေပါသည်။
|
|
|
|
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/29)
|
|
|
|
## လုပ်ငန်းတာဝန်
|
|
|
|
[အဖြေများကို ရှာဖွေခြင်း](assignment.md)
|
|
|
|
---
|
|
|
|
**ဝက်ဘ်ဆိုက်မှတ်ချက်**:
|
|
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ဆိုမှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသောအချက်အလက်များအတွက် ပရော်ဖက်ရှင်နယ် လူသားဘာသာပြန်ကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားမှုများ သို့မဟုတ် အဓိပ္ပါယ်မှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။ |