You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
61 lines
15 KiB
61 lines
15 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "d92f57eb110dc7f765c05cbf0f837c77",
|
|
"translation_date": "2025-08-30T18:24:36+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
|
|
"language_code": "my"
|
|
}
|
|
-->
|
|
# ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: အနက်ဖွင့်ခြင်း
|
|
|
|
| ](../../sketchnotes/15-Analyzing.png)|
|
|
|:---:|
|
|
| ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: အနက်ဖွင့်ခြင်း - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
## မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ
|
|
|
|
## [မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28)
|
|
|
|
ဒေတာအသက်တာစဉ်တွင် အနက်ဖွင့်ခြင်းသည် ပေးထားသောမေးခွန်းများကို ဒေတာက ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သက်သေပြခြင်းနှင့် သတ်မှတ်ထားသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုခြင်းဖြစ်သည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာ ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုခြင်းကိုလည်း အဓိကထားပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်သည်။ ဒါဟာ ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်သည်။
|
|
|
|
Python နှင့် Pandas library ကို အသုံးပြု၍ [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) မှ အတုဒေတာစုစည်းမှုကို အသုံးပြုမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ [notebook](notebook.ipynb) ကို အသုံးပြုပြီး လိုက်လျောပါ။
|
|
|
|
## Exploratory Data Analysis
|
|
|
|
အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို သတ်မှတ်ခြင်းဖြစ်သည်။ ဒါပေမယ့် ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်း ဘယ်လိုသိနိုင်မလဲ?
|
|
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးက ဒေတာရရှိတဲ့အခါမှာ အောက်ပါမေးခွန်းများကို မေးနိုင်သည်-
|
|
- ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်ပါသလား?
|
|
- ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးလက်ခံနိုင်ဖွယ်ရှိပါသလား?
|
|
- ဒီဒေတာမှ ထပ်မံသိရှိရသော အချက်အလက်များကြောင့် ရည်မှန်းချက်များကို ပြောင်းလဲသို့မဟုတ် ပြန်လည်သတ်မှတ်သင့်ပါသလား?
|
|
|
|
Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည်။ ဒါ့အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သော စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်သည်။ ဒီနည်းလမ်းများကို အဓိကထားပြီး လေ့လာကြမည်။
|
|
|
|
## ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများနှင့် Pandas
|
|
ဒီပြဿနာကို ဖြေရှင်းဖို့ ဒေတာလုံလောက်ပါသလားဆိုတာကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်းသည် ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို ဖော်ပြနိုင်ပြီး ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းနည်းလမ်းများကို အသုံးပြုသည်။ ဒေတာကို ပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေ ရှိနေလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းက ဘယ်လောက်အရေအတွက် ရှိနေလဲဆိုတာ နားလည်စေသည်။
|
|
|
|
ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြုပြီး [`describe()` function]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) ဖြင့် ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများကို ဖော်ပြခဲ့သည်။ ဒါဟာ အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှင့် quantiles ကို ဖော်ပြသည်။ `describe()` function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းများကို အသုံးပြုခြင်းက သင့်မှာ ဘယ်လောက်ရှိနေလဲ၊ ထပ်မံလိုအပ်ပါသလားဆိုတာကို အကဲဖြတ်နိုင်စေသည်။
|
|
|
|
## Sampling နှင့် Querying
|
|
ဒေတာစုစည်းမှုကြီးတစ်ခုကို အကုန်လုံး လေ့လာဖို့က အချိန်အလွန်များပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေဖို့လိုအပ်သော တာဝန်ဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်ပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေသည်။ Sample ရရှိပြီးနောက် Probability နှင့် Statistics ကို အသုံးပြု၍ ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်သည်။ Sample လုပ်ရန် ဒေတာအရေအတွက်ကို သတ်မှတ်ထားသော စည်းမျဉ်းမရှိသော်လည်း Sample လုပ်သော ဒေတာများ ပိုများလျှင် ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်သည်။
|
|
Pandas မှ [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို သတ်မှတ်ပြီး အသုံးပြုနိုင်သည်။
|
|
|
|
ဒေတာကို Query လုပ်ခြင်းက သင့်မှာရှိတဲ့ မေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်သည်။ Sampling နှင့် ဆန့်ကျင်ဘက်ဖြစ်ပြီး Querying က သင့်မှာရှိတဲ့ မေးခွန်းများအပေါ် အာရုံစိုက်ပြီး ဒေတာ၏ အထူးအစိတ်အပိုင်းများကို ထိန်းချုပ်နိုင်သည်။
|
|
Pandas library မှ [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) ကို အသုံးပြု၍ ကော်လံများကို ရွေးချယ်ပြီး ရိုးရှင်းသော အဖြေများကို ရယူနိုင်သည်။
|
|
|
|
## Visualizations ဖြင့် လေ့လာခြင်း
|
|
ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး အနက်ဖွင့်ပြီးမှ Visualizations ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ Visualizations ရှိခြင်းက ဒေတာအတွင်းရှိ Pattern, ဆက်နွယ်မှုများနှင့် ပြဿနာများကို သတ်မှတ်နိုင်စေသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲမှုတွင် ပါဝင်မထားသောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး Capture အဆင့်တွင် မဖြေရှင်းထားသော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေသည်။ Visualizations ကို လေ့လာရန် [Visualizations အပိုင်း](../../../../../../../../../3-Data-Visualization) ကို ရည်ညွှန်းပါ။
|
|
|
|
## မညီညွတ်မှုများကို ရှာဖွေခြင်း
|
|
ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက ပျောက်ဆုံးနေသော ဒေတာများ သို့မဟုတ် မညီညွတ်သော တန်ဖိုးများကို ရှာဖွေရာတွင် အထောက်အကူဖြစ်စေသည်။ Pandas မှ [isna() သို့မဟုတ် isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) function ကို အသုံးပြု၍ ပျောက်ဆုံးနေသော တန်ဖိုးများကို စစ်ဆေးနိုင်သည်။ ဒေတာအတွင်းရှိ ပျောက်ဆုံးနေသော တန်ဖိုးများကို ရှာဖွေရာတွင် အရေးကြီးသောအချက်တစ်ခုက အဲဒီတန်ဖိုးတွေ ဘာကြောင့် အဲဒီအတိုင်းဖြစ်သွားတာလဲဆိုတာကို ရှာဖွေဖို့ဖြစ်သည်။ ဒါက [အဲဒီတန်ဖိုးတွေကို ဖြေရှင်းဖို့ လုပ်ဆောင်ချက်များ]( /2-Working-With-Data/08-data-preparation/notebook.ipynb)ကို ဆုံးဖြတ်ရာတွင် အထောက်အကူဖြစ်စေသည်။
|
|
|
|
## [မိန့်ခွန်းမတိုင်မီ မေးခွန်းများ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27)
|
|
|
|
## လုပ်ငန်းတာဝန်
|
|
|
|
[အဖြေများကို ရှာဖွေခြင်း](assignment.md)
|
|
|
|
---
|
|
|
|
**ဝက်ဘ်ဆိုက်မှတ်ချက်**:
|
|
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။ |