Data-Science-For-Beginners/translations/my/4-Data-Science-Lifecycle/15-analyzing/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "661dad02c3ac239644d34c1eb51e76f8",
  "translation_date": "2025-09-06T21:48:02+00:00",
  "source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
  "language_code": "my"
}
-->
# ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း

|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)|
|:---:|
| ဒေတာသိပ္ပံ၏ အသက်တာစဉ်: ခွဲခြမ်းစိတ်ဖြာခြင်း - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |

## [Pre-Lecture Quiz](https://ff-quizzes.netlify.app/en/ds/quiz/28)

ဒေတာအသက်တာစဉ်တွင် ခွဲခြမ်းစိတ်ဖြာခြင်းသည် ပေးထားသောမေးခွန်းများကိုဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း သို့မဟုတ် တစ်ခုခုသောပြဿနာကို ဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အရေးပါသည်။ ဒီအဆင့်မှာ မော်ဒယ်တစ်ခုက မေးခွန်းများနှင့် ပြဿနာများကို မှန်ကန်စွာဖြေရှင်းနိုင်မည်ဖြစ်ကြောင်း အတည်ပြုရန်အာရုံစိုက်နိုင်ပါသည်။ ဒီသင်ခန်းစာမှာ Exploratory Data Analysis (EDA) အပေါ် အခြေခံထားပြီး ဒေတာအတွင်းရှိ အင်္ဂါရပ်များနှင့် ဆက်နွယ်မှုများကို သတ်မှတ်ရန်နည်းလမ်းများကို လေ့လာမည်ဖြစ်ပြီး ဒေတာကို မော်ဒယ်တစ်ခုအတွက် ပြင်ဆင်ရန် အသုံးပြုနိုင်ပါသည်။

Python နှင့် Pandas library ကို အသုံးပြု၍ [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) မှ အတုဒေတာစုစည်းမှုကို အသုံးပြု၍ ဤနည်းလမ်းများကို လက်တွေ့အသုံးချပုံကို ပြသမည်ဖြစ်သည်။ ဒီဒေတာစုစည်းမှုမှာ အီးမေးလ်များတွင် တွေ့ရသော စကားလုံးများ၏ အရေအတွက်ကို ပါဝင်ပြီး အီးမေးလ်များ၏ အရင်းအမြစ်များကို မသိနိုင်ပါ။ ဒီ directory ထဲမှာရှိတဲ့ [notebook](notebook.ipynb) ကို အသုံးပြုပြီး လိုက်လျောပါ။

## Exploratory Data Analysis

အသက်တာစဉ်၏ capture အဆင့်မှာ ဒေတာကို ရယူခြင်းနှင့် ပြဿနာများ၊ မေးခွန်းများကို ရယူခြင်းတို့ကို လုပ်ဆောင်ပါသည်။ ဒေတာက အဆုံးသတ်ရလဒ်ကို ပံ့ပိုးနိုင်မည်ဖြစ်ကြောင်းကို ဘယ်လိုသိနိုင်မလဲ?
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးသည် ဒေတာရရှိသောအခါ အောက်ပါမေးခွန်းများကို မေးနိုင်ပါသည်-
-   ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိပါသလား?
-   ဒီပြဿနာအတွက် ဒေတာရဲ့ အရည်အသွေးက လက်ခံနိုင်ဖွယ်ရှိပါသလား?
-   ဒီဒေတာမှ ထပ်မံသောအချက်အလက်များကို ရှာဖွေတွေ့ရှိခဲ့ပါက ရည်မှန်းချက်များကို ပြောင်းလဲခြင်း သို့မဟုတ် ပြန်လည်သတ်မှတ်ခြင်းကို စဉ်းစားသင့်ပါသလား?

Exploratory Data Analysis သည် ဒေတာကို နားလည်ရန် လုပ်ဆောင်မှုဖြစ်ပြီး အထက်ပါမေးခွန်းများကို ဖြေရှင်းနိုင်သည့်အပြင် ဒေတာစုစည်းမှုနှင့် အလုပ်လုပ်ရာတွင် ရှိနိုင်သည့် စိန်ခေါ်မှုများကိုလည်း သတ်မှတ်နိုင်ပါသည်။ ဒီနည်းလမ်းများကို အာရုံစိုက်ပြီး လေ့လာကြမည်။

## ဒေတာပရိုဖိုင်းလုပ်ခြင်း၊ ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများနှင့် Pandas
ဒီပြဿနာကို ဖြေရှင်းရန် လုံလောက်သောဒေတာရှိမရှိကို ဘယ်လိုအကဲဖြတ်မလဲ? ဒေတာပရိုဖိုင်းလုပ်ခြင်းသည် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြု၍ ဒေတာစုစည်းမှုအကြောင်း အထွေထွေသတင်းအချက်အလက်များကို စုစည်းနိုင်သည်။ ဒေတာပရိုဖိုင်းလုပ်ခြင်းက ကျွန်တော်တို့မှာ ဘာတွေရှိလဲဆိုတာ နားလည်စေပြီး ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများက ဘယ်လောက်များရှိလဲဆိုတာ နားလည်စေပါသည်။

ယခင်သင်ခန်းစာများအနည်းငယ်တွင် Pandas ကို အသုံးပြု၍ [`describe()` function]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) ဖြင့် ဖော်ပြချက်ဆိုင်ရာ သင်္ချာများကို ပေးခဲ့ပါသည်။ ဒါက အရေအတွက်၊ အများဆုံးနှင့် အနည်းဆုံးတန်ဖိုးများ၊ ပျမ်းမျှတန်ဖိုး၊ စံချိန်နှုန်းနှင့် quantiles တို့ကို ရှင်းလင်းပေးပါသည်။ `describe()` function ကဲ့သို့သော ဖော်ပြချက်ဆိုင်ရာ သင်္ချာနည်းလမ်းများကို အသုံးပြုခြင်းက သင်မှာ ဘယ်လောက်ရှိလဲ၊ ထပ်မံလိုအပ်မလားဆိုတာကို အကဲဖြတ်နိုင်စေပါသည်။

## Sampling နှင့် Querying
ဒေတာစုစည်းမှုကြီးတစ်ခုကို အားလုံးကို လေ့လာခြင်းသည် အချိန်အလွန်ကြာရှည်ပြီး ကွန်ပျူတာကို အလုပ်လုပ်စေသင့်သော တာဝန်တစ်ခုဖြစ်သည်။ သို့သော် Sampling သည် ဒေတာကို နားလည်ရန် အထောက်အကူဖြစ်စေပြီး ဒေတာအတွင်းရှိအရာများနှင့် ၎င်းတို့ကို ကိုယ်စားပြုသောအရာများကို ပိုမိုနားလည်စေပါသည်။ Sample ရရှိပါက သင် Probability နှင့် Statistics ကို အသုံးပြု၍ သင့်ဒေတာအကြောင်း အထွေထွေသုံးသပ်ချက်များကို ရယူနိုင်ပါသည်။ ဒေတာကို ဘယ်လောက်များ Sample လုပ်သင့်သည်ဆိုတာအတွက် သတ်မှတ်ချက်မရှိသော်လည်း ဒေတာ Sample လုပ်လို့ရရှိသောအရေအတွက်များများရှိလေ၊ ဒေတာအကြောင်း အတိအကျသုံးသပ်ချက်များကို ပိုမိုရနိုင်ပါသည်။

Pandas မှ [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) ကို အသုံးပြု၍ သင်လိုချင်သော random samples အရေအတွက်ကို argument အနေနဲ့ ပေးပြီး အသုံးပြုနိုင်ပါသည်။

ဒေတာကို General querying လုပ်ခြင်းက သင့်မှာရှိတဲ့ အထွေထွေမေးခွန်းများနှင့် သီအိုရီများကို ဖြေရှင်းနိုင်စေပါသည်။ Sampling နှင့် ဆန့်ကျင်ဘက်အနေနဲ့ Queries တွေက သင့်မှာရှိတဲ့ ဒေတာအပိုင်းအစများကို အထူးအာရုံစိုက်ပြီး အထူးမေးခွန်းများကို ဖြေရှင်းနိုင်စေပါသည်။
Pandas library မှ [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) ကို အသုံးပြု၍ column တွေကို ရွေးချယ်ပြီး row တွေမှ ဒေတာအကြောင်း အလွယ်တကူဖြေရှင်းနိုင်သော အဖြေများကို ရယူနိုင်ပါသည်။

## Visualizations ဖြင့် လေ့လာခြင်း
ဒေတာကို အပြည့်အဝ သန့်စင်ပြီး ခွဲခြမ်းစိတ်ဖြာပြီးမှ Visualization တွေကို ဖန်တီးဖို့ မလိုအပ်ပါဘူး။ အမှန်တကယ်တော့ လေ့လာနေစဉ်မှာ Visualizations ရှိခြင်းက pattern တွေ၊ ဆက်နွယ်မှုတွေ၊ ဒေတာအတွင်းရှိပြဿနာတွေကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ ထို့အပြင် Visualizations တွေက ဒေတာကို စီမံခန့်ခွဲနေသူများမဟုတ်သောသူများနှင့် ဆက်သွယ်ရန် နည်းလမ်းတစ်ခုဖြစ်ပြီး capture အဆင့်မှာ မဖြေရှင်းနိုင်သော မေးခွန်းများကို ပြန်လည်ရှင်းလင်းရန် အခွင့်အလမ်းဖြစ်စေပါသည်။ Visualizations ကို လေ့လာရန် [Visualizations အပိုင်း](../../../../../../../../../3-Data-Visualization) ကို ရည်ညွှန်းပါ။

## မညီညာမှုများကို ရှာဖွေခြင်း
ဒီသင်ခန်းစာအတွင်းရှိ အကြောင်းအရာအားလုံးက မရှိသောတန်ဖိုးများ သို့မဟုတ် မညီညာသောတန်ဖိုးများကို ရှာဖွေဖော်ထုတ်နိုင်စေပါသည်။ Pandas မှ [isna() သို့မဟုတ် isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) function တွေက မရှိသောတန်ဖိုးများကို စစ်ဆေးနိုင်စေပါသည်။ ဒေတာအတွင်းရှိ မရှိသောတန်ဖိုးများကို ရှာဖွေခြင်း၏ အရေးပါသောအပိုင်းတစ်ခုက ဒီတန်ဖိုးတွေ ဘာကြောင့် ဒီအခြေအနေမှာ ရောက်လာခဲ့တာလဲဆိုတာကို ရှာဖွေဖော်ထုတ်ခြင်းဖြစ်သည်။ ဒါက သင့်အနေဖြင့် [အရေးယူဆောင်ရွက်မှုများ]( /2-Working-With-Data/08-data-preparation/notebook.ipynb) ကို ဆောင်ရွက်ရန် ဆုံးဖြတ်နိုင်စေပါသည်။

## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/29)

## လုပ်ငန်းတာဝန်

[အဖြေများကို ရှာဖွေခြင်း](assignment.md)

---

**ဝက်ဘ်ဆိုက်မှတ်ချက်**:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ဆိုမှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသောအချက်အလက်များအတွက် ပရော်ဖက်ရှင်နယ် လူသားဘာသာပြန်ကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားမှုများ သို့မဟုတ် အဓိပ္ပါယ်မှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။