<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "3ade580a06b5f04d57cc83a768a8fb77",
  "translation_date": "2025-08-30T18:19:59+00:00",
  "source_file": "2-Working-With-Data/08-data-preparation/README.md",
  "language_code": "my"
}
-->
# ဒေတာနှင့်အလုပ်လုပ်ခြင်း: ဒေတာပြင်ဆင်မှု

|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/08-DataPreparation.png)|
|:---:|
|ဒေတာပြင်ဆင်မှု - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |

## [Pre-Lecture Quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/14)

ဒေတာရင်းမြစ်ပေါ်မူတည်ပြီး၊ မူလဒေတာတွင် မညီညွတ်မှုများပါဝင်နိုင်ပြီး၊ ဒါက အနုဇာတနှင့် မော်ဒယ်ဖွဲ့စည်းမှုတွင် အခက်အခဲများဖြစ်စေပါသည်။ အခြားစကားဖြင့်၊ ဒီဒေတာကို "ညစ်ပတ်" ဟုခေါ်နိုင်ပြီး၊ သန့်ရှင်းရေးလုပ်ရန်လိုအပ်ပါသည်။ ဒီသင်ခန်းစာမှာ မရှိသော၊ မမှန်ကန်သော၊ သို့မဟုတ် မပြည့်စုံသော ဒေတာများကို ကိုင်တွယ်ရန် သန့်ရှင်းရေးနှင့် ပြောင်းလဲမှုနည်းလမ်းများကို အဓိကထားပါသည်။ ဒီသင်ခန်းစာတွင် Python နှင့် Pandas library ကို အသုံးပြုပြီး [ဒီ directory ထဲရှိ notebook](notebook.ipynb) တွင် ပြသမည်ဖြစ်သည်။

## ဒေတာသန့်ရှင်းရေး၏ အရေးပါမှု

- **အသုံးပြုရလွယ်ကူမှုနှင့် ပြန်လည်အသုံးချနိုင်မှု**: ဒေတာကို မှန်ကန်စွာ စီစဉ်ပြီး ပုံမှန်အခြေအနေဖြင့် ပြင်ဆင်ထားပါက ရှာဖွေရန်၊ အသုံးပြုရန်နှင့် အခြားသူများနှင့် မျှဝေရန် ပိုမိုလွယ်ကူပါသည်။

- **ညီညွတ်မှု**: ဒေတာသိပ္ပံသည် မကြာခဏ ဒေတာအစုများစွာနှင့် အလုပ်လုပ်ရန် လိုအပ်ပါသည်။ ဒေတာအစုများကို ပေါင်းစည်းရာတွင်၊ တစ်ခုချင်းစီကို ပုံမှန်စံချိန်စံညွှန်းများနှင့် ညီညွတ်စေရန် လိုအပ်ပါသည်။ 

- **မော်ဒယ်တိကျမှု**: သန့်ရှင်းထားသော ဒေတာသည် မော်ဒယ်များ၏ တိကျမှုကို တိုးတက်စေပါသည်။

## သန့်ရှင်းရေးရည်မှန်းချက်များနှင့် များသောအားဖြင့်အသုံးပြုသောနည်းလမ်းများ

- **ဒေတာအစုကို စူးစမ်းခြင်း**: [နောက်ထပ်သင်ခန်းစာ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing) တွင် ဖော်ပြထားသည့် ဒေတာစူးစမ်းမှုသည် သန့်ရှင်းရေးလိုအပ်သော ဒေတာများကို ရှာဖွေစေပါသည်။ ဒေတာအစုတစ်ခု၏ တန်ဖိုးများကို မြင်ကွင်းဖြင့် ကြည့်ရှုခြင်းက အခြားတန်ဖိုးများအပေါ် မျှော်လင့်ချက်များကို ဖော်ထုတ်စေပါသည်။

- **ပုံစံပြင်ဆင်မှု**: ဒေတာရင်းမြစ်ပေါ်မူတည်၍ ပုံစံမညီညွတ်မှုများရှိနိုင်ပါသည်။ ဒါက ရှာဖွေရန်နှင့် တန်ဖိုးကို ကိုယ်စားပြုရန် အခက်အခဲဖြစ်စေပါသည်။ ပုံမှန်ပြဿနာများတွင် whitespace, ရက်စွဲများနှင့် ဒေတာအမျိုးအစားများကို ဖြေရှင်းခြင်းပါဝင်သည်။

- **အကြိမ်ရောထပ်မှုများ**: တူညီသော ဒေတာများသည် မမှန်ကန်သောရလဒ်များကို ဖြစ်စေပြီး၊ များသောအားဖြင့် ဖယ်ရှားရန်လိုအပ်ပါသည်။ 

- **မရှိသောဒေတာ**: မရှိသောဒေတာသည် မမှန်ကန်မှုများနှင့် အားနည်းသော သို့မဟုတ် မျှတမှုမရှိသောရလဒ်များကို ဖြစ်စေပါသည်။ 

## DataFrame အချက်အလက်များကို စူးစမ်းခြင်း
> **သင်ယူရည်မှန်းချက်**: ဒီအပိုင်းအဆုံးတွင် pandas DataFrame တွင် သိမ်းဆည်းထားသော ဒေတာအကြောင်း အထွေထွေသိရှိမှုကို ရရှိနိုင်ရန် သင်ကျွမ်းကျင်ဖြစ်မည်။

pandas တွင် ဒေတာကို DataFrame အဖြစ် သိမ်းဆည်းထားပြီး၊ ဒေတာအစုတွင် 60,000 rows နှင့် 400 columns ရှိပါက ဘယ်လိုစတင်ကြည့်ရှုရမလဲ? pandas သည် DataFrame အကြောင်း အထွေထွေသတင်းအချက်အလက်များကို မြန်ဆန်စွာကြည့်ရှုရန် အဆင်ပြေသောကိရိယာများကို ပံ့ပိုးပေးပါသည်။

ဒီ functionality ကို စမ်းသပ်ရန် Python scikit-learn library ကို import ပြုလုပ်ပြီး **Iris data set** ကို အသုံးပြုပါမည်။

```python
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
```
|                                        |sepal length (cm)|sepal width (cm)|petal length (cm)|petal width (cm)|
|----------------------------------------|-----------------|----------------|-----------------|----------------|
|0                                       |5.1              |3.5             |1.4              |0.2             |
|1                                       |4.9              |3.0             |1.4              |0.2             |
|2                                       |4.7              |3.2             |1.3              |0.2             |
|3                                       |4.6              |3.1             |1.5              |0.2             |
|4                                       |5.0              |3.6             |1.4              |0.2             |

- **DataFrame.info**: `info()` method သည် DataFrame တွင်ပါဝင်သော အကြောင်းအရာများကို အကျဉ်းချုပ်ပုံစံဖြင့် ပြသရန် အသုံးပြုသည်။
```python
iris_df.info()
```
```
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB
```
ဒီမှာ *Iris* dataset တွင် 150 entries ရှိပြီး၊ 4 columns ပါဝင်ကြောင်း သိရှိရပါသည်။ Null entries မရှိဘဲ၊ 64-bit floating-point numbers အဖြစ် သိမ်းဆည်းထားသည်။

- **DataFrame.head()**: `head()` method သည် DataFrame ၏ ပထမဆုံး rows များကို ကြည့်ရန် အသုံးပြုသည်။
```python
iris_df.head()
```
```
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2
```
- **DataFrame.tail()**: `tail()` method သည် DataFrame ၏ နောက်ဆုံး rows များကို ကြည့်ရန် အသုံးပြုသည်။
```python
iris_df.tail()
```
```
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8
```
> **Takeaway**: DataFrame ၏ metadata သို့မဟုတ် ပထမနှင့် နောက်ဆုံး rows များကို ကြည့်ခြင်းဖြင့်၊ ဒေတာ၏ အရွယ်အစား၊ ပုံသဏ္ဌာန်နှင့် အကြောင်းအရာကို ချက်ချင်း သိနိုင်သည်။

## မရှိသောဒေတာကို ကိုင်တွယ်ခြင်း
> **သင်ယူရည်မှန်းချက်**: ဒီအပိုင်းအဆုံးတွင် DataFrame များမှ null values များကို အစားထိုးခြင်း သို့မဟုတ် ဖယ်ရှားခြင်းကို သင်သိရှိမည်။

အများအားဖြင့် သင်အသုံးပြုလိုသော ဒေတာများတွင် မရှိသောတန်ဖိုးများပါဝင်လေ့ရှိသည်။ 

Pandas သည် missing values များကို `NaN` (Not a Number) နှင့် Python `None` object တို့ဖြင့် ကိုင်တွယ်သည်။

- **Null values ရှာဖွေခြင်း**: `isnull()` နှင့် `notnull()` methods သည် null data ကို ရှာဖွေရန် အသုံးပြုသည်။
```python
import numpy as np

example1 = pd.Series([0, np.nan, '', None])
example1.isnull()
```
```
0    False
1     True
2    False
3     True
dtype: bool
```

- **Null values ဖယ်ရှားခြင်း**: `dropna()` သည် null values များကို ဖယ်ရှားရန် အသုံးပြုသည်။
```python
example1 = example1.dropna()
example1
```
```
0    0
2     
dtype: object
```

- **Null values ဖြည့်ခြင်း**: `fillna()` သည် null values များကို သင့်ရွေးချယ်မှုအတိုင်း ဖြည့်ရန် အသုံးပြုသည်။
```python
example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3
```
```
a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64
```

> **Takeaway**: Null values များကို ဖြည့်ခြင်း သို့မဟုတ် ဖယ်ရှားခြင်းသည် ဒေတာသန့်ရှင်းရေးတွင် အရေးကြီးသော အဆင့်ဖြစ်သည်။
> **အဓိကအချက်:** သင့်ဒေတာအစုအဖွဲ့များတွင် ပျောက်ဆုံးနေသောတန်ဖိုးများကို ကိုင်တွယ်ရန် နည်းလမ်းများစွာရှိသည်။ သင့်အသုံးပြုမည့် အထူးနည်းလမ်း (ပျောက်ဆုံးနေသောတန်ဖိုးများကို ဖယ်ရှားခြင်း၊ အစားထိုးခြင်း၊ သို့မဟုတ် အစားထိုးနည်းလမ်း) သည် ဒေတာ၏ အထူးသတ်မှတ်ချက်များအပေါ် မူတည်ရမည်။ ဒေတာအစုအဖွဲ့များကို ပိုမိုကိုင်တွယ်ပြီး အတွေ့အကြုံရလာသည့်အခါ ပျောက်ဆုံးနေသောတန်ဖိုးများကို ဘယ်လိုကိုင်တွယ်ရမည်ဆိုတာ ပိုမိုနားလည်လာမည်။

## အတူတူဖြစ်နေသော ဒေတာများကို ဖယ်ရှားခြင်း

> **သင်ယူရမည့်ရည်မှန်းချက်:** ဤအပိုင်းအဆုံးတွင် သင်သည် DataFrames မှ အတူတူဖြစ်နေသောတန်ဖိုးများကို ဖော်ထုတ်ခြင်းနှင့် ဖယ်ရှားခြင်းတွင် ကျွမ်းကျင်လာရမည်။

ပျောက်ဆုံးနေသောဒေတာများအပြင်၊ အမှန်တကယ်ရှိသော ဒေတာအစုအဖွဲ့များတွင် အတူတူဖြစ်နေသော ဒေတာများကိုလည်း မကြာခဏတွေ့ရမည်။ ကံကောင်းစွာ၊ `pandas` သည် အတူတူဖြစ်နေသော အချက်အလက်များကို ရှာဖွေပြီး ဖယ်ရှားရန် လွယ်ကူသော နည်းလမ်းကို ပံ့ပိုးပေးသည်။

- **အတူတူဖြစ်နေမှုများကို ဖော်ထုတ်ခြင်း: `duplicated`**: pandas တွင် `duplicated` method ကို အသုံးပြု၍ အတူတူဖြစ်နေသောတန်ဖိုးများကို လွယ်ကူစွာ ရှာဖွေနိုင်သည်။ ဤနည်းလမ်းသည် `DataFrame` တွင် ရှိသော အချက်အလက်တစ်ခုသည် ယခင်တစ်ခုနှင့် အတူတူဖြစ်နေသည်ဟုတ်မဟုတ်ကို ပြသသည့် Boolean mask ကို ပြန်ပေးသည်။ ဤကို လက်တွေ့လုပ်ဆောင်ရန် နောက်ထပ် `DataFrame` ကို ဖန်တီးကြည့်ပါ။
```python
example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example4
```
|      |letters|numbers|
|------|-------|-------|
|0     |A      |1      |
|1     |B      |2      |
|2     |A      |1      |
|3     |B      |3      |
|4     |B      |3      |

```python
example4.duplicated()
```
```
0    False
1    False
2     True
3    False
4     True
dtype: bool
```
- **အတူတူဖြစ်နေမှုများကို ဖယ်ရှားခြင်း: `drop_duplicates`:** `duplicated` values များကို `False` ဟု သတ်မှတ်ထားသော ဒေတာ၏ မိတ္တူကို ပြန်ပေးသည်:
```python
example4.drop_duplicates()
```
```
	letters	numbers
0	A	1
1	B	2
3	B	3
```
`duplicated` နှင့် `drop_duplicates` နှစ်ခုစလုံးသည် default အနေဖြင့် column အားလုံးကို စဉ်းစားသော်လည်း သင့် `DataFrame` တွင် column အချို့ကိုသာ စစ်ဆေးရန် သတ်မှတ်နိုင်သည်:
```python
example4.drop_duplicates(['letters'])
```
```
letters	numbers
0	A	1
1	B	2
```

> **အဓိကအချက်:** အတူတူဖြစ်နေသော ဒေတာများကို ဖယ်ရှားခြင်းသည် ဒေတာသိပ္ပံစီမံကိန်းတိုင်းတွင် မရှိမဖြစ်လိုအပ်သော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ အတူတူဖြစ်နေသော ဒေတာများသည် သင့်စစ်တမ်းရလဒ်များကို ပြောင်းလဲစေနိုင်ပြီး မမှန်ကန်သောရလဒ်များကို ပေးနိုင်သည်။

## 🚀 စိန်ခေါ်မှု

ဆွေးနွေးခဲ့သည့် အကြောင်းအရာအားလုံးကို [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb) အနေဖြင့် ပံ့ပိုးပေးထားသည်။ ထို့အပြင်၊ အပိုင်းတိုင်း၏ နောက်တွင် လေ့ကျင့်ခန်းများပါရှိပြီး၊ ၎င်းတို့ကို စမ်းကြည့်ပါ။

## [Post-Lecture Quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/15)

## ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

သင့်ဒေတာကို စစ်ဆေးခြင်းနှင့် မော်ဒယ်ဖွံ့ဖြိုးတိုးတက်မှုအတွက် ပြင်ဆင်ခြင်းကို ရှာဖွေပြီး လုပ်ဆောင်ရန် နည်းလမ်းများစွာရှိသည်။ ဒေတာကို သန့်ရှင်းရေးလုပ်ခြင်းသည် "လက်တွေ့လုပ်ဆောင်မှု" အတွေ့အကြုံတစ်ခုဖြစ်သည်။ ဤသင်ခန်းစာတွင် မဖော်ပြထားသည့် နည်းလမ်းများကို စမ်းသပ်ရန် Kaggle မှ စိန်ခေါ်မှုများကို စမ်းကြည့်ပါ။

- [Data Cleaning Challenge: Parsing Dates](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)

- [Data Cleaning Challenge: Scale and Normalize Data](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)

## အိမ်စာ

[Evaluating Data from a Form](assignment.md)

---

**ဝက်ဘ်ဆိုက်မှတ်ချက်**:  
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူလဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာတည်သော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။