23 KiB

Raw Permalink Blame History

ဒေတာနှင့်အလုပ်လုပ်ခြင်း: ဒေတာပြင်ဆင်ခြင်း


ဒေတာပြင်ဆင်ခြင်း - Sketchnote by @nitya

Pre-Lecture Quiz

ဒေတာရင်းမြစ်ပေါ်မူတည်ပြီး၊ အစွန်းရောက်မညီညွတ်မှုများပါဝင်နိုင်ပြီး၊ ဒါဟာခွဲခြမ်းစိတ်ဖြာခြင်းနှင့်မော်ဒယ်တည်ဆောက်ခြင်းတွင်အခက်အခဲများဖြစ်စေပါသည်။ အခြားနည်းဖြင့်၊ ဒီဒေတာကို "ညစ်ပတ်" ဟုခေါ်နိုင်ပြီး၊ သန့်ရှင်းစေရန်လိုအပ်ပါသည်။ ဒီသင်ခန်းစာမှာ မရှိသော၊ မမှန်သော၊ မပြည့်စုံသောဒေတာများကို ကိုင်တွယ်နိုင်ရန် သန့်ရှင်းရေးနှင့် ပြောင်းလဲခြင်းနည်းလမ်းများကို အဓိကထားပါသည်။ Python နှင့် Pandas library ကိုအသုံးပြုပြီး၊ ဒီ directory ထဲမှာ notebook မှာ ပြသထားသောနည်းလမ်းများကိုလေ့လာပါမည်။

ဒေတာသန့်ရှင်းရေး၏အရေးပါမှု

အသုံးပြုရလွယ်ကူမှုနှင့် ပြန်လည်အသုံးပြုနိုင်မှု: ဒေတာကို သေချာစွာစီစဉ်ပြီး ပုံမှန်အခြေအနေဖြစ်စေပါက ရှာဖွေခြင်း၊ အသုံးပြုခြင်းနှင့် အခြားသူများနှင့်မျှဝေခြင်းမှာ ပိုမိုလွယ်ကူပါသည်။
ညီညွတ်မှု: ဒေတာသိပ္ပံမှာ မတူညီတဲ့ရင်းမြစ်များမှ ဒေတာများကိုပေါင်းစည်းရသောအခါ၊ တစ်ခုချင်းစီမှာပုံမှန်စံချိန်စံညွှန်းရှိစေရန်လိုအပ်ပါသည်။ ဒါဟာ ဒေတာများကိုပေါင်းစည်းပြီး dataset တစ်ခုအဖြစ်အသုံးပြုတဲ့အခါမှာ အသုံးဝင်မှုရှိစေပါသည်။
မော်ဒယ်တိကျမှု: သန့်ရှင်းထားသောဒေတာသည် မော်ဒယ်များ၏တိကျမှုကိုတိုးတက်စေပါသည်။

သန့်ရှင်းရေးရည်မှန်းချက်များနှင့်နည်းလမ်းများ

ဒေတာကိုလေ့လာခြင်း: နောက်ဆုံးသင်ခန်းစာ မှာဖော်ပြထားသော ဒေတာလေ့လာခြင်းသည် သန့်ရှင်းရေးလိုအပ်သောဒေတာကိုရှာဖွေစေပါသည်။ ဒေတာကိုမြင်သာစွာကြည့်ရှုခြင်းသည် အခြားအပိုင်းများ၏ပုံစံကိုခန့်မှန်းနိုင်စေပြီး၊ ဖြေရှင်းနိုင်သောပြဿနာများကိုအကြံပေးနိုင်ပါသည်။ ဒေတာလေ့လာခြင်းမှာ မေးခွန်းထုတ်ခြင်း၊ visualization နှင့် sampling ပါဝင်နိုင်ပါသည်။
ပုံစံချိန်ညှိခြင်း: ဒေတာရင်းမြစ်ပေါ်မူတည်ပြီး၊ ပုံစံမညီညွတ်မှုများရှိနိုင်ပါသည်။ ဒါဟာ visualization သို့မဟုတ် query ရလဒ်များတွင်မှန်ကန်စွာဖော်ပြမရသောပြဿနာများကိုဖြစ်စေပါသည်။ ပုံစံပြဿနာများကို whitespace, date, data type စသည်ဖြင့်ဖြေရှင်းရပါမည်။
ထပ်နေသောဒေတာများ: ထပ်နေသောဒေတာများသည် မမှန်ကန်သောရလဒ်များကိုဖြစ်စေပြီး၊ ပုံမှန်အားဖြင့်ဖယ်ရှားရပါသည်။ ဒါဟာ datasets များကိုပေါင်းစည်းတဲ့အခါမှာဖြစ်နိုင်ပါတယ်။
မရှိသောဒေတာများ: မရှိသောဒေတာများသည် မမှန်ကန်သောရလဒ်များနှင့် bias ဖြစ်စေနိုင်ပါသည်။ ဒါကို reload, computation, code သို့မဟုတ် ဖယ်ရှားခြင်းဖြင့်ဖြေရှင်းနိုင်ပါသည်။

DataFrame အချက်အလက်များကိုလေ့လာခြင်း

သင်ယူရည်မှန်းချက်: ဒီအပိုင်းအဆုံးမှာ pandas DataFrames ထဲမှာရှိတဲ့ဒေတာအကြောင်းကိုရှာဖွေတတ်စေပါမည်။

Pandas မှာဒေတာကို DataFrame အဖြစ်သိမ်းဆည်းထားပြီး၊ 60,000 rows နှင့် 400 columns ရှိတဲ့ DataFrame ကိုဘယ်လိုစတင်လေ့လာရမလဲ? pandas မှာ DataFrame အကြောင်းကိုမြန်ဆန်စွာကြည့်ရှုနိုင်တဲ့ tools တွေရှိပါတယ်။

ဒီ functionality ကိုလေ့လာဖို့ Python scikit-learn library ကို import လုပ်ပြီး Iris data set ကိုအသုံးပြုပါမည်။

import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

DataFrame.info: info() method ကိုအသုံးပြုပြီး DataFrame ထဲမှာရှိတဲ့ content အကြောင်းကို summary အနေနဲ့ကြည့်ရှုနိုင်ပါတယ်။

iris_df.info()

RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB

ဒီမှာ Iris dataset မှာ 150 entries ရှိပြီး၊ null entries မရှိပါဘူး။ ဒေတာအားလုံးကို 64-bit floating-point numbers အဖြစ်သိမ်းဆည်းထားပါတယ်။

DataFrame.head(): head() method ကိုအသုံးပြုပြီး DataFrame ရဲ့ပထမဆုံး rows တွေကိုကြည့်ရှုနိုင်ပါတယ်။

iris_df.head()

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2

DataFrame.tail(): tail() method ကိုအသုံးပြုပြီး DataFrame ရဲ့နောက်ဆုံး rows တွေကိုကြည့်ရှုနိုင်ပါတယ်။

iris_df.tail()

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

Takeaway: DataFrame ရဲ့ metadata, ပထမဆုံး rows, နောက်ဆုံး rows တွေကိုကြည့်ရှုခြင်းအားဖြင့် ဒေတာရဲ့အရွယ်အစား၊ ပုံစံ၊ အကြောင်းအရာကိုမြန်ဆန်စွာနားလည်နိုင်ပါတယ်။

မရှိသောဒေတာကိုကိုင်တွယ်ခြင်း

သင်ယူရည်မှန်းချက်: ဒီအပိုင်းအဆုံးမှာ DataFrames ထဲက null values တွေကိုအစားထိုးခြင်း သို့မဟုတ် ဖယ်ရှားခြင်းကိုသိရှိနိုင်ပါမည်။

Dataset များမှာ မရှိသောဒေတာများပါဝင်နိုင်ပါတယ်။ ဒေတာကိုဘယ်လိုကိုင်တွယ်မလဲဆိုတာက analysis နှင့်ရလဒ်များကိုအကျိုးသက်ရောက်စေပါသည်။

Pandas မှာ missing values တွေကို NaN (Not a Number) နှင့် Python None object ကိုအသုံးပြုပါတယ်။

Detecting null values: pandas မှာ isnull() နှင့် notnull() methods တွေကို null data ကိုရှာဖွေဖို့အသုံးပြုနိုင်ပါတယ်။

import numpy as np

example1 = pd.Series([0, np.nan, '', None])
example1.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Takeaway: isnull() နှင့် notnull() methods တွေက Boolean masks ကိုပြသပြီး၊ ဒေတာကိုကိုင်တွယ်တဲ့အခါမှာအထောက်အကူဖြစ်စေပါတယ်။

Dropping null values: Null values တွေကိုဖယ်ရှားဖို့ pandas မှာ dropna() method ကိုအသုံးပြုနိုင်ပါတယ်။

example1 = example1.dropna()
example1

0    0
2     
dtype: object

DataFrame မှာ rows သို့မဟုတ် columns တစ်ခုလုံးကိုဖယ်ရှားရပါမည်။

example2 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example2

	0	1	2
0	1.0	NaN	7
1	2.0	5.0	8
2	NaN	6.0	9

example2.dropna()

	0	1	2
1	2.0	5.0	8

Columns ကိုဖယ်ရှားဖို့ axis=1 ကိုအသုံးပြုပါ:

example2.dropna(axis='columns')

how နှင့် thresh parameters ကိုအသုံးပြုပြီး null values တွေကိုပိုမိုထိန်းချုပ်နိုင်ပါတယ်။

example2[3] = np.nan
example2

	0	1	2	3
0	1.0	NaN	7	NaN
1	2.0	5.0	8	NaN
2	NaN	6.0	9	NaN

example2.dropna(axis='rows', thresh=3)

	0	1	2	3
1	2.0	5.0	8	NaN

Filling null values: Null values တွေကို valid values တွေနဲ့အစားထိုးဖို့ fillna method ကိုအသုံးပြုနိုင်ပါတယ်။

example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Null values တွေကို single value (ဥပမာ 0) နဲ့အစားထိုးနိုင်ပါတယ်:

example3.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

Forward-fill method ကိုအသုံးပြုပြီး null values တွေကိုအစားထိုးနိုင်ပါတယ်:

example3.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Back-fill method ကိုအသုံးပြုပြီး null values တွေကိုအစားထိုးနိုင်ပါတယ်:

example3.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

DataFrame တွေမှာ axis ကိုသတ်မှတ်ပြီး null values တွေကိုအစားထိုးနိုင်ပါတယ်။

example2.fillna(method='ffill', axis=1)

	0	1	2	3
0	1.0	1.0	7.0	7.0
1	2.0	5.0	8.0	8.0
2	NaN	6.0	9.0	9.0

Forward-fill method မှာ null value အနီးမှာ valid value မရှိရင် null value ကိုမပြောင်းလဲပါ။

အရေးကြီးချက်: သင့်ဒေတာစနစ်များတွင် ပျောက်ဆုံးနေသောတန်ဖိုးများကို ကိုင်တွယ်ရန် နည်းလမ်းများစွာရှိသည်။ သင့်အသုံးပြုမည့် အထူးနည်းလမ်း (ပျောက်ဆုံးနေသောတန်ဖိုးများကို ဖယ်ရှားခြင်း၊ အစားထိုးခြင်း၊ သို့မဟုတ် အစားထိုးပုံစံကို ရွေးချယ်ခြင်း) သည် အဆိုပါဒေတာ၏ အထူးသက်ဆိုင်မှုများအပေါ် မူတည်ရမည်ဖြစ်သည်။ ဒေတာစနစ်များကို ပိုမိုကိုင်တွယ်ပြီး အလုပ်လုပ်သည့်အခါ ပျောက်ဆုံးနေသောတန်ဖိုးများကို ကိုင်တွယ်ရန် ပိုမိုကောင်းမွန်သော အမြင်တစ်ခုကို ဖွံ့ဖြိုးလာမည်။

အချက်အလက်များ ထပ်နေမှုကို ဖယ်ရှားခြင်း

သင်ယူရည်မှန်းချက်: ဒီအခန်းငယ်ကို ပြီးဆုံးတဲ့အချိန်မှာ DataFrame တွေထဲက ထပ်နေတဲ့တန်ဖိုးတွေကို ရှာဖွေပြီး ဖယ်ရှားနိုင်ဖို့ အဆင်ပြေဖြစ်ရမယ်။

အချက်အလက်များ ပျောက်နေမှုအပြင်၊ အမှန်တကယ်ရှိတဲ့ dataset တွေမှာ အချက်အလက်တွေ ထပ်နေမှုကိုလည်း မကြာခဏတွေ့ရတတ်ပါတယ်။ ကံကောင်းစွာ pandas က ထပ်နေတဲ့ entry တွေကို ရှာဖွေပြီး ဖယ်ရှားဖို့ လွယ်ကူတဲ့နည်းလမ်းကို ပေးထားပါတယ်။

ထပ်နေမှုကို ရှာဖွေခြင်း: duplicated: pandas ရဲ့ duplicated method ကို သုံးပြီး ထပ်နေတဲ့တန်ဖိုးတွေကို လွယ်လွယ်ကူကူ ရှာဖွေနိုင်ပါတယ်။ ဒီ method က Boolean mask ကို ပြန်ပေးပြီး DataFrame ထဲမှာ အရင်တစ်ခုနဲ့ ထပ်နေတဲ့ entry ဖြစ်မဖြစ်ကို ပြသပါတယ်။ ဒီကို လက်တွေ့ကြည့်ရှုနိုင်ဖို့ နောက်ထပ် DataFrame တစ်ခုကို ဖန်တီးကြည့်ရအောင်။

example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example4

	letters	numbers
0	A	1
1	B	2
2	A	1
3	B	3
4	B	3

example4.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

ထပ်နေမှုကို ဖယ်ရှားခြင်း: drop_duplicates: duplicated value တွေ False ဖြစ်တဲ့ data ကိုသာ ပြန်ပေးတဲ့ copy ကို ရရှိစေပါတယ်။

example4.drop_duplicates()

	letters	numbers
0	A	1
1	B	2
3	B	3

duplicated နဲ့ drop_duplicates တို့က default အနေဖြင့် column အားလုံးကို စဉ်းစားပေမယ့် သင့် DataFrame ထဲက column အချို့ကိုသာ စဉ်းစားဖို့ သတ်မှတ်နိုင်ပါတယ်။

example4.drop_duplicates(['letters'])

letters	numbers
0	A	1
1	B	2

အရေးကြီးသော အချက်: ထပ်နေတဲ့အချက်အလက်တွေကို ဖယ်ရှားခြင်းဟာ data-science project တစ်ခုစီမှာ မရှိမဖြစ် လိုအပ်တဲ့အပိုင်းဖြစ်ပါတယ်။ ထပ်နေတဲ့အချက်အလက်တွေက သင့် analysis ရလဒ်တွေကို ပြောင်းလဲစေပြီး မမှန်ကန်တဲ့ရလဒ်တွေကို ရရှိစေတတ်ပါတယ်။

🚀 စိန်ခေါ်မှု

ဒီအခန်းမှာ ပြောထားတဲ့ အကြောင်းအရာအားလုံးကို Jupyter Notebook အနေနဲ့ ပေးထားပါတယ်။ ထို့အပြင် အခန်းတစ်ခုစီရဲ့ နောက်မှာ လေ့ကျင့်ခန်းတွေ ပါဝင်ပြီး၊ အဲဒီကို စမ်းကြည့်ပါ။

Post-lecture quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

သင့်အချက်အလက်တွေကို analysis နဲ့ modeling အတွက် ပြင်ဆင်ဖို့ နည်းလမ်းအမျိုးမျိုး ရှာဖွေပြီး ချဉ်းကပ်နိုင်ပါတယ်။ အချက်အလက်တွေကို သန့်စင်ဖို့ လုပ်ငန်းစဉ်က "လက်တွေ့လုပ်ဆောင်ရမယ့်" အတွေ့အကြုံတစ်ခုဖြစ်ပါတယ်။ ဒီသင်ခန်းစာမှာ မဖော်ပြထားတဲ့ နည်းလမ်းတွေကို ရှာဖွေဖို့ Kaggle ရဲ့ စိန်ခေါ်မှုတွေကို စမ်းကြည့်ပါ။

လုပ်ငန်းတာဝန်

Evaluating Data from a Form

အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတရားရှိသော အရင်းအမြစ်အဖြစ် ရှုလေ့လာသင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူက ဘာသာပြန်မှု ဝန်ဆောင်မှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအလွတ်များ သို့မဟုတ် အနားယူမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

23 KiB Raw Permalink Blame History