|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.ipynb | 3 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
ဒေတာနှင့်အလုပ်လုပ်ခြင်း: ဒေတာပြင်ဆင်ခြင်း
![]() |
---|
ဒေတာပြင်ဆင်ခြင်း - Sketchnote by @nitya |
Pre-Lecture Quiz
ဒေတာရင်းမြစ်ပေါ်မူတည်ပြီး၊ အစွန်းရောက်မညီညွတ်မှုများပါဝင်နိုင်ပြီး၊ ဒါဟာခွဲခြမ်းစိတ်ဖြာခြင်းနှင့်မော်ဒယ်တည်ဆောက်ခြင်းတွင်အခက်အခဲများဖြစ်စေပါသည်။ အခြားနည်းဖြင့်၊ ဒီဒေတာကို "ညစ်ပတ်" ဟုခေါ်နိုင်ပြီး၊ သန့်ရှင်းစေရန်လိုအပ်ပါသည်။ ဒီသင်ခန်းစာမှာ မရှိသော၊ မမှန်သော၊ မပြည့်စုံသောဒေတာများကို ကိုင်တွယ်နိုင်ရန် သန့်ရှင်းရေးနှင့် ပြောင်းလဲခြင်းနည်းလမ်းများကို အဓိကထားပါသည်။ Python နှင့် Pandas library ကိုအသုံးပြုပြီး၊ ဒီ directory ထဲမှာ notebook မှာ ပြသထားသောနည်းလမ်းများကိုလေ့လာပါမည်။
ဒေတာသန့်ရှင်းရေး၏အရေးပါမှု
-
အသုံးပြုရလွယ်ကူမှုနှင့် ပြန်လည်အသုံးပြုနိုင်မှု: ဒေတာကို သေချာစွာစီစဉ်ပြီး ပုံမှန်အခြေအနေဖြစ်စေပါက ရှာဖွေခြင်း၊ အသုံးပြုခြင်းနှင့် အခြားသူများနှင့်မျှဝေခြင်းမှာ ပိုမိုလွယ်ကူပါသည်။
-
ညီညွတ်မှု: ဒေတာသိပ္ပံမှာ မတူညီတဲ့ရင်းမြစ်များမှ ဒေတာများကိုပေါင်းစည်းရသောအခါ၊ တစ်ခုချင်းစီမှာပုံမှန်စံချိန်စံညွှန်းရှိစေရန်လိုအပ်ပါသည်။ ဒါဟာ ဒေတာများကိုပေါင်းစည်းပြီး dataset တစ်ခုအဖြစ်အသုံးပြုတဲ့အခါမှာ အသုံးဝင်မှုရှိစေပါသည်။
-
မော်ဒယ်တိကျမှု: သန့်ရှင်းထားသောဒေတာသည် မော်ဒယ်များ၏တိကျမှုကိုတိုးတက်စေပါသည်။
သန့်ရှင်းရေးရည်မှန်းချက်များနှင့်နည်းလမ်းများ
-
ဒေတာကိုလေ့လာခြင်း: နောက်ဆုံးသင်ခန်းစာ မှာဖော်ပြထားသော ဒေတာလေ့လာခြင်းသည် သန့်ရှင်းရေးလိုအပ်သောဒေတာကိုရှာဖွေစေပါသည်။ ဒေတာကိုမြင်သာစွာကြည့်ရှုခြင်းသည် အခြားအပိုင်းများ၏ပုံစံကိုခန့်မှန်းနိုင်စေပြီး၊ ဖြေရှင်းနိုင်သောပြဿနာများကိုအကြံပေးနိုင်ပါသည်။ ဒေတာလေ့လာခြင်းမှာ မေးခွန်းထုတ်ခြင်း၊ visualization နှင့် sampling ပါဝင်နိုင်ပါသည်။
-
ပုံစံချိန်ညှိခြင်း: ဒေတာရင်းမြစ်ပေါ်မူတည်ပြီး၊ ပုံစံမညီညွတ်မှုများရှိနိုင်ပါသည်။ ဒါဟာ visualization သို့မဟုတ် query ရလဒ်များတွင်မှန်ကန်စွာဖော်ပြမရသောပြဿနာများကိုဖြစ်စေပါသည်။ ပုံစံပြဿနာများကို whitespace, date, data type စသည်ဖြင့်ဖြေရှင်းရပါမည်။
-
ထပ်နေသောဒေတာများ: ထပ်နေသောဒေတာများသည် မမှန်ကန်သောရလဒ်များကိုဖြစ်စေပြီး၊ ပုံမှန်အားဖြင့်ဖယ်ရှားရပါသည်။ ဒါဟာ datasets များကိုပေါင်းစည်းတဲ့အခါမှာဖြစ်နိုင်ပါတယ်။
-
မရှိသောဒေတာများ: မရှိသောဒေတာများသည် မမှန်ကန်သောရလဒ်များနှင့် bias ဖြစ်စေနိုင်ပါသည်။ ဒါကို reload, computation, code သို့မဟုတ် ဖယ်ရှားခြင်းဖြင့်ဖြေရှင်းနိုင်ပါသည်။
DataFrame အချက်အလက်များကိုလေ့လာခြင်း
သင်ယူရည်မှန်းချက်: ဒီအပိုင်းအဆုံးမှာ pandas DataFrames ထဲမှာရှိတဲ့ဒေတာအကြောင်းကိုရှာဖွေတတ်စေပါမည်။
Pandas မှာဒေတာကို DataFrame အဖြစ်သိမ်းဆည်းထားပြီး၊ 60,000 rows နှင့် 400 columns ရှိတဲ့ DataFrame ကိုဘယ်လိုစတင်လေ့လာရမလဲ? pandas မှာ DataFrame အကြောင်းကိုမြန်ဆန်စွာကြည့်ရှုနိုင်တဲ့ tools တွေရှိပါတယ်။
ဒီ functionality ကိုလေ့လာဖို့ Python scikit-learn library ကို import လုပ်ပြီး Iris data set ကိုအသုံးပြုပါမည်။
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
sepal length (cm) | sepal width (cm) | petal length (cm) | petal width (cm) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
- DataFrame.info:
info()
method ကိုအသုံးပြုပြီး DataFrame ထဲမှာရှိတဲ့ content အကြောင်းကို summary အနေနဲ့ကြည့်ရှုနိုင်ပါတယ်။
iris_df.info()
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 sepal length (cm) 150 non-null float64
1 sepal width (cm) 150 non-null float64
2 petal length (cm) 150 non-null float64
3 petal width (cm) 150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB
ဒီမှာ Iris dataset မှာ 150 entries ရှိပြီး၊ null entries မရှိပါဘူး။ ဒေတာအားလုံးကို 64-bit floating-point numbers အဖြစ်သိမ်းဆည်းထားပါတယ်။
- DataFrame.head():
head()
method ကိုအသုံးပြုပြီး DataFrame ရဲ့ပထမဆုံး rows တွေကိုကြည့်ရှုနိုင်ပါတယ်။
iris_df.head()
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
- DataFrame.tail():
tail()
method ကိုအသုံးပြုပြီး DataFrame ရဲ့နောက်ဆုံး rows တွေကိုကြည့်ရှုနိုင်ပါတယ်။
iris_df.tail()
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
145 6.7 3.0 5.2 2.3
146 6.3 2.5 5.0 1.9
147 6.5 3.0 5.2 2.0
148 6.2 3.4 5.4 2.3
149 5.9 3.0 5.1 1.8
Takeaway: DataFrame ရဲ့ metadata, ပထမဆုံး rows, နောက်ဆုံး rows တွေကိုကြည့်ရှုခြင်းအားဖြင့် ဒေတာရဲ့အရွယ်အစား၊ ပုံစံ၊ အကြောင်းအရာကိုမြန်ဆန်စွာနားလည်နိုင်ပါတယ်။
မရှိသောဒေတာကိုကိုင်တွယ်ခြင်း
သင်ယူရည်မှန်းချက်: ဒီအပိုင်းအဆုံးမှာ DataFrames ထဲက null values တွေကိုအစားထိုးခြင်း သို့မဟုတ် ဖယ်ရှားခြင်းကိုသိရှိနိုင်ပါမည်။
Dataset များမှာ မရှိသောဒေတာများပါဝင်နိုင်ပါတယ်။ ဒေတာကိုဘယ်လိုကိုင်တွယ်မလဲဆိုတာက analysis နှင့်ရလဒ်များကိုအကျိုးသက်ရောက်စေပါသည်။
Pandas မှာ missing values တွေကို NaN
(Not a Number) နှင့် Python None
object ကိုအသုံးပြုပါတယ်။
- Detecting null values:
pandas
မှာisnull()
နှင့်notnull()
methods တွေကို null data ကိုရှာဖွေဖို့အသုံးပြုနိုင်ပါတယ်။
import numpy as np
example1 = pd.Series([0, np.nan, '', None])
example1.isnull()
0 False
1 True
2 False
3 True
dtype: bool
Takeaway:
isnull()
နှင့်notnull()
methods တွေက Boolean masks ကိုပြသပြီး၊ ဒေတာကိုကိုင်တွယ်တဲ့အခါမှာအထောက်အကူဖြစ်စေပါတယ်။
- Dropping null values: Null values တွေကိုဖယ်ရှားဖို့ pandas မှာ
dropna()
method ကိုအသုံးပြုနိုင်ပါတယ်။
example1 = example1.dropna()
example1
0 0
2
dtype: object
DataFrame မှာ rows သို့မဟုတ် columns တစ်ခုလုံးကိုဖယ်ရှားရပါမည်။
example2 = pd.DataFrame([[1, np.nan, 7],
[2, 5, 8],
[np.nan, 6, 9]])
example2
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | NaN | 7 |
1 | 2.0 | 5.0 | 8 |
2 | NaN | 6.0 | 9 |
example2.dropna()
0 1 2
1 2.0 5.0 8
Columns ကိုဖယ်ရှားဖို့ axis=1
ကိုအသုံးပြုပါ:
example2.dropna(axis='columns')
2
0 7
1 8
2 9
how
နှင့် thresh
parameters ကိုအသုံးပြုပြီး null values တွေကိုပိုမိုထိန်းချုပ်နိုင်ပါတယ်။
example2[3] = np.nan
example2
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | NaN | 7 | NaN |
1 | 2.0 | 5.0 | 8 | NaN |
2 | NaN | 6.0 | 9 | NaN |
example2.dropna(axis='rows', thresh=3)
0 1 2 3
1 2.0 5.0 8 NaN
- Filling null values: Null values တွေကို valid values တွေနဲ့အစားထိုးဖို့
fillna
method ကိုအသုံးပြုနိုင်ပါတယ်။
example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3
a 1.0
b NaN
c 2.0
d NaN
e 3.0
dtype: float64
Null values တွေကို single value (ဥပမာ 0
) နဲ့အစားထိုးနိုင်ပါတယ်:
example3.fillna(0)
a 1.0
b 0.0
c 2.0
d 0.0
e 3.0
dtype: float64
Forward-fill method ကိုအသုံးပြုပြီး null values တွေကိုအစားထိုးနိုင်ပါတယ်:
example3.fillna(method='ffill')
a 1.0
b 1.0
c 2.0
d 2.0
e 3.0
dtype: float64
Back-fill method ကိုအသုံးပြုပြီး null values တွေကိုအစားထိုးနိုင်ပါတယ်:
example3.fillna(method='bfill')
a 1.0
b 2.0
c 2.0
d 3.0
e 3.0
dtype: float64
DataFrame တွေမှာ axis ကိုသတ်မှတ်ပြီး null values တွေကိုအစားထိုးနိုင်ပါတယ်။
example2.fillna(method='ffill', axis=1)
0 1 2 3
0 1.0 1.0 7.0 7.0
1 2.0 5.0 8.0 8.0
2 NaN 6.0 9.0 9.0
Forward-fill method မှာ null value အနီးမှာ valid value မရှိရင် null value ကိုမပြောင်းလဲပါ။
အရေးကြီးချက်: သင့်ဒေတာစနစ်များတွင် ပျောက်ဆုံးနေသောတန်ဖိုးများကို ကိုင်တွယ်ရန် နည်းလမ်းများစွာရှိသည်။ သင့်အသုံးပြုမည့် အထူးနည်းလမ်း (ပျောက်ဆုံးနေသောတန်ဖိုးများကို ဖယ်ရှားခြင်း၊ အစားထိုးခြင်း၊ သို့မဟုတ် အစားထိုးပုံစံကို ရွေးချယ်ခြင်း) သည် အဆိုပါဒေတာ၏ အထူးသက်ဆိုင်မှုများအပေါ် မူတည်ရမည်ဖြစ်သည်။ ဒေတာစနစ်များကို ပိုမိုကိုင်တွယ်ပြီး အလုပ်လုပ်သည့်အခါ ပျောက်ဆုံးနေသောတန်ဖိုးများကို ကိုင်တွယ်ရန် ပိုမိုကောင်းမွန်သော အမြင်တစ်ခုကို ဖွံ့ဖြိုးလာမည်။
အချက်အလက်များ ထပ်နေမှုကို ဖယ်ရှားခြင်း
သင်ယူရည်မှန်းချက်: ဒီအခန်းငယ်ကို ပြီးဆုံးတဲ့အချိန်မှာ DataFrame တွေထဲက ထပ်နေတဲ့တန်ဖိုးတွေကို ရှာဖွေပြီး ဖယ်ရှားနိုင်ဖို့ အဆင်ပြေဖြစ်ရမယ်။
အချက်အလက်များ ပျောက်နေမှုအပြင်၊ အမှန်တကယ်ရှိတဲ့ dataset တွေမှာ အချက်အလက်တွေ ထပ်နေမှုကိုလည်း မကြာခဏတွေ့ရတတ်ပါတယ်။ ကံကောင်းစွာ pandas
က ထပ်နေတဲ့ entry တွေကို ရှာဖွေပြီး ဖယ်ရှားဖို့ လွယ်ကူတဲ့နည်းလမ်းကို ပေးထားပါတယ်။
- ထပ်နေမှုကို ရှာဖွေခြင်း:
duplicated
: pandas ရဲ့duplicated
method ကို သုံးပြီး ထပ်နေတဲ့တန်ဖိုးတွေကို လွယ်လွယ်ကူကူ ရှာဖွေနိုင်ပါတယ်။ ဒီ method က Boolean mask ကို ပြန်ပေးပြီး DataFrame ထဲမှာ အရင်တစ်ခုနဲ့ ထပ်နေတဲ့ entry ဖြစ်မဖြစ်ကို ပြသပါတယ်။ ဒီကို လက်တွေ့ကြည့်ရှုနိုင်ဖို့ နောက်ထပ် DataFrame တစ်ခုကို ဖန်တီးကြည့်ရအောင်။
example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
'numbers': [1, 2, 1, 3, 3]})
example4
letters | numbers | |
---|---|---|
0 | A | 1 |
1 | B | 2 |
2 | A | 1 |
3 | B | 3 |
4 | B | 3 |
example4.duplicated()
0 False
1 False
2 True
3 False
4 True
dtype: bool
- ထပ်နေမှုကို ဖယ်ရှားခြင်း:
drop_duplicates
:duplicated
value တွေFalse
ဖြစ်တဲ့ data ကိုသာ ပြန်ပေးတဲ့ copy ကို ရရှိစေပါတယ်။
example4.drop_duplicates()
letters numbers
0 A 1
1 B 2
3 B 3
duplicated
နဲ့ drop_duplicates
တို့က default အနေဖြင့် column အားလုံးကို စဉ်းစားပေမယ့် သင့် DataFrame ထဲက column အချို့ကိုသာ စဉ်းစားဖို့ သတ်မှတ်နိုင်ပါတယ်။
example4.drop_duplicates(['letters'])
letters numbers
0 A 1
1 B 2
အရေးကြီးသော အချက်: ထပ်နေတဲ့အချက်အလက်တွေကို ဖယ်ရှားခြင်းဟာ data-science project တစ်ခုစီမှာ မရှိမဖြစ် လိုအပ်တဲ့အပိုင်းဖြစ်ပါတယ်။ ထပ်နေတဲ့အချက်အလက်တွေက သင့် analysis ရလဒ်တွေကို ပြောင်းလဲစေပြီး မမှန်ကန်တဲ့ရလဒ်တွေကို ရရှိစေတတ်ပါတယ်။
🚀 စိန်ခေါ်မှု
ဒီအခန်းမှာ ပြောထားတဲ့ အကြောင်းအရာအားလုံးကို Jupyter Notebook အနေနဲ့ ပေးထားပါတယ်။ ထို့အပြင် အခန်းတစ်ခုစီရဲ့ နောက်မှာ လေ့ကျင့်ခန်းတွေ ပါဝင်ပြီး၊ အဲဒီကို စမ်းကြည့်ပါ။
Post-lecture quiz
ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း
သင့်အချက်အလက်တွေကို analysis နဲ့ modeling အတွက် ပြင်ဆင်ဖို့ နည်းလမ်းအမျိုးမျိုး ရှာဖွေပြီး ချဉ်းကပ်နိုင်ပါတယ်။ အချက်အလက်တွေကို သန့်စင်ဖို့ လုပ်ငန်းစဉ်က "လက်တွေ့လုပ်ဆောင်ရမယ့်" အတွေ့အကြုံတစ်ခုဖြစ်ပါတယ်။ ဒီသင်ခန်းစာမှာ မဖော်ပြထားတဲ့ နည်းလမ်းတွေကို ရှာဖွေဖို့ Kaggle ရဲ့ စိန်ခေါ်မှုတွေကို စမ်းကြည့်ပါ။
လုပ်ငန်းတာဝန်
အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတရားရှိသော အရင်းအမြစ်အဖြစ် ရှုလေ့လာသင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူက ဘာသာပြန်မှု ဝန်ဆောင်မှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအလွတ်များ သို့မဟုတ် အနားယူမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။