History

leestott 8dcd54c138 🌐 Update translations via Co-op Translator		3 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	3 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

ဒေတာနှင့်အလုပ်လုပ်ခြင်း: ဒေတာပြင်ဆင်မှု


ဒေတာပြင်ဆင်မှု - Sketchnote by @nitya

Pre-Lecture Quiz

ဒေတာရင်းမြစ်ပေါ်မူတည်ပြီး၊ မူလဒေတာတွင် မညီညွတ်မှုများပါဝင်နိုင်ပြီး၊ ဒါက အနုဇာတနှင့် မော်ဒယ်ဖွဲ့စည်းမှုတွင် အခက်အခဲများဖြစ်စေပါသည်။ အခြားစကားဖြင့်၊ ဒီဒေတာကို "ညစ်ပတ်" ဟုခေါ်နိုင်ပြီး၊ သန့်ရှင်းရေးလုပ်ရန်လိုအပ်ပါသည်။ ဒီသင်ခန်းစာမှာ မရှိသော၊ မမှန်ကန်သော၊ သို့မဟုတ် မပြည့်စုံသော ဒေတာများကို ကိုင်တွယ်ရန် သန့်ရှင်းရေးနှင့် ပြောင်းလဲမှုနည်းလမ်းများကို အဓိကထားပါသည်။ ဒီသင်ခန်းစာတွင် Python နှင့် Pandas library ကို အသုံးပြုပြီး ဒီ directory ထဲရှိ notebook တွင် ပြသမည်ဖြစ်သည်။

ဒေတာသန့်ရှင်းရေး၏ အရေးပါမှု

အသုံးပြုရလွယ်ကူမှုနှင့် ပြန်လည်အသုံးချနိုင်မှု: ဒေတာကို မှန်ကန်စွာ စီစဉ်ပြီး ပုံမှန်အခြေအနေဖြင့် ပြင်ဆင်ထားပါက ရှာဖွေရန်၊ အသုံးပြုရန်နှင့် အခြားသူများနှင့် မျှဝေရန် ပိုမိုလွယ်ကူပါသည်။
ညီညွတ်မှု: ဒေတာသိပ္ပံသည် မကြာခဏ ဒေတာအစုများစွာနှင့် အလုပ်လုပ်ရန် လိုအပ်ပါသည်။ ဒေတာအစုများကို ပေါင်းစည်းရာတွင်၊ တစ်ခုချင်းစီကို ပုံမှန်စံချိန်စံညွှန်းများနှင့် ညီညွတ်စေရန် လိုအပ်ပါသည်။
မော်ဒယ်တိကျမှု: သန့်ရှင်းထားသော ဒေတာသည် မော်ဒယ်များ၏ တိကျမှုကို တိုးတက်စေပါသည်။

သန့်ရှင်းရေးရည်မှန်းချက်များနှင့် များသောအားဖြင့်အသုံးပြုသောနည်းလမ်းများ

ဒေတာအစုကို စူးစမ်းခြင်း: နောက်ထပ်သင်ခန်းစာ တွင် ဖော်ပြထားသည့် ဒေတာစူးစမ်းမှုသည် သန့်ရှင်းရေးလိုအပ်သော ဒေတာများကို ရှာဖွေစေပါသည်။ ဒေတာအစုတစ်ခု၏ တန်ဖိုးများကို မြင်ကွင်းဖြင့် ကြည့်ရှုခြင်းက အခြားတန်ဖိုးများအပေါ် မျှော်လင့်ချက်များကို ဖော်ထုတ်စေပါသည်။
ပုံစံပြင်ဆင်မှု: ဒေတာရင်းမြစ်ပေါ်မူတည်၍ ပုံစံမညီညွတ်မှုများရှိနိုင်ပါသည်။ ဒါက ရှာဖွေရန်နှင့် တန်ဖိုးကို ကိုယ်စားပြုရန် အခက်အခဲဖြစ်စေပါသည်။ ပုံမှန်ပြဿနာများတွင် whitespace, ရက်စွဲများနှင့် ဒေတာအမျိုးအစားများကို ဖြေရှင်းခြင်းပါဝင်သည်။
အကြိမ်ရောထပ်မှုများ: တူညီသော ဒေတာများသည် မမှန်ကန်သောရလဒ်များကို ဖြစ်စေပြီး၊ များသောအားဖြင့် ဖယ်ရှားရန်လိုအပ်ပါသည်။
မရှိသောဒေတာ: မရှိသောဒေတာသည် မမှန်ကန်မှုများနှင့် အားနည်းသော သို့မဟုတ် မျှတမှုမရှိသောရလဒ်များကို ဖြစ်စေပါသည်။

DataFrame အချက်အလက်များကို စူးစမ်းခြင်း

သင်ယူရည်မှန်းချက်: ဒီအပိုင်းအဆုံးတွင် pandas DataFrame တွင် သိမ်းဆည်းထားသော ဒေတာအကြောင်း အထွေထွေသိရှိမှုကို ရရှိနိုင်ရန် သင်ကျွမ်းကျင်ဖြစ်မည်။

pandas တွင် ဒေတာကို DataFrame အဖြစ် သိမ်းဆည်းထားပြီး၊ ဒေတာအစုတွင် 60,000 rows နှင့် 400 columns ရှိပါက ဘယ်လိုစတင်ကြည့်ရှုရမလဲ? pandas သည် DataFrame အကြောင်း အထွေထွေသတင်းအချက်အလက်များကို မြန်ဆန်စွာကြည့်ရှုရန် အဆင်ပြေသောကိရိယာများကို ပံ့ပိုးပေးပါသည်။

ဒီ functionality ကို စမ်းသပ်ရန် Python scikit-learn library ကို import ပြုလုပ်ပြီး Iris data set ကို အသုံးပြုပါမည်။

import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

DataFrame.info: info() method သည် DataFrame တွင်ပါဝင်သော အကြောင်းအရာများကို အကျဉ်းချုပ်ပုံစံဖြင့် ပြသရန် အသုံးပြုသည်။

iris_df.info()

RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB

ဒီမှာ Iris dataset တွင် 150 entries ရှိပြီး၊ 4 columns ပါဝင်ကြောင်း သိရှိရပါသည်။ Null entries မရှိဘဲ၊ 64-bit floating-point numbers အဖြစ် သိမ်းဆည်းထားသည်။

DataFrame.head(): head() method သည် DataFrame ၏ ပထမဆုံး rows များကို ကြည့်ရန် အသုံးပြုသည်။

iris_df.head()

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2

DataFrame.tail(): tail() method သည် DataFrame ၏ နောက်ဆုံး rows များကို ကြည့်ရန် အသုံးပြုသည်။

iris_df.tail()

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

Takeaway: DataFrame ၏ metadata သို့မဟုတ် ပထမနှင့် နောက်ဆုံး rows များကို ကြည့်ခြင်းဖြင့်၊ ဒေတာ၏ အရွယ်အစား၊ ပုံသဏ္ဌာန်နှင့် အကြောင်းအရာကို ချက်ချင်း သိနိုင်သည်။

မရှိသောဒေတာကို ကိုင်တွယ်ခြင်း

သင်ယူရည်မှန်းချက်: ဒီအပိုင်းအဆုံးတွင် DataFrame များမှ null values များကို အစားထိုးခြင်း သို့မဟုတ် ဖယ်ရှားခြင်းကို သင်သိရှိမည်။

အများအားဖြင့် သင်အသုံးပြုလိုသော ဒေတာများတွင် မရှိသောတန်ဖိုးများပါဝင်လေ့ရှိသည်။

Pandas သည် missing values များကို NaN (Not a Number) နှင့် Python None object တို့ဖြင့် ကိုင်တွယ်သည်။

Null values ရှာဖွေခြင်း: isnull() နှင့် notnull() methods သည် null data ကို ရှာဖွေရန် အသုံးပြုသည်။

import numpy as np

example1 = pd.Series([0, np.nan, '', None])
example1.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Null values ဖယ်ရှားခြင်း: dropna() သည် null values များကို ဖယ်ရှားရန် အသုံးပြုသည်။

example1 = example1.dropna()
example1

0    0
2     
dtype: object

Null values ဖြည့်ခြင်း: fillna() သည် null values များကို သင့်ရွေးချယ်မှုအတိုင်း ဖြည့်ရန် အသုံးပြုသည်။

example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Takeaway: Null values များကို ဖြည့်ခြင်း သို့မဟုတ် ဖယ်ရှားခြင်းသည် ဒေတာသန့်ရှင်းရေးတွင် အရေးကြီးသော အဆင့်ဖြစ်သည်။ အဓိကအချက်: သင့်ဒေတာအစုအဖွဲ့များတွင် ပျောက်ဆုံးနေသောတန်ဖိုးများကို ကိုင်တွယ်ရန် နည်းလမ်းများစွာရှိသည်။ သင့်အသုံးပြုမည့် အထူးနည်းလမ်း (ပျောက်ဆုံးနေသောတန်ဖိုးများကို ဖယ်ရှားခြင်း၊ အစားထိုးခြင်း၊ သို့မဟုတ် အစားထိုးနည်းလမ်း) သည် ဒေတာ၏ အထူးသတ်မှတ်ချက်များအပေါ် မူတည်ရမည်။ ဒေတာအစုအဖွဲ့များကို ပိုမိုကိုင်တွယ်ပြီး အတွေ့အကြုံရလာသည့်အခါ ပျောက်ဆုံးနေသောတန်ဖိုးများကို ဘယ်လိုကိုင်တွယ်ရမည်ဆိုတာ ပိုမိုနားလည်လာမည်။

အတူတူဖြစ်နေသော ဒေတာများကို ဖယ်ရှားခြင်း

သင်ယူရမည့်ရည်မှန်းချက်: ဤအပိုင်းအဆုံးတွင် သင်သည် DataFrames မှ အတူတူဖြစ်နေသောတန်ဖိုးများကို ဖော်ထုတ်ခြင်းနှင့် ဖယ်ရှားခြင်းတွင် ကျွမ်းကျင်လာရမည်။

ပျောက်ဆုံးနေသောဒေတာများအပြင်၊ အမှန်တကယ်ရှိသော ဒေတာအစုအဖွဲ့များတွင် အတူတူဖြစ်နေသော ဒေတာများကိုလည်း မကြာခဏတွေ့ရမည်။ ကံကောင်းစွာ၊ pandas သည် အတူတူဖြစ်နေသော အချက်အလက်များကို ရှာဖွေပြီး ဖယ်ရှားရန် လွယ်ကူသော နည်းလမ်းကို ပံ့ပိုးပေးသည်။

အတူတူဖြစ်နေမှုများကို ဖော်ထုတ်ခြင်း: duplicated: pandas တွင် duplicated method ကို အသုံးပြု၍ အတူတူဖြစ်နေသောတန်ဖိုးများကို လွယ်ကူစွာ ရှာဖွေနိုင်သည်။ ဤနည်းလမ်းသည် DataFrame တွင် ရှိသော အချက်အလက်တစ်ခုသည် ယခင်တစ်ခုနှင့် အတူတူဖြစ်နေသည်ဟုတ်မဟုတ်ကို ပြသသည့် Boolean mask ကို ပြန်ပေးသည်။ ဤကို လက်တွေ့လုပ်ဆောင်ရန် နောက်ထပ် DataFrame ကို ဖန်တီးကြည့်ပါ။

example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example4

	letters	numbers
0	A	1
1	B	2
2	A	1
3	B	3
4	B	3

example4.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

အတူတူဖြစ်နေမှုများကို ဖယ်ရှားခြင်း: drop_duplicates: duplicated values များကို False ဟု သတ်မှတ်ထားသော ဒေတာ၏ မိတ္တူကို ပြန်ပေးသည်:

example4.drop_duplicates()

	letters	numbers
0	A	1
1	B	2
3	B	3

duplicated နှင့် drop_duplicates နှစ်ခုစလုံးသည် default အနေဖြင့် column အားလုံးကို စဉ်းစားသော်လည်း သင့် DataFrame တွင် column အချို့ကိုသာ စစ်ဆေးရန် သတ်မှတ်နိုင်သည်:

example4.drop_duplicates(['letters'])

letters	numbers
0	A	1
1	B	2

အဓိကအချက်: အတူတူဖြစ်နေသော ဒေတာများကို ဖယ်ရှားခြင်းသည် ဒေတာသိပ္ပံစီမံကိန်းတိုင်းတွင် မရှိမဖြစ်လိုအပ်သော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ အတူတူဖြစ်နေသော ဒေတာများသည် သင့်စစ်တမ်းရလဒ်များကို ပြောင်းလဲစေနိုင်ပြီး မမှန်ကန်သောရလဒ်များကို ပေးနိုင်သည်။

🚀 စိန်ခေါ်မှု

ဆွေးနွေးခဲ့သည့် အကြောင်းအရာအားလုံးကို Jupyter Notebook အနေဖြင့် ပံ့ပိုးပေးထားသည်။ ထို့အပြင်၊ အပိုင်းတိုင်း၏ နောက်တွင် လေ့ကျင့်ခန်းများပါရှိပြီး၊ ၎င်းတို့ကို စမ်းကြည့်ပါ။

Post-Lecture Quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

သင့်ဒေတာကို စစ်ဆေးခြင်းနှင့် မော်ဒယ်ဖွံ့ဖြိုးတိုးတက်မှုအတွက် ပြင်ဆင်ခြင်းကို ရှာဖွေပြီး လုပ်ဆောင်ရန် နည်းလမ်းများစွာရှိသည်။ ဒေတာကို သန့်ရှင်းရေးလုပ်ခြင်းသည် "လက်တွေ့လုပ်ဆောင်မှု" အတွေ့အကြုံတစ်ခုဖြစ်သည်။ ဤသင်ခန်းစာတွင် မဖော်ပြထားသည့် နည်းလမ်းများကို စမ်းသပ်ရန် Kaggle မှ စိန်ခေါ်မှုများကို စမ်းကြည့်ပါ။

အိမ်စာ

Evaluating Data from a Form

ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူလဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာတည်သော ရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2