You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/3-Data-Visualization/R/10-visualization-distributions
leestott 8dcd54c138
🌐 Update translations via Co-op Translator
3 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

အချိုးအစားများကို မြင်သာအောင် ဖော်ပြခြင်း

 Sketchnote by (@sketchthedocs)
အချိုးအစားများကို မြင်သာအောင် ဖော်ပြခြင်း - Sketchnote by @nitya

ယခင်သင်ခန်းစာတွင် သင်သည် Minnesota ရှိ ငှက်များအကြောင်း ဒေတာတစ်ခုအကြောင်း စိတ်ဝင်စားဖွယ် အချက်အလက်များကို လေ့လာခဲ့ပါသည်။ သင်သည် အချို့သော အမှားပါဝင်သော ဒေတာများကို အချိုးအစားများကို မြင်သာအောင် ဖော်ပြခြင်းဖြင့် ရှာဖွေခဲ့ပြီး ငှက်အမျိုးအစားများ၏ အရှည်အများဆုံးအရေအတွက်အလိုက် ကွာခြားချက်များကို ကြည့်ရှုခဲ့ပါသည်။

Pre-lecture quiz

ငှက်များ၏ ဒေတာကို လေ့လာခြင်း

ဒေတာကို နက်နက်ရှိုင်းရှိုင်း လေ့လာရန် နောက်ထပ်နည်းလမ်းတစ်ခုမှာ ဒေတာ၏ အချိုးအစား (distribution) ကို ကြည့်ရှုခြင်းဖြစ်သည်။ ဥပမာအားဖြင့်, Minnesota ရှိ ငှက်များအတွက် အများဆုံး အတောင်အရှည် (maximum wingspan) သို့မဟုတ် အများဆုံး ကိုယ်အလေးချိန် (maximum body mass) ၏ အချိုးအစားကို သိလိုသည်ဟု ဆိုပါစို့။

ယခု ဒေတာအစုတွင် အချိုးအစားများအကြောင်း အချက်အလက်အချို့ကို ရှာဖွေကြည့်ရအောင်။ သင့် R console တွင် ggplot2 နှင့် database ကို သွင်းပါ။ ယခင်ခေါင်းစဉ်တွင် ပြုလုပ်ခဲ့သလို database မှ အမှားပါဝင်သော ဒေတာများကို ဖယ်ရှားပါ။

library(ggplot2)

birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM")

birds_filtered <- subset(birds, MaxWingspan < 500)
head(birds_filtered)
Name ScientificName Category Order Family Genus ConservationStatus MinLength MaxLength MinBodyMass MaxBodyMass MinWingspan MaxWingspan
0 Black-bellied whistling-duck Dendrocygna autumnalis Ducks/Geese/Waterfowl Anseriformes Anatidae Dendrocygna LC 47 56 652 1020 76 94
1 Fulvous whistling-duck Dendrocygna bicolor Ducks/Geese/Waterfowl Anseriformes Anatidae Dendrocygna LC 45 53 712 1050 85 93
2 Snow goose Anser caerulescens Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 64 79 2050 4050 135 165
3 Ross's goose Anser rossii Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 57.3 64 1066 1567 113 116
4 Greater white-fronted goose Anser albifrons Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 64 81 1930 3310 130 165

ယေဘူယျအားဖြင့်, ဒေတာ၏ အချိုးအစားကို မြန်ဆန်စွာ ကြည့်ရှုရန် scatter plot တစ်ခုကို ယခင်သင်ခန်းစာတွင် ပြုလုပ်ခဲ့သကဲ့သို့ ပြုလုပ်နိုင်ပါသည်။

ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
  geom_point() +
  ggtitle("Max Length per order") + coord_flip()

max length per order

ဤအရာသည် ငှက်အမျိုးအစား (Order) အလိုက် ကိုယ်အရှည်၏ ယေဘူယျ အချိုးအစားကို ပြသပေးပါသည်။ သို့သော် ဒေတာ၏ အမှန်တကယ် အချိုးအစားကို ဖော်ပြရန် အကောင်းဆုံးနည်းလမ်းမဟုတ်ပါ။ ဤအလုပ်ကို Histogram တစ်ခု ဖန်တီးခြင်းဖြင့် 通常 ပြုလုပ်ပါသည်။

Histogram များနှင့် အလုပ်လုပ်ခြင်း

ggplot2 သည် Histogram များကို အသုံးပြု၍ ဒေတာ၏ အချိုးအစားကို မြင်သာအောင် ဖော်ပြရန် အလွန်ကောင်းမွန်သော နည်းလမ်းများကို ပေးသည်။ ဤအမျိုးအစား၏ chart သည် bar chart တစ်ခုနှင့် ဆင်တူပြီး bar များ၏ မြင့်တက်နိမ့်ကျမှုမှတစ်ဆင့် အချိုးအစားကို မြင်နိုင်သည်။ Histogram တစ်ခု ဖန်တီးရန် သင်သည် ကိန်းဂဏန်းဒေတာလိုအပ်ပါသည်။ Histogram တစ်ခု ဖန်တီးရန်, chart ၏ အမျိုးအစားကို 'hist' ဟု သတ်မှတ်ပါ။ ဤ chart သည် dataset ၏ အများဆုံး ကိုယ်အလေးချိန် (MaxBodyMass) ၏ အချိုးအစားကို ပြသသည်။ ဒေတာကို သေးငယ်သော bins များအဖြစ် ခွဲခြားခြင်းဖြင့် ဒေတာတန်ဖိုးများ၏ အချိုးအစားကို ပြသနိုင်သည်။

ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + 
  geom_histogram(bins=10)+ylab('Frequency')

distribution over entire dataset

သင်မြင်နိုင်သည့်အတိုင်း, ဤ dataset တွင်ပါဝင်သော ငှက် 400+ များ၏ အများစုသည် Max Body Mass 2000 အောက်တွင် ရှိသည်။ bins parameter ကို 30 အထိ မြှင့်တင်ခြင်းဖြင့် ဒေတာအကြောင်းပိုမို နက်နက်ရှိုင်းရှိုင်း သိရှိနိုင်သည်။

ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')

distribution-30bins

ဤ chart သည် အချိုးအစားကို ပိုမိုအသေးစိတ်ပြသသည်။ ပိုမိုလက်ဝဲဘက်သို့ မဆွဲထားသော chart တစ်ခုကို ဖန်တီးရန် သတ်မှတ်ထားသော အကွာအဝေးအတွင်းရှိ ဒေတာကိုသာ ရွေးချယ်ပါ။

ကိုယ်အလေးချိန် 60 အောက်ရှိ ငှက်များကိုသာ ရွေးချယ်ပြီး 30 bins ပြပါ:

birds_filtered_1 <- subset(birds_filtered, MaxBodyMass > 1 & MaxBodyMass < 60)
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + 
  geom_histogram(bins=30)+ylab('Frequency')

filtered histogram

အခြား filter များနှင့် ဒေတာအချက်အလက်များကို စမ်းကြည့်ပါ။ ဒေတာ၏ အပြည့်အစုံသော အချိုးအစားကို မြင်ရန် ['MaxBodyMass'] filter ကို ဖယ်ရှားပြီး label ထည့်ထားသော အချိုးအစားများကို ပြပါ။

Histogram သည် အရောင်နှင့် label အဆင်ပြေမှုများကိုလည်း စမ်းသပ်နိုင်သည်။

2D histogram တစ်ခု ဖန်တီး၍ အချိုးအစားနှစ်ခုအကြား ဆက်စပ်မှုကို နှိုင်းယှဉ်ကြည့်ပါ။ MaxBodyMass နှင့် MaxLength ကို နှိုင်းယှဉ်ကြည့်ပါ။ ggplot2 သည် အလင်းရောင်ပိုမိုတောက်ပသောအရောင်များကို အသုံးပြု၍ ဆက်စပ်မှုကို ပြသရန် built-in နည်းလမ်းကို ပေးသည်။

ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
  geom_bin2d() +scale_fill_continuous(type = "viridis")

ဤအချိုးအစားနှစ်ခုအကြား မျှော်မှန်းထားသော အချိုးအစားတစ်ခုအတိုင်း ဆက်စပ်မှုရှိသည်ဟု မြင်ရပြီး တစ်နေရာတွင် အထူးအားကောင်းသော ဆက်စပ်မှုရှိသည်။

2d plot

Histogram များသည် ယေဘူယျအားဖြင့် ကိန်းဂဏန်းဒေတာအတွက် အလွန်ကောင်းမွန်သည်။ သို့သော် စာသားဒေတာအလိုက် အချိုးအစားကို ကြည့်ရန်လိုပါက ဘာလုပ်ရမည်နည်း?

စာသားဒေတာကို အသုံးပြု၍ ဒေတာအချိုးအစားများကို လေ့လာခြင်း

ဤ dataset တွင် ငှက်အမျိုးအစား (category)၊ genus၊ species၊ family နှင့် ထိန်းသိမ်းရေးအခြေအနေ (conservation status) အကြောင်း အချက်အလက်ကောင်းများလည်း ပါဝင်သည်။ ထိန်းသိမ်းရေးအခြေအနေအကြောင်းကို လေ့လာကြည့်ရအောင်။ ငှက်များကို ထိန်းသိမ်းရေးအခြေအနေအလိုက် အချိုးအစားဘယ်လိုရှိသလဲ?

Dataset တွင် conservation status ကို ဖော်ပြရန် အတိုကောက်အချို့ကို အသုံးပြုထားသည်။ ဤအတိုကောက်များသည် IUCN Red List Categories မှ ရယူထားခြင်းဖြစ်သည်။ ဤအဖွဲ့သည် အမျိုးအစားများ၏ အခြေအနေကို catalog ပြုလုပ်သည်။

  • CR: အလွန်အန္တရာယ်ရှိသော (Critically Endangered)
  • EN: အန္တရာယ်ရှိသော (Endangered)
  • EX: မျိုးသုဉ်းသွားသော (Extinct)
  • LC: အန္တရာယ်နည်းသော (Least Concern)
  • NT: အနီးကပ် အန္တရာယ်ရှိသော (Near Threatened)
  • VU: အန္တရာယ်ရှိနိုင်သော (Vulnerable)

ဤအတိုကောက်များသည် စာသားတန်ဖိုးများဖြစ်သောကြောင့် Histogram ဖန်တီးရန် transform ပြုလုပ်ရန် လိုအပ်ပါသည်။ FilteredBirds dataframe ကို အသုံးပြု၍ ထိန်းသိမ်းရေးအခြေအနေကို အနည်းဆုံး အတောင်အရှည် (Minimum Wingspan) နှင့်အတူ ပြပါ။ ဘာတွေမြင်ရလဲ?

birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EX'] <- 'x1' 
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'CR'] <- 'x2'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EN'] <- 'x3'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'NT'] <- 'x4'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'VU'] <- 'x5'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'LC'] <- 'x6'

ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
  geom_histogram(position = "identity", alpha = 0.4, bins = 20) +
  scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))

wingspan and conservation collation

အနည်းဆုံး အတောင်အရှည်နှင့် ထိန်းသိမ်းရေးအခြေအနေအကြား ဆက်စပ်မှုကောင်းမရှိဟု မြင်ရသည်။ ဤနည်းလမ်းကို အသုံးပြု၍ dataset ၏ အခြား element များကို စမ်းကြည့်ပါ။ အခြား filter များကိုလည်း စမ်းကြည့်ပါ။ ဆက်စပ်မှုတစ်ခုကို ရှာဖွေတွေ့ရှိနိုင်ပါသလား?

Density plots

ယခင်ကြည့်ရှုခဲ့သော histogram များသည် 'stepped' ဖြစ်ပြီး arc အတိုင်း မဖြောင့်မပြတ်ဖြစ်ကြောင်း သင်သတိပြုမိနိုင်ပါသည်။ ပိုမိုဖြောင့်မပြတ်သော density chart ကို ပြသရန် density plot ကို စမ်းကြည့်နိုင်ပါသည်။

ယခု density plot များနှင့် အလုပ်လုပ်ကြည့်ရအောင်!

ggplot(data = birds_filtered_1, aes(x = MinWingspan)) + 
  geom_density()

density plot

ဤ plot သည် အနည်းဆုံး အတောင်အရှည် (Minimum Wingspan) ဒေတာအတွက် ယခင် histogram ကို ပြန်လည်တူညီစေသည်။ သို့သော် ပိုမိုဖြောင့်မပြတ်ဖြစ်သည်။ ဒုတိယ chart တွင် မြင်ရသော jagged MaxBodyMass လိုင်းကို ပြန်လည်ဖန်တီး၍ ဤနည်းလမ်းဖြင့် အလွန်ကောင်းစွာ ဖြောင့်မပြတ်စေနိုင်သည်။

ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + 
  geom_density()

bodymass density

ပိုမိုဖြောင့်မပြတ်သော လိုင်းတစ်ခုလိုအပ်သော်လည်း အလွန်ဖြောင့်မပြတ်စေလိုမည်ဆိုပါက adjust parameter ကို ပြင်ဆင်ပါ:

ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + 
  geom_density(adjust = 1/5)

less smooth bodymass

ဤအမျိုးအစား plot အတွက် ရနိုင်သော parameter များအကြောင်း ဖတ်ရှုပြီး စမ်းကြည့်ပါ!

ဤအမျိုးအစား chart သည် အလွန်ရှင်းလင်းသော visualizations များကို ပေးသည်။ ဥပမာအားဖြင့်, ငှက်အမျိုးအစား (Order) အလိုက် အများဆုံး ကိုယ်အလေးချိန် (Max Body Mass) density ကို ပြသရန် ကုဒ်အကြောင်းအနည်းငယ်ဖြင့် ပြသနိုင်သည်။

ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
  geom_density(alpha=0.5)

bodymass per order

🚀 စိန်ခေါ်မှု

Histogram များသည် ယေဘူယျ scatterplots, bar charts, သို့မဟုတ် line charts ထက် ပိုမိုတိုးတက်သော chart အမျိုးအစားဖြစ်သည်။ အင်တာနက်တွင် Histogram များကို အသုံးပြုထားသော ကောင်းမွန်သော ဥပမာများကို ရှာဖွေကြည့်ပါ။ ၎င်းတို့ကို ဘယ်လိုအသုံးပြုထားသလဲ၊ ဘာကို ပြသထားသလဲ၊ ၎င်းတို့ကို ဘယ်နယ်ပယ်များ သို့မဟုတ် ဘယ်လိုအရာများတွင် အသုံးပြုလေ့ရှိသလဲ?

Post-lecture quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

ဤသင်ခန်းစာတွင် သင်သည် ggplot2 ကို အသုံးပြု၍ ပိုမိုတိုးတက်သော chart များကို ဖော်ပြရန် စတင်ခဲ့သည်။ geom_density_2d() အကြောင်း လေ့လာပါ။ ၎င်းသည် "continuous probability density curve in one or more dimensions" ဖြစ်သည်။ documentation ကို ဖတ်ရှု၍ ၎င်း၏ အလုပ်လုပ်ပုံကို နားလည်ပါ။

လုပ်ငန်း

သင့်ကျွမ်းကျင်မှုကို အသုံးချပါ


အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတရားရှိသော အရင်းအမြစ်အဖြစ် ရှုလေ့လာသင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူက ဘာသာပြန်မှု ဝန်ဆောင်မှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအလွတ်များ သို့မဟုတ် အနားယူမှုမှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။