You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/3-Data-Visualization/R/09-visualization-quantities
leestott 8dcd54c138
🌐 Update translations via Co-op Translator
3 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

အရေအတွက်များကိုမြင်နိုင်အောင်ဖော်ပြခြင်း

 Sketchnote by (@sketchthedocs)
အရေအတွက်များကိုမြင်နိုင်အောင်ဖော်ပြခြင်း - Sketchnote by @nitya

ဒီသင်ခန်းစာမှာ R package library အမျိုးမျိုးကိုအသုံးပြုပြီး အရေအတွက်ဆိုင်ရာအကြောင်းအရာများကို စိတ်ဝင်စားဖွယ်မြင်နိုင်အောင် ဖော်ပြပုံများဖန်တီးနည်းကိုလေ့လာပါမည်။ Minnesota ရှိငှက်များအကြောင်းကို စစ်ဆေးပြီးသား dataset ကိုအသုံးပြုကာ ဒေသတွင်းတောရိုင်းတိရစ္ဆာန်များအကြောင်း စိတ်ဝင်စားဖွယ်အချက်အလက်များကိုလေ့လာနိုင်ပါသည်။

Pre-lecture quiz

ggplot2 ဖြင့်တောင်ပံအကျယ်ကိုကြည့်ရှုခြင်း

အမျိုးမျိုးသောရုပ်ပုံများနှင့်ဇယားများကို ရိုးရှင်းပြီးခက်ခဲသောပုံစံများဖြင့်ဖန်တီးရန်အကောင်းဆုံး library တစ်ခုမှာ ggplot2 ဖြစ်သည်။ အထွေထွေအားဖြင့်၊ ဒီ library များကိုအသုံးပြု၍ ဒေတာကို plot လုပ်ခြင်း၏လုပ်ငန်းစဉ်မှာ dataframe ၏တစ်စိတ်တစ်ပိုင်းကို ရွေးချယ်ခြင်း၊ လိုအပ်သောဒေတာကိုပြောင်းလဲခြင်း၊ x နှင့် y axis တန်ဖိုးများကိုသတ်မှတ်ခြင်း၊ ဖော်ပြလိုသော plot အမျိုးအစားကိုဆုံးဖြတ်ခြင်းနှင့် plot ကိုဖော်ပြခြင်းတို့ပါဝင်သည်။

ggplot2 သည် The Grammar of Graphics အခြေခံ၍ ရုပ်ပုံများကို ဖန်တီးရန်အတွက် declarative system တစ်ခုဖြစ်သည်။ Grammar of Graphics သည် ရုပ်ပုံများကို semantic components (scales နှင့် layers) အဖြစ်ခွဲခြားသော ဒေတာ visualization အတွက်အထွေထွေစနစ်တစ်ခုဖြစ်သည်။ အခြေခံကုဒ်နည်းနည်းဖြင့် univariate ဒေတာ သို့မဟုတ် multivariate ဒေတာများအတွက် ရုပ်ပုံများနှင့်ဇယားများဖန်တီးရန်ရိုးရှင်းမှုကြောင့် ggplot2 သည် R တွင် visualization အတွက်အသုံးပြုမှုအများဆုံး package ဖြစ်သည်။ အသုံးပြုသူသည် ggplot2 ကို variable များကို aesthetics နှင့် graphical primitives များကိုဘယ်လို map လုပ်မည်ကိုပြောပြပြီး ggplot2 သည်ကျန်ရှိသောအရာများကိုစီမံဆောင်ရွက်သည်။

Plot = Data + Aesthetics + Geometry

  • Data သည် dataset ကိုဆိုလိုသည်
  • Aesthetics သည်လေ့လာလိုသော variable များကိုပြသည် (x နှင့် y variable များ)
  • Geometry သည် plot အမျိုးအစားကိုဆိုလိုသည် (line plot, bar plot စသည်)

သင့်ဒေတာနှင့် plot မှတဆင့်ပြောပြလိုသောအကြောင်းအရာအပေါ်မူတည်၍ အကောင်းဆုံး geometry (plot အမျိုးအစား) ကိုရွေးချယ်ပါ။

  • အလားအလာများကိုခွဲခြားရန်: line, column
  • တန်ဖိုးများကိုနှိုင်းယှဉ်ရန်: bar, column, pie, scatterplot
  • အစိတ်အပိုင်းများသည်တစ်ခုလုံးနှင့်ဆက်စပ်ပုံကိုပြရန်: pie
  • ဒေတာ၏ဖြန့်ဝေမှုကိုပြရန်: scatterplot, bar
  • တန်ဖိုးများအကြားဆက်နွယ်မှုကိုပြရန်: line, scatterplot, bubble

cheatsheet ရှိ ggplot2 အတွက်ဖော်ပြချက်ကိုလည်းကြည့်ရှုနိုင်ပါသည်။

ငှက်တောင်ပံအကျယ်တန်ဖိုးများအတွက် line plot တစ်ခုဖန်တီးပါ

R console ကိုဖွင့်ပြီး dataset ကို import လုပ်ပါ။

Note: Dataset သည် repo ၏ root တွင် /data folder တွင်သိမ်းဆည်းထားသည်။

Dataset ကို import လုပ်ပြီး ဒေတာ၏အပေါ်ဆုံး ၅ ရွေ့ကိုကြည့်ရှုပါ။

birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM")
head(birds)

ဒေတာ၏အပေါ်ဆုံးတွင် text နှင့် number များရောနှောထားသည်-

Name ScientificName Category Order Family Genus ConservationStatus MinLength MaxLength MinBodyMass MaxBodyMass MinWingspan MaxWingspan
0 Black-bellied whistling-duck Dendrocygna autumnalis Ducks/Geese/Waterfowl Anseriformes Anatidae Dendrocygna LC 47 56 652 1020 76 94
1 Fulvous whistling-duck Dendrocygna bicolor Ducks/Geese/Waterfowl Anseriformes Anatidae Dendrocygna LC 45 53 712 1050 85 93
2 Snow goose Anser caerulescens Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 64 79 2050 4050 135 165
3 Ross's goose Anser rossii Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 57.3 64 1066 1567 113 116
4 Greater white-fronted goose Anser albifrons Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 64 81 1930 3310 130 165

အထူးစိတ်ဝင်စားဖွယ်ရှိသောငှက်များအတွက် maximum wingspan ကိုကြည့်ရှုလိုပါက numeric data အချို့ကို basic line plot ဖြင့်စတင် plot လုပ်ပါ။

install.packages("ggplot2")
library("ggplot2")
ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_line() 

ဒီမှာ ggplot2 package ကို install လုပ်ပြီး library("ggplot2") command ကိုအသုံးပြုကာ workspace ထဲသို့ import လုပ်ပါသည်။ ggplot တွင် plot တစ်ခုကိုဖော်ပြရန် ggplot() function ကိုအသုံးပြုပြီး dataset, x နှင့် y variable များကို attribute အဖြစ်သတ်မှတ်ပါသည်။ ဒီအခါမှာ line plot ကို plot လုပ်ရန် geom_line() function ကိုအသုံးပြုပါသည်။

MaxWingspan-lineplot

သင်ဘာတွေသတိထားမိပါသလဲ? အနည်းဆုံး outlier တစ်ခုရှိသလိုပဲ - တောင်ပံအကျယ်တစ်ခုကတော်တော်လေးကြီးတယ်! 2000+ စင်တီမီတာတောင်ပံအကျယ်က 20 မီတာကျော်ရှိတယ် - Minnesota မှာ Pterodactyls တွေရှိနေသလား? စစ်ဆေးကြည့်ရအောင်။

Excel မှာ sort လုပ်ပြီး outlier များကိုရှာဖွေနိုင်သော်လည်း၊ plot ထဲကနေဆက်လက် visualization လုပ်ပါ။

x-axis မှာငှက်အမျိုးအစားများကိုပြရန် label များထည့်ပါ:

ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_line() +
  theme(axis.text.x = element_text(angle = 45, hjust=1))+
  xlab("Birds") +
  ylab("Wingspan (CM)") +
  ggtitle("Max Wingspan in Centimeters")

theme မှာ angle ကိုသတ်မှတ်ပြီး xlab() နှင့် ylab() မှာ x နှင့် y axis label များကိုသတ်မှတ်ပါသည်။ ggtitle() သည် graph/plot ကိုနာမည်ပေးသည်။

MaxWingspan-lineplot-improved

label များကို 45 ဒီဂရီလှည့်ထားသော်လည်း၊ ဖတ်ရန်အလွန်များနေသည်။ အခြား strategy တစ်ခုကိုစမ်းကြည့်ရအောင်- outlier များကိုသာ label လုပ်ပြီး label များကို chart ထဲမှာထားပါ။ scatter chart ကိုအသုံးပြုကာ label များအတွက်နေရာပိုမိုရရှိစေပါ:

ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_point() +
  geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) + 
  theme(axis.title.x=element_blank(), axis.text.x=element_blank(), axis.ticks.x=element_blank())
  ylab("Wingspan (CM)") +
  ggtitle("Max Wingspan in Centimeters") + 

ဒီမှာဘာတွေဖြစ်နေပါသလဲ? geom_point() function ကိုအသုံးပြုကာ scatter point များကို plot လုပ်ပါသည်။ ဒီနဲ့အတူ MaxWingspan > 500 ရှိသောငှက်များအတွက် label များထည့်ပြီး x axis မှ label များကိုဖယ်ရှားကာ plot ကိုရှင်းလင်းစေပါသည်။

သင်ဘာတွေရှာဖွေတွေ့ရှိပါသလဲ?

MaxWingspan-scatterplot

သင့်ဒေတာကို filter လုပ်ပါ

Bald Eagle နှင့် Prairie Falcon သည် အလွန်ကြီးမားသောငှက်များဖြစ်နိုင်သော်လည်း၊ maximum wingspan တွင် 0 တစ်ခုထပ်ထည့်ထားသောအမှားဖြစ်နိုင်သည်။ Bald Eagle တစ်ကောင်မှာ 25 မီတာတောင်ပံအကျယ်ရှိမည်မဟုတ်သော်လည်း၊ ရှိပါက ကျွန်ုပ်တို့ကိုသတင်းပို့ပါ! ဒီ outlier ၂ ခုမပါသော dataframe အသစ်တစ်ခုကိုဖန်တီးပါ:

birds_filtered <- subset(birds, MaxWingspan < 500)

ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_point() +
  ylab("Wingspan (CM)") +
  xlab("Birds") +
  ggtitle("Max Wingspan in Centimeters") + 
  geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) +
  theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())

birds_filtered ဆိုသော dataframe အသစ်တစ်ခုကိုဖန်တီးပြီး scatter plot တစ်ခုကို plot လုပ်ပါသည်။ outlier များကို filter လုပ်ခြင်းဖြင့် သင့်ဒေတာသည် ပိုမိုညီညွတ်ပြီးနားလည်ရလွယ်ကူလာသည်။

MaxWingspan-scatterplot-improved

အနည်းဆုံးတောင်ပံအကျယ်အရ dataset ကိုရှင်းလင်းပြီးနောက်၊ ငှက်များအကြောင်းပိုမိုရှာဖွေကြည့်ရအောင်။

line နှင့် scatter plot များသည် ဒေတာတန်ဖိုးများနှင့်၎င်းတို့၏ဖြန့်ဝေမှုကိုဖော်ပြနိုင်သော်လည်း၊ dataset ၏ inherent values အကြောင်းကိုစဉ်းစားလိုပါသည်။ အရေအတွက်ဆိုင်ရာအောက်ပါမေးခွန်းများကိုဖြေရှင်းရန် visualization များဖန်တီးနိုင်သည်-

ငှက်အမျိုးအစားများဘယ်လောက်ရှိပြီး၊ အရေအတွက်ဘယ်လောက်ရှိသလဲ?
ငှက်များအနက်ဘယ်လောက် extinction, endangered, rare, သို့မဟုတ် common ဖြစ်သလဲ?
Linnaeus ရဲ့ terminology အရ genus နှင့် order များဘယ်လောက်ရှိသလဲ?

Bar chart များကိုလေ့လာပါ

Bar chart များသည် ဒေတာကိုအုပ်စုဖွဲ့ရန်လိုအပ်သောအခါတွင်အသုံးဝင်သည်။ dataset တွင်ရှိသောငှက်အမျိုးအစားများကိုလေ့လာပြီး အများဆုံးရှိသောအမျိုးအစားကိုကြည့်ရှုပါ။ Filter လုပ်ထားသောဒေတာပေါ်တွင် bar chart တစ်ခုဖန်တီးပါ။

install.packages("dplyr")
install.packages("tidyverse")

library(lubridate)
library(scales)
library(dplyr)
library(ggplot2)
library(tidyverse)

birds_filtered %>% group_by(Category) %>%
  summarise(n=n(),
  MinLength = mean(MinLength),
  MaxLength = mean(MaxLength),
  MinBodyMass = mean(MinBodyMass),
  MaxBodyMass = mean(MaxBodyMass),
  MinWingspan=mean(MinWingspan),
  MaxWingspan=mean(MaxWingspan)) %>% 
  gather("key", "value", - c(Category, n)) %>%
  ggplot(aes(x = Category, y = value, group = key, fill = key)) +
  geom_bar(stat = "identity") +
  scale_fill_manual(values = c("#D62728", "#FF7F0E", "#8C564B","#2CA02C", "#1F77B4", "#9467BD")) +                   
  xlab("Category")+ggtitle("Birds of Minnesota")

ဒီ snippet တွင် dplyr နှင့် lubridate package များကို install လုပ်ကာ ဒေတာကို manipulate လုပ်ရန်နှင့် group လုပ်ရန်အသုံးပြုသည်။ ငှက်၏ Category အပေါ်မူတည်၍ ဒေတာကို group လုပ်ပြီး MinLength, MaxLength, MinBodyMass, MaxBodyMass, MinWingspan, MaxWingspan column များကို summarise လုပ်သည်။ ထို့နောက် ggplot2 package ကိုအသုံးပြုကာ bar chart ကို plot လုပ်ပြီး category များအတွက်အရောင်များနှင့် label များကိုသတ်မှတ်သည်။

Stacked bar chart

ဒီ bar chart သည် များလွန်းသော non-grouped data ကြောင့် မဖတ်နိုင်ပါ။ plot လုပ်လိုသောဒေတာကိုသာရွေးချယ်ရန်လိုအပ်သည်၊ ဒါကြောင့် ငှက်၏ category အပေါ်မူတည်၍ length ကိုကြည့်ရှုပါ။

သင့်ဒေတာကို ငှက်၏ category ကိုသာပါဝင်အောင် filter လုပ်ပါ။

Category များများသောကြောင့်၊ ဒီ chart ကိုvertically ဖော်ပြပြီး data အားလုံးအတွက် height ကိုပြင်ဆင်ပါ:

birds_count<-dplyr::count(birds_filtered, Category, sort = TRUE)
birds_count$Category <- factor(birds_count$Category, levels = birds_count$Category)
ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()

Category column တွင်ရှိသော unique value များကို count လုပ်ပြီး birds_count ဆိုသော dataframe အသစ်တစ်ခုထဲသို့ sort လုပ်သည်။ ဒီ sorted data ကို level တူညီအတိုင်း factor လုပ်ကာ sorted ပုံစံဖြင့် plot လုပ်သည်။ ggplot2 ကိုအသုံးပြုကာ bar chart ကို plot လုပ်သည်။ coord_flip() သည် horizontal bar များကို plot လုပ်သည်။

category-length

ဒီ bar chart သည် category တစ်ခုစီတွင်ရှိသောငှက်အရေအတွက်ကိုကောင်းစွာမြင်နိုင်စေသည်။ Minnesota တွင် Ducks/Geese/Waterfowl category တွင်ငှက်အများဆုံးရှိသည်ကို တစ်ချက်ကြည့်လိုက်တာနဲ့မြင်နိုင်သည်။ Minnesota သည် '10,000 ရေကန်များ၏မြေ' ဖြစ်သောကြောင့်၊ ဒီအရာသည်အံ့ဩစရာမဟုတ်ပါ။

ဒီ dataset ပေါ်မှာ count အမျိုးမျိုးကိုစမ်းကြည့်ပါ။ သင်အံ့ဩစရာတွေ့ရှိပါသလား?

ဒေတာကိုနှိုင်းယှဉ်ခြင်း

Grouped data များကိုနှိုင်းယှဉ်ရန် axis အသစ်များဖန်တီးကာစမ်းကြည့်နိုင်သည်။ ငှက်၏ category အပေါ်မူတည်၍ MaxLength ကိုနှိုင်းယှဉ်ကြည့်ပါ:

birds_grouped <- birds_filtered %>%
  group_by(Category) %>%
  summarise(
  MaxLength = max(MaxLength, na.rm = T),
  MinLength = max(MinLength, na.rm = T)
           ) %>%
  arrange(Category)
  
ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_flip()

birds_filtered ဒေတာကို Category အပေါ်မူတည်၍ group လုပ်ပြီး bar graph ကို plot လုပ်သည်။

comparing data

ဒီမှာအံ့ဩစရာမရှိပါ- hummingbirds တွင် Pelicans သို့မဟုတ် Geese နှင့်နှိုင်းယှဉ်ပါက MaxLength အနည်းဆုံးရှိသည်။ ဒေတာသည် logical make sense ဖြစ်သည်မှာကောင်းပါသည်!

Bar chart များကို data များကို superimpose လုပ်ကာပိုမိုစိတ်ဝင်စားဖွယ်ဖန်တီးနိုင်သည်။ Minimum နှင့် Maximum Length ကိုငှက် category တစ်ခုစီပေါ်မှာ superimpose လုပ်ကြည့်ရအောင်:

ggplot(data=birds_grouped, aes(x=Category)) +
  geom_bar(aes(y=MaxLength), stat="identity", position ="identity",  fill='blue') +
  geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
  coord_flip()

super-imposed values

🚀 စိန်ခေါ်မှု

ဒီငှက် dataset သည် ecosystem တစ်ခုအတွင်းရှိငှက်အမျိုးအစားများအကြောင်းအချက်အလက်များစွာကိုပေးသည်။ အင်တာနက်ပေါ်တွင်ရှာဖွေပြီး ငှက်များနှင့်ဆက်စပ်သော dataset အခြားများကိုရှာဖွေကြည့်ပါ။ ငှက်များအကြောင်း သင်မသိခဲ့သောအချက်အလက်များကိုရှာဖွေဖော်ထုတ်ရန် chart များနှင့် graph များကိုဖန်တီးရန်လေ့ကျင့်ပါ။

Post-lecture quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့်ကိုယ်တိုင်လေ့လာခြင်း

ဒီပထမဆုံးသင်ခန်းစာသည် ggplot2 ကိုအသုံးပြုကာ အရေအတွက်များကို visualization လုပ်နည်းအကြောင်းအချက်အလက်အချို့ကိုပေးသည်။ dataset များကို visualization လုပ်ရန်အခြားနည်းလမ်းများအကြောင်းလေ့လာပါ။ Lattice နှင့် Plotly ကဲ့သို့သော package များကိုအသုံးပြု


အကြောင်းကြားချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာတရ အရင်းအမြစ်အဖြစ် ရှုယူသင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအလွတ်များ သို့မဟုတ် အနားလွဲမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။