You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/te/3-Data-Visualization/R/09-visualization-quantities
localizeflow[bot] b985ee1af0
chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 1 month ago

README.md

పరిమాణాలను దృశ్యీకరించడం

 స్కెచ్ నోట్ (@sketchthedocs) ద్వారా
పరిమాణాలను దృశ్యీకరించడం - స్కెచ్ నోట్ @nitya ద్వారా

ఈ పాఠంలో మీరు పరిమాణం అనే భావన చుట్టూ ఆసక్తికరమైన దృశ్యీకరణలను సృష్టించడానికి అందుబాటులో ఉన్న అనేక R ప్యాకేజీలు మరియు లైబ్రరీలను ఎలా ఉపయోగించాలో తెలుసుకుంటారు. మినెసోటా పక్షుల గురించి శుభ్రపరిచిన డేటాసెట్ ఉపయోగించి, మీరు స్థానిక వన్యజీవుల గురించి అనేక ఆసక్తికరమైన విషయాలను తెలుసుకోవచ్చు.

పాఠం ముందు క్విజ్

ggplot2 తో రెక్కల వ్యాప్తిని పరిశీలించండి

వివిధ రకాల సాదా మరియు సున్నితమైన ప్లాట్లు మరియు చార్ట్లను సృష్టించడానికి అద్భుతమైన లైబ్రరీ ggplot2. సాధారణంగా, ఈ లైబ్రరీలను ఉపయోగించి డేటాను ప్లాట్ చేయడం అనేది మీ డేటాఫ్రేమ్‌లో మీరు లక్ష్యంగా పెట్టుకున్న భాగాలను గుర్తించడం, ఆ డేటాపై అవసరమైన మార్పులు చేయడం, దాని x మరియు y అక్ష విలువలను కేటాయించడం, ఏ రకమైన ప్లాట్ చూపించాలో నిర్ణయించడం, మరియు ఆ తర్వాత ప్లాట్ చూపించడం అనే ప్రక్రియ.

ggplot2 అనేది The Grammar of Graphics ఆధారంగా గ్రాఫిక్స్‌ను ప్రకటనాత్మకంగా సృష్టించడానికి ఒక వ్యవస్థ. The Grammar of Graphics అనేది డేటా దృశ్యీకరణకు సాధారణ పద్ధతి, ఇది గ్రాఫ్‌లను స్కేల్స్ మరియు లేయర్స్ వంటి సారాంశ భాగాలుగా విభజిస్తుంది. అంటే, తక్కువ కోడ్‌తో ఒకవైపు లేదా బహువైపు డేటా కోసం ప్లాట్లు మరియు గ్రాఫ్‌లను సృష్టించడం సులభం కావడం వలన ggplot2 R లో దృశ్యీకరణలకు అత్యంత ప్రాచుర్యం పొందిన ప్యాకేజీ. వినియోగదారు ggplot2కి వేరియబుల్స్‌ను ఎస్టెటిక్స్‌కు ఎలా మ్యాప్ చేయాలో, గ్రాఫికల్ ప్రిమిటివ్స్‌ను ఎలా ఉపయోగించాలో చెబుతారు, మిగతా పనిని ggplot2 చూసుకుంటుంది.

ప్లాట్ = డేటా + ఎస్టెటిక్స్ + జ్యామితి

  • డేటా అంటే డేటాసెట్
  • ఎస్టెటిక్స్ అంటే అధ్యయనం చేయవలసిన వేరియబుల్స్ (x మరియు y వేరియబుల్స్)
  • జ్యామితి అంటే ప్లాట్ రకం (లైన్ ప్లాట్, బార్ ప్లాట్, మొదలైనవి)

మీ డేటా మరియు మీరు చెప్పదలచుకున్న కథ ప్రకారం ఉత్తమ జ్యామితిని (ప్లాట్ రకం) ఎంచుకోండి.

  • ధోరణులను విశ్లేషించడానికి: లైన్, కాలమ్
  • విలువలను పోల్చడానికి: బార్, కాలమ్, పై, స్కాటర్‌ప్లాట్
  • భాగాలు మొత్తం తో ఎలా సంబంధించాయో చూపించడానికి: పై
  • డేటా పంపిణీని చూపించడానికి: స్కాటర్‌ప్లాట్, బార్
  • విలువల మధ్య సంబంధాలను చూపించడానికి: లైన్, స్కాటర్‌ప్లాట్, బబుల్

మీరు ggplot2 కోసం ఈ వివరణాత్మక చీట్‌షీట్ కూడా చూడవచ్చు.

పక్షుల రెక్కల వ్యాప్తి విలువలపై లైన్ ప్లాట్ నిర్మించండి

R కన్సోల్ తెరవండి మరియు డేటాసెట్‌ను దిగుమతి చేసుకోండి.

గమనిక: డేటాసెట్ ఈ రిపో యొక్క రూట్‌లోని /data ఫోల్డర్‌లో నిల్వ చేయబడింది.

డేటాసెట్‌ను దిగుమతి చేసుకుని డేటా యొక్క హెడ్ను (పై 5 వరుసలు) పరిశీలిద్దాం.

birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM")
head(birds)

డేటా యొక్క హెడ్లో టెక్స్ట్ మరియు సంఖ్యల మిశ్రమం ఉంది:

Name ScientificName Category Order Family Genus ConservationStatus MinLength MaxLength MinBodyMass MaxBodyMass MinWingspan MaxWingspan
0 Black-bellied whistling-duck Dendrocygna autumnalis Ducks/Geese/Waterfowl Anseriformes Anatidae Dendrocygna LC 47 56 652 1020 76 94
1 Fulvous whistling-duck Dendrocygna bicolor Ducks/Geese/Waterfowl Anseriformes Anatidae Dendrocygna LC 45 53 712 1050 85 93
2 Snow goose Anser caerulescens Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 64 79 2050 4050 135 165
3 Ross's goose Anser rossii Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 57.3 64 1066 1567 113 116
4 Greater white-fronted goose Anser albifrons Ducks/Geese/Waterfowl Anseriformes Anatidae Anser LC 64 81 1930 3310 130 165

కొన్ని సంఖ్యా డేటాను ప్రాథమిక లైన్ ప్లాట్ ఉపయోగించి ప్లాట్ చేయడం ప్రారంభిద్దాం. ఈ ఆసక్తికరమైన పక్షుల గరిష్ట రెక్కల వ్యాప్తి యొక్క దృశ్యాన్ని మీరు కావాలనుకుంటే.

install.packages("ggplot2")
library("ggplot2")
ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_line() 

ఇక్కడ, మీరు ggplot2 ప్యాకేజీని ఇన్‌స్టాల్ చేసి, తరువాత library("ggplot2") కమాండ్ ఉపయోగించి వర్క్‌స్పేస్‌లో దిగుమతి చేసుకుంటారు. ggplot లో ఏదైనా ప్లాట్ చేయడానికి ggplot() ఫంక్షన్ ఉపయోగిస్తారు మరియు డేటాసెట్, x మరియు y వేరియబుల్స్‌ను లక్షణాలుగా పేర్కొంటారు. ఈ సందర్భంలో, లైన్ ప్లాట్ చేయాలనుకున్నందున geom_line() ఫంక్షన్ ఉపయోగిస్తారు.

MaxWingspan-lineplot

మీకు వెంటనే ఏమి కనిపిస్తుంది? కనీసం ఒక అవుట్లయర్ ఉన్నట్లు కనిపిస్తోంది - అది చాలా పెద్ద రెక్కల వ్యాప్తి! 2000+ సెంటీమీటర్ల రెక్కల వ్యాప్తి అంటే 20 మీటర్లకు పైగా - మినెసోటాలో ప్టెరోడాక్టిల్స్ తిరుగుతున్నారా? పరిశీలిద్దాం.

మీరు అవుట్లయర్లను కనుగొనడానికి ఎక్సెల్‌లో త్వరితంగా సార్ట్ చేయవచ్చు, అవి తప్పులే కావచ్చు, కానీ ప్లాట్ నుండి పని కొనసాగించి దృశ్యీకరణ ప్రక్రియ కొనసాగించండి.

x-అక్షకు లేబుల్స్ జోడించి ఏ రకమైన పక్షులు ఉన్నాయో చూపించండి:

ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_line() +
  theme(axis.text.x = element_text(angle = 45, hjust=1))+
  xlab("Birds") +
  ylab("Wingspan (CM)") +
  ggtitle("Max Wingspan in Centimeters")

theme లో కోణాన్ని పేర్కొంటాము మరియు xlab() మరియు ylab() లో వరుసగా x మరియు y అక్ష లేబుల్స్‌ను పేర్కొంటాము. ggtitle() గ్రాఫ్/ప్లాట్‌కు పేరు ఇస్తుంది.

MaxWingspan-lineplot-improved

లేబుల్స్ 45 డిగ్రీల కోణంలో తిరిగినా, చదవడానికి చాలా ఉన్నాయి. వేరే వ్యూహం ప్రయత్నిద్దాం: అవుట్లయర్లకు మాత్రమే లేబుల్స్ ఇవ్వండి మరియు లేబుల్స్‌ను చార్ట్ లోపల సెట్ చేయండి. లేబులింగ్‌కు మరింత స్థలం కోసం స్కాటర్ చార్ట్ ఉపయోగించవచ్చు:

ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_point() +
  geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) + 
  theme(axis.title.x=element_blank(), axis.text.x=element_blank(), axis.ticks.x=element_blank())
  ylab("Wingspan (CM)") +
  ggtitle("Max Wingspan in Centimeters") + 

ఇక్కడ ఏమి జరుగుతోంది? మీరు geom_point() ఫంక్షన్ ఉపయోగించి స్కాటర్ పాయింట్లను ప్లాట్ చేశారు. దీని ద్వారా, MaxWingspan > 500 ఉన్న పక్షులకు లేబుల్స్ జోడించారు మరియు ప్లాట్‌ను క్లట్టర్ చేయకుండా x అక్ష上的 లేబుల్స్‌ను దాచారు.

మీరు ఏమి కనుగొంటారు?

MaxWingspan-scatterplot

మీ డేటాను ఫిల్టర్ చేయండి

బాల్డ్ ఈగిల్ మరియు ప్రేరి ఫాల్కన్, చాలా పెద్ద పక్షులు కావచ్చు, గరిష్ట రెక్కల వ్యాప్తికి అదనంగా 0 తప్పుగా జోడించబడినట్లు కనిపిస్తున్నాయి. 25 మీటర్ల రెక్కల వ్యాప్తి ఉన్న బాల్డ్ ఈగిల్‌ను మీరు కలుసుకోవడం అసాధ్యమే, అయితే ఉంటే దయచేసి మాకు తెలియజేయండి! ఆ రెండు అవుట్లయర్లను తీసేసి కొత్త డేటాఫ్రేమ్ సృష్టిద్దాం:

birds_filtered <- subset(birds, MaxWingspan < 500)

ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
  geom_point() +
  ylab("Wingspan (CM)") +
  xlab("Birds") +
  ggtitle("Max Wingspan in Centimeters") + 
  geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) +
  theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())

మేము కొత్త డేటాఫ్రేమ్ birds_filtered సృష్టించి స్కాటర్ ప్లాట్ చేశాము. అవుట్లయర్లను తీసివేసిన తర్వాత, మీ డేటా మరింత సమగ్రమైనది మరియు అర్థమయ్యేలా మారింది.

MaxWingspan-scatterplot-improved

ఇప్పుడు రెక్కల వ్యాప్తి పరంగా కనీసం శుభ్రమైన డేటాసెట్ ఉన్నందున, ఈ పక్షుల గురించి మరింత తెలుసుకుందాం.

లైన్ మరియు స్కాటర్ ప్లాట్లు డేటా విలువలు మరియు వాటి పంపిణీ గురించి సమాచారం చూపించగలవు, కానీ ఈ డేటాసెట్‌లోని విలువలను మనం ఆలోచించాలి. మీరు ఈ ప్రశ్నలకు సమాధానాలు కనుగొనడానికి దృశ్యీకరణలు సృష్టించవచ్చు:

పక్షుల ఎన్ని వర్గాలు ఉన్నాయి, వాటి సంఖ్య ఎంత? ఎన్ని పక్షులు అంతరించిపోయినవి, ప్రమాదంలో ఉన్నవి, అరుదైనవి లేదా సాధారణమైనవి? లినియస్ యొక్క పదజాలంలో వివిధ జెనస్ మరియు ఆర్డర్స్ ఎన్ని?

బార్ చార్ట్లను అన్వేషించండి

డేటా సమూహాలను చూపించడానికి బార్ చార్ట్లు ఉపయోగకరంగా ఉంటాయి. ఈ డేటాసెట్‌లో ఉన్న పక్షుల వర్గాలను పరిశీలించి ఏది సంఖ్యలో ఎక్కువగా ఉందో చూద్దాం. ఫిల్టర్ చేసిన డేటాపై బార్ చార్ట్ సృష్టిద్దాం.

install.packages("dplyr")
install.packages("tidyverse")

library(lubridate)
library(scales)
library(dplyr)
library(ggplot2)
library(tidyverse)

birds_filtered %>% group_by(Category) %>%
  summarise(n=n(),
  MinLength = mean(MinLength),
  MaxLength = mean(MaxLength),
  MinBodyMass = mean(MinBodyMass),
  MaxBodyMass = mean(MaxBodyMass),
  MinWingspan=mean(MinWingspan),
  MaxWingspan=mean(MaxWingspan)) %>% 
  gather("key", "value", - c(Category, n)) %>%
  ggplot(aes(x = Category, y = value, group = key, fill = key)) +
  geom_bar(stat = "identity") +
  scale_fill_manual(values = c("#D62728", "#FF7F0E", "#8C564B","#2CA02C", "#1F77B4", "#9467BD")) +                   
  xlab("Category")+ggtitle("Birds of Minnesota")

తదుపరి కోడ్‌లో, డేటాను మానిప్యులేట్ చేసి గ్రూప్ చేయడానికి సహాయపడే dplyr మరియు lubridate ప్యాకేజీలను ఇన్‌స్టాల్ చేస్తారు. మొదట, పక్షుల Category ప్రకారం డేటాను గ్రూప్ చేసి, MinLength, MaxLength, MinBodyMass, MaxBodyMass, MinWingspan, MaxWingspan కాలమ్స్‌ను సమ్మరీ చేస్తారు. తరువాత, ggplot2 ప్యాకేజీ ఉపయోగించి బార్ చార్ట్ ప్లాట్ చేసి వేర్వేరు వర్గాల రంగులు మరియు లేబుల్స్‌ను పేర్కొంటారు.

Stacked bar chart

ఈ బార్ చార్ట్ చదవడానికి కష్టమైనది ఎందుకంటే చాలా డేటా గ్రూప్ చేయబడలేదు. మీరు ప్లాట్ చేయదలచుకున్న డేటాను మాత్రమే ఎంచుకోవాలి, కాబట్టి పక్షుల వర్గం ఆధారంగా వారి పొడవును చూద్దాం.

మీ డేటాను పక్షుల వర్గం మాత్రమే కలిగి ఉండేలా ఫిల్టర్ చేయండి.

చాలా వర్గాలు ఉన్నందున, ఈ చార్ట్‌ను నిలువుగా ప్రదర్శించి అందరి డేటా కోసం ఎత్తును సర్దుబాటు చేయవచ్చు:

birds_count<-dplyr::count(birds_filtered, Category, sort = TRUE)
birds_count$Category <- factor(birds_count$Category, levels = birds_count$Category)
ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()

ముందుగా Category కాలమ్‌లోని ప్రత్యేక విలువలను లెక్కించి, వాటిని కొత్త డేటాఫ్రేమ్ birds_count లో సర్దుబాటు చేస్తారు. ఈ సర్దుబాటు చేసిన డేటాను అదే స్థాయిలో ఫ్యాక్టర్ చేసి, సర్దుబాటు చేసిన విధంగా ప్లాట్ చేయబడుతుంది. ggplot2 ఉపయోగించి బార్ చార్ట్ ప్లాట్ చేస్తారు. coord_flip() హారిజాంటల్ బార్లను ప్లాట్ చేస్తుంది.

category-length

ఈ బార్ చార్ట్ ప్రతి వర్గంలో పక్షుల సంఖ్యను బాగా చూపిస్తుంది. ఒక చూపులోనే, ఈ ప్రాంతంలో అత్యధిక సంఖ్యలో పక్షులు Ducks/Geese/Waterfowl వర్గంలో ఉన్నాయని మీరు చూడవచ్చు. మినెసోటా '10,000 సరస్సుల భూమి' కాబట్టి ఇది ఆశ్చర్యకరం కాదు!

ఈ డేటాసెట్‌పై మరిన్ని లెక్కింపులు ప్రయత్నించండి. ఏదైనా ఆశ్చర్యంగా ఉందా?

డేటాను పోల్చడం

మీరు గ్రూప్ చేసిన డేటాను వేరే అక్షాలతో పోల్చడం ప్రయత్నించవచ్చు. పక్షుల వర్గం ఆధారంగా గరిష్ట పొడవు (MaxLength) పోలిక ప్రయత్నించండి:

birds_grouped <- birds_filtered %>%
  group_by(Category) %>%
  summarise(
  MaxLength = max(MaxLength, na.rm = T),
  MinLength = max(MinLength, na.rm = T)
           ) %>%
  arrange(Category)
  
ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_flip()

birds_filtered డేటాను Category ప్రకారం గ్రూప్ చేసి బార్ గ్రాఫ్ ప్లాట్ చేస్తారు.

comparing data

ఇక్కడ ఏ ఆశ్చర్యం లేదు: హమ్మింగ్‌బర్డ్స్‌కు పెలికాన్స్ లేదా గీస్లతో పోలిస్తే తక్కువ MaxLength ఉంటుంది. డేటా తార్కికంగా అర్థమయ్యేలా ఉండటం మంచిది!

మీరు మరింత ఆసక్తికరమైన బార్ చార్ట్లను సృష్టించవచ్చు, డేటాను సూపరింపోజ్ చేసి. ఒక పక్షుల వర్గంపై కనిష్ట మరియు గరిష్ట పొడవును సూపరింపోజ్ చేద్దాం:

ggplot(data=birds_grouped, aes(x=Category)) +
  geom_bar(aes(y=MaxLength), stat="identity", position ="identity",  fill='blue') +
  geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
  coord_flip()

super-imposed values

🚀 సవాలు

ఈ పక్షుల డేటాసెట్ ఒక ప్రత్యేక పర్యావరణ వ్యవస్థలోని వివిధ రకాల పక్షుల గురించి సమృద్ధిగా సమాచారం అందిస్తుంది. ఇంటర్నెట్‌లో వెతకండి మరియు ఇతర పక్షుల డేటాసెట్లను కనుగొనండి. ఈ పక్షుల చుట్టూ చార్ట్లు మరియు గ్రాఫ్‌లను నిర్మించడం సాధన చేయండి, మీరు తెలియని విషయాలను కనుగొనండి.

పాఠం తర్వాత క్విజ్

సమీక్ష & స్వీయ అధ్యయనం

ఈ మొదటి పాఠం ggplot2 ఉపయోగించి పరిమాణాలను ఎలా దృశ్యీకరించాలో కొంత సమాచారం ఇచ్చింది. దృశ్యీకరణ కోసం డేటాసెట్లతో పని చేసే ఇతర మార్గాల గురించి పరిశోధన చేయండి. Lattice మరియు Plotly వంటి ఇతర ప్యాకేజీలను ఉపయోగించి మీరు దృశ్యీకరించగల డేటాసెట్లను వెతకండి.

అసైన్‌మెంట్

లైన్లు, స్కాటర్స్, మరియు బార్లు


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.