|
|
3 weeks ago | |
|---|---|---|
| .. | ||
| README.md | 3 weeks ago | |
README.md
సంబంధాలను దృశ్యీకరించడం: తేనె గురించి అన్ని విషయాలు 🍯
![]() |
|---|
| సంబంధాలను దృశ్యీకరించడం - స్కెచ్ నోట్ @nitya ద్వారా |
మా పరిశోధనలో ప్రకృతి దృష్టిని కొనసాగిస్తూ, యునైటెడ్ స్టేట్స్ డిపార్ట్మెంట్ ఆఫ్ అగ్రికల్చర్ నుండి పొందిన డేటాసెట్ ఆధారంగా వివిధ రకాల తేనె మధ్య సంబంధాలను చూపించే ఆసక్తికరమైన దృశ్యీకరణలను కనుగొనుకుందాం.
ఈ సుమారు 600 అంశాల డేటాసెట్ అనేక యుఎస్ రాష్ట్రాలలో తేనె ఉత్పత్తిని ప్రదర్శిస్తుంది. ఉదాహరణకు, మీరు ప్రతి రాష్ట్రం నుండి 1998-2012 మధ్య సంవత్సరానికి ఒక వరుసగా కాలనీల సంఖ్య, కాలనీకి ఉత్పత్తి, మొత్తం ఉత్పత్తి, నిల్వలు, పౌండ్కు ధర మరియు ఉత్పత్తి విలువను చూడవచ్చు.
ఒక రాష్ట్రం యొక్క సంవత్సరానికి ఉత్పత్తి మరియు ఆ రాష్ట్రంలో తేనె ధర మధ్య సంబంధాన్ని దృశ్యీకరించడం ఆసక్తికరం. లేదా, రాష్ట్రాల తేనె ఉత్పత్తి కాలనీకి మధ్య సంబంధాన్ని చూపవచ్చు. ఈ సంవత్సరాల వ్యవధి 2006లో మొదటగా కనిపించిన 'CCD' లేదా 'కాలనీ కాలపనితీరు వ్యాధి' (http://npic.orst.edu/envir/ccd.html) ను కవర్ చేస్తుంది, కాబట్టి ఇది అధ్యయనానికి భావోద్వేగమైన డేటాసెట్. 🐝
పూర్వ-ఉపన్యాస క్విజ్
ఈ పాఠంలో, మీరు ముందుగా ఉపయోగించిన ggplot2 ను వేరియబుల్స్ మధ్య సంబంధాలను దృశ్యీకరించడానికి మంచి లైబ్రరీగా ఉపయోగించవచ్చు. ప్రత్యేకంగా ggplot2 యొక్క geom_point మరియు qplot ఫంక్షన్ ఉపయోగించి స్కాటర్ ప్లాట్లు మరియు లైన్ ప్లాట్లను త్వరగా 'సాంఖ్యిక సంబంధాలు' చూపించడానికి ఉపయోగిస్తారు, ఇది డేటా శాస్త్రవేత్తకు వేరియబుల్స్ ఎలా సంబంధం కలిగి ఉన్నాయో మెరుగ్గా అర్థం చేసుకోవడంలో సహాయపడుతుంది.
స్కాటర్ ప్లాట్లు
ప్రతి రాష్ట్రానికి సంవత్సరానికి తేనె ధర ఎలా మారిందో చూపించడానికి స్కాటర్ ప్లాట్ ఉపయోగించండి. ggplot2, ggplot మరియు geom_point ఉపయోగించి, రాష్ట్ర డేటాను సమూహీకరించి, వర్గీకృత మరియు సంఖ్యాత్మక డేటా కోసం డేటా పాయింట్లను ప్రదర్శిస్తుంది.
ముందుగా డేటాను మరియు Seaborn ను దిగుమతి చేసుకుందాం:
honey=read.csv('../../data/honey.csv')
head(honey)
మీరు గమనిస్తారు తేనె డేటాలో సంవత్సరము మరియు పౌండ్కు ధర వంటి కొన్ని ఆసక్తికరమైన కాలమ్స్ ఉన్నాయి. ఈ డేటాను యుఎస్ రాష్ట్రాల వారీగా సమూహీకరించి పరిశీలిద్దాం:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
|---|---|---|---|---|---|---|---|
| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 |
| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 |
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
| FL | 230000 | 98 | 22540000 | 4508000 | 0.64 | 14426000 | 1998 |
తేనె ధర మరియు దాని ఉత్పత్తి రాష్ట్రం మధ్య సంబంధాన్ని చూపించడానికి ఒక ప్రాథమిక స్కాటర్ ప్లాట్ సృష్టించండి. అన్ని రాష్ట్రాలు ప్రదర్శించడానికి y అక్షాన్ని పొడవుగా చేయండి:
library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
ఇప్పుడు, అదే డేటాను తేనె రంగు స్కీమ్తో చూపించి, సంవత్సరాల వారీగా ధర ఎలా మారిందో చూపించండి. మీరు 'scale_color_gradientn' పారామీటర్ జోడించడం ద్వారా సంవత్సరాల మార్పును చూపవచ్చు:
✅ scale_color_gradientn గురించి మరింత తెలుసుకోండి - అందమైన రైన్బో రంగు స్కీమ్ ప్రయత్నించండి!
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
ఈ రంగు స్కీమ్ మార్పుతో, తేనె ధరలో సంవత్సరాల వారీగా స్పష్టమైన పెరుగుదల ఉందని మీరు చూడవచ్చు. నిజంగా, డేటాలో ఒక నమూనా సెట్ (ఉదాహరణకు అరిజోనా రాష్ట్రం) పరిశీలిస్తే, కొన్నిసార్లు తప్పులు ఉన్నా, ధర సంవత్సరాల వారీగా పెరుగుతుందని కనిపిస్తుంది:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
|---|---|---|---|---|---|---|---|
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 |
| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 |
| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 |
| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 |
| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 |
| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 |
| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 |
| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 |
| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 |
| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 |
| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 |
| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 |
| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 |
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
రంగు బదులుగా పరిమాణం ఉపయోగించి ఈ పెరుగుదలని చూపించవచ్చు. రంగు దృష్టి లోపం ఉన్న వినియోగదారులకు ఇది మంచి ఎంపిక కావచ్చు. డాట్ వ్యాసార్థం పెరుగుదలతో ధర పెరుగుదలని చూపించడానికి మీ దృశ్యీకరణను సవరించండి:
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(aes(size = year),colour = "blue") +
scale_size_continuous(range = c(0.25, 3))
డాట్ల పరిమాణం క్రమంగా పెరుగుతున్నట్లు మీరు చూడవచ్చు.
ఇది సరఫరా మరియు డిమాండ్ యొక్క సాదారణ ఉదాహరణనా? వాతావరణ మార్పులు మరియు కాలనీ కాలపనితీరు వంటి కారణాల వల్ల, సంవత్సరాల వారీగా తేనె కొంత తక్కువగా అందుబాటులో ఉండి, అందువల్ల ధర పెరుగుతుందా?
ఈ డేటాసెట్ లోని కొన్ని వేరియబుల్స్ మధ్య సంబంధాన్ని కనుగొనడానికి, కొన్ని లైన్ చార్ట్లను పరిశీలిద్దాం.
లైన్ చార్ట్లు
ప్రశ్న: తేనె ధర సంవత్సరాల వారీగా స్పష్టంగా పెరుగుతుందా? మీరు ఒకే లైన్ చార్ట్ సృష్టించడం ద్వారా ఇది సులభంగా కనుగొనవచ్చు:
qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab = "priceperlb")
జవాబు: అవును, 2003 సంవత్సరానికి చుట్టూ కొన్ని మినహాయింపులతో:
ప్రశ్న: 2003లో తేనె సరఫరాలో కూడా పెరుగుదల కనిపిస్తుందా? సంవత్సరాల వారీగా మొత్తం ఉత్పత్తిని చూస్తే?
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
జవాబు: అంతగా కాదు. మొత్తం ఉత్పత్తిని చూస్తే, ఆ ప్రత్యేక సంవత్సరంలో పెరిగినట్లు కనిపిస్తుంది, అయితే సాధారణంగా ఈ సంవత్సరాలలో తేనె ఉత్పత్తి తగ్గుతోంది.
ప్రశ్న: ఆ సందర్భంలో, 2003లో తేనె ధర పెరుగుదలకు కారణం ఏమిటి?
దీనిని కనుగొనడానికి, మీరు ఫేసెట్ గ్రిడ్ను అన్వేషించవచ్చు.
ఫేసెట్ గ్రిడ్లు
ఫేసెట్ గ్రిడ్లు మీ డేటాసెట్ యొక్క ఒక ఫేసెట్ తీసుకుంటాయి (మా సందర్భంలో, మీరు 'సంవత్సరం' ఎంచుకుని చాలా ఫేసెట్లు ఉత్పత్తి కాకుండా ఉండవచ్చు). Seaborn ఆ ఫేసెట్ల కోసం మీ ఎంచుకున్న x మరియు y కోఆర్డినేట్లతో ప్రతి ఫేసెట్ కోసం ప్లాట్ తయారు చేస్తుంది, ఇది సులభమైన దృశ్య తులన కోసం. 2003 ఈ రకమైన తులనలో ప్రత్యేకంగా కనిపిస్తుందా?
ggplot2 డాక్యుమెంటేషన్ సిఫారసు చేసినట్లుగా facet_wrap ఉపయోగించి ఫేసెట్ గ్రిడ్ సృష్టించండి.
ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
geom_line() + facet_wrap(vars(year))
ఈ దృశ్యీకరణలో, మీరు కాలనీకి ఉత్పత్తి మరియు కాలనీల సంఖ్యను సంవత్సరాల వారీగా, 3 కాలమ్స్తో wrap సెట్తో పక్కపక్కనే పోల్చవచ్చు:
ఈ డేటాసెట్ కోసం, కాలనీల సంఖ్య మరియు వాటి ఉత్పత్తి విషయంలో సంవత్సరాల వారీగా మరియు రాష్ట్రాల వారీగా ప్రత్యేకంగా ఏమీ కనిపించదు. ఈ రెండు వేరియబుల్స్ మధ్య సంబంధం కనుగొనడానికి వేరే దృశ్య పద్ధతి ఉందా?
ద్విభుజ లైన్ ప్లాట్లు
R యొక్క par మరియు plot ఫంక్షన్ ఉపయోగించి రెండు లైన్ ప్లాట్లను ఒకదానిపై ఒకటి ఉంచి మల్టిలైన్ ప్లాట్ ప్రయత్నించండి. x అక్షంలో సంవత్సరం ప్రదర్శించి, రెండు y అక్షాలను చూపండి. కాబట్టి, కాలనీకి ఉత్పత్తి మరియు కాలనీల సంఖ్యను ఒకదానిపై ఒకటి ఉంచి ప్రదర్శించండి:
par(mar = c(5, 4, 4, 4) + 0.3)
plot(honey$year, honey$numcol, pch = 16, col = 2,type="l")
par(new = TRUE)
plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axes = FALSE, xlab = "", ylab = "",type="l")
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
2003 సంవత్సరానికి చుట్టూ ఏదీ స్పష్టంగా కనిపించకపోయినా, ఈ పాఠాన్ని కొంత సంతోషకరంగా ముగించడానికి ఇది సహాయపడుతుంది: మొత్తం కాలనీల సంఖ్య తగ్గుతున్నప్పటికీ, వాటి ఉత్పత్తి తగ్గుతున్నా, కాలనీల సంఖ్య స్థిరపడుతోంది.
పోరు, తేనెలు, పోరు!
🐝❤️
🚀 సవాలు
ఈ పాఠంలో, మీరు స్కాటర్ ప్లాట్లు మరియు లైన్ గ్రిడ్ల ఇతర ఉపయోగాల గురించి కొంత తెలుసుకున్నారు, ఫేసెట్ గ్రిడ్లు సహా. మీరు ఈ పాఠాల ముందు ఉపయోగించిన వేరే డేటాసెట్ ఉపయోగించి ఫేసెట్ గ్రిడ్ సృష్టించడానికి సవాలు చేయండి. అవి సృష్టించడానికి ఎంత సమయం పడుతుందో, మరియు ఈ సాంకేతికతలతో మీరు ఎంత గ్రిడ్లు డ్రా చేయాలో జాగ్రత్తగా ఉండాల్సిన అవసరం గురించి గమనించండి.
ఉపన్యాసం తర్వాత క్విజ్
సమీక్ష & స్వీయ అధ్యయనం
లైన్ ప్లాట్లు సులభంగా లేదా చాలా సంక్లిష్టంగా ఉండవచ్చు. మీరు ggplot2 డాక్యుమెంటేషన్ లో వివిధ రకాలుగా వాటిని ఎలా నిర్మించాలో కొంత చదవండి. ఈ పాఠంలో మీరు నిర్మించిన లైన్ చార్ట్లను డాక్స్లో సూచించిన ఇతర పద్ధతులతో మెరుగుపరచడానికి ప్రయత్నించండి.
అసైన్మెంట్
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వలన కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.







