You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/et/3-Data-Visualization/R/12-visualization-relationships
localizeflow[bot] b88ef67e42
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago

README.md

Suhete visualiseerimine: Kõik mesist 🍯

 Sketchnote by (@sketchthedocs)
Suhete visualiseerimine - Sketchnote by @nitya

Jätkates meie uurimistöö looduse fookusega, avastame huvitavaid visualiseerimisviise, et näidata erinevate mee tüüpide vahelisi seoseid, tuginedes andmestikule, mis pärineb Ameerika Ühendriikide Põllumajandusministeeriumist.

See umbes 600 kirjet sisaldav andmestik näitab mee tootmist paljudes USA osariikides. Näiteks saate vaadata kolooniate arvu, saagikust koloonia kohta, kogutoodangut, varusid, hinna naela kohta ja mee tootmise väärtust antud osariigis aastatel 19982012, kus iga osariigi kohta on üks rida aastas.

Huvitav oleks visualiseerida seos antud osariigi aastase tootmise ja näiteks mee hinna vahel selles osariigis. Alternatiivselt võiks visualiseerida osariikide mee saagikust koloonia kohta. See ajavahemik hõlmab laastavat 'CCD' ehk 'Colony Collapse Disorder' nähtust, mida esmakordselt täheldati 2006. aastal (http://npic.orst.edu/envir/ccd.html), mistõttu on see andmestik emotsionaalselt tähendusrikas uurimiseks. 🐝

Eel-loengu viktoriin

Selles õppetükis saate kasutada ggplot2-teeki, mida olete varem kasutanud, et visualiseerida muutujate vahelisi seoseid. Eriti huvitav on ggplot2 geom_point ja qplot funktsioonide kasutamine, mis võimaldavad kiiresti luua hajuvusdiagramme ja joondiagramme, et visualiseerida 'statistilisi seoseid', mis aitavad andmeteadlasel paremini mõista, kuidas muutujad omavahel seotud on.

Hajuvusdiagrammid

Kasutage hajuvusdiagrammi, et näidata, kuidas mee hind on aastate jooksul osariikide lõikes muutunud. ggplot2, kasutades ggplot ja geom_point, rühmitab mugavalt osariikide andmed ja kuvab andmepunkte nii kategooriliste kui ka numbriliste andmete jaoks.

Alustame andmete importimise ja Seaborniga:

honey=read.csv('../../data/honey.csv')
head(honey)

Te märkate, et mee andmestikus on mitmeid huvitavaid veerge, sealhulgas aasta ja hind naela kohta. Uurime neid andmeid, rühmitatuna USA osariikide kaupa:

osariik kolooniate arv saagikus koloonia kohta kogutoodang varud hind naela kohta tootmise väärtus aasta
AL 16000 71 1136000 159000 0.72 818000 1998
AZ 55000 60 3300000 1485000 0.64 2112000 1998
AR 53000 65 3445000 1688000 0.59 2033000 1998
CA 450000 83 37350000 12326000 0.62 23157000 1998
CO 27000 72 1944000 1594000 0.7 1361000 1998
FL 230000 98 22540000 4508000 0.64 14426000 1998

Looge lihtne hajuvusdiagramm, et näidata seost mee hinna naela kohta ja selle päritolu osariigi vahel. Tehke y telg piisavalt kõrge, et kuvada kõik osariigid:

library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
  geom_point(colour = "blue")

hajuvusdiagramm 1

Nüüd näidake samu andmeid mee värviskeemiga, et näidata, kuidas hind aastate jooksul muutub. Seda saate teha, lisades 'scale_color_gradientn' parameetri, et näidata muutust aastate lõikes:

Lisateavet scale_color_gradientn kohta - proovige kaunist vikerkaare värviskeemi!

ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
  geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))

hajuvusdiagramm 2

Selle värviskeemi muutusega näete selgelt tugevat arengut aastate jooksul mee hinna osas naela kohta. Kui vaatate andmestiku näidisosa, näiteks Arizona osariiki, näete aastate lõikes hinnatõusu mustrit, kus on vähe erandeid:

osariik kolooniate arv saagikus koloonia kohta kogutoodang varud hind naela kohta tootmise väärtus aasta
AZ 55000 60 3300000 1485000 0.64 2112000 1998
AZ 52000 62 3224000 1548000 0.62 1999000 1999
AZ 40000 59 2360000 1322000 0.73 1723000 2000
AZ 43000 59 2537000 1142000 0.72 1827000 2001
AZ 38000 63 2394000 1197000 1.08 2586000 2002
AZ 35000 72 2520000 983000 1.34 3377000 2003
AZ 32000 55 1760000 774000 1.11 1954000 2004
AZ 36000 50 1800000 720000 1.04 1872000 2005
AZ 30000 65 1950000 839000 0.91 1775000 2006
AZ 30000 64 1920000 902000 1.26 2419000 2007
AZ 25000 64 1600000 336000 1.26 2016000 2008
AZ 20000 52 1040000 562000 1.45 1508000 2009
AZ 24000 77 1848000 665000 1.52 2809000 2010
AZ 23000 53 1219000 427000 1.55 1889000 2011
AZ 22000 46 1012000 253000 1.79 1811000 2012

Teine viis selle arengu visualiseerimiseks on kasutada värvi asemel suurust. Värvipimedatele kasutajatele võib see olla parem valik. Muutke oma visualiseerimist, et näidata hinnatõusu punktide ümbermõõdu suurenemise kaudu:

ggplot(honey, aes(x = priceperlb, y = state)) +
  geom_point(aes(size = year),colour = "blue") +
  scale_size_continuous(range = c(0.25, 3))

Näete, et punktide suurus suureneb järk-järgult.

hajuvusdiagramm 3

Kas see on lihtne pakkumise ja nõudluse juhtum? Kas kliimamuutuste ja kolooniate kokkuvarisemise tõttu on aastate jooksul vähem mett saadaval, mistõttu hind tõuseb?

Et avastada korrelatsiooni mõnede selle andmestiku muutujate vahel, uurime joondiagramme.

Joondiagrammid

Küsimus: Kas mee hind naela kohta tõuseb aastate lõikes selgelt? Seda saate kõige lihtsamalt avastada, luues ühe joondiagrammi:

qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab = "priceperlb")

Vastus: Jah, mõningate eranditega umbes 2003. aasta paiku:

joondiagramm 1

Küsimus: Kas 2003. aastal näeme ka mee pakkumise kasvu? Mis juhtub, kui vaatate kogutoodangut aastate lõikes?

qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")

joondiagramm 2

Vastus: Mitte päris. Kui vaatate kogutoodangut, tundub, et see tegelikult suurenes sel konkreetsel aastal, kuigi üldiselt mee tootmise kogus väheneb nendel aastatel.

Küsimus: Sel juhul, mis võis põhjustada mee hinna tõusu umbes 2003. aastal?

Selle avastamiseks saate uurida facet grid'i.

Facet grid'id

Facet grid'id võtavad ühe aspekti teie andmestikust (meie puhul saate valida 'aasta', et vältida liiga paljude aspektide loomist). Seaborn saab seejärel teha graafiku iga valitud x- ja y-koordinaadi aspekti kohta, et hõlbustada visuaalset võrdlust. Kas 2003. aasta paistab sellises võrdluses silma?

Looge facet grid, kasutades facet_wrap nagu soovitatud ggplot2 dokumentatsioonis.

ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) + 
  geom_line() + facet_wrap(vars(year))

Selles visualiseerimises saate võrrelda koloonia saagikust ja kolooniate arvu aastate lõikes kõrvuti, kus veergude wrap on seatud 3-le:

facet grid

Selle andmestiku puhul ei paista kolooniate arv ja nende saagikus aastate lõikes ja osariikide lõikes millegi erilisega silma. Kas on olemas teine viis, kuidas leida korrelatsiooni nende kahe muutuja vahel?

Kahe joonega graafikud

Proovige mitmejoonelist graafikut, asetades kaks joondiagrammi üksteise peale, kasutades R-i par ja plot funktsioone. Me joonistame x-teljel aasta ja kuvame kaks y-telge. Kuvage koloonia saagikus ja kolooniate arv üksteise peal:

par(mar = c(5, 4, 4, 4) + 0.3)              
plot(honey$year, honey$numcol, pch = 16, col = 2,type="l")              
par(new = TRUE)                             
plot(honey$year, honey$yieldpercol, pch = 17, col = 3,              
     axes = FALSE, xlab = "", ylab = "",type="l")
axis(side = 4, at = pretty(range(y2)))      
mtext("colony yield", side = 4, line = 3)   

kahe joonega graafik

Kuigi 2003. aasta paiku ei paista midagi silma, võimaldab see meil lõpetada õppetund veidi rõõmsama noodiga: kuigi kolooniate arv on üldiselt vähenemas, stabiliseerub kolooniate arv isegi siis, kui nende saagikus koloonia kohta väheneb.

Edu, mesilased, edu!

🐝❤️

🚀 Väljakutse

Selles õppetükis õppisite veidi rohkem hajuvusdiagrammide ja joondiagrammide, sealhulgas facet grid'ide kasutamise kohta. Esitage endale väljakutse luua facet grid, kasutades mõnda teist andmestikku, võib-olla mõnda, mida kasutasite enne neid õppetunde. Pange tähele, kui kaua nende loomine võtab ja kuidas peate olema ettevaatlik, kui palju grid'e te nende tehnikate abil joonistate.

Järel-loengu viktoriin

Ülevaade ja iseseisev õppimine

Joondiagrammid võivad olla lihtsad või üsna keerukad. Tehke veidi lugemist ggplot2 dokumentatsioonis erinevate viiside kohta, kuidas neid saab ehitada. Proovige täiustada joondiagramme, mida selles õppetükis ehitasite, kasutades dokumentatsioonis loetletud meetodeid.

Ülesanne

Sukeldu mesitarusse


Lahtiütlus:
See dokument on tõlgitud, kasutades AI tõlketeenust Co-op Translator. Kuigi püüame tagada täpsust, palun arvestage, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algkeeles tuleks lugeda autoriteetseks allikaks. Olulise teabe puhul on soovitatav kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valede tõlgenduste eest.