# Rakenna regressiomalli: valmistele ja visualisoi data

## **Lineaarinen regressio kurpitsoille - Oppitunti 2**
#### Johdanto

Nyt kun sinulla on k√§yt√∂ss√§si ty√∂kalut koneoppimismallien rakentamiseen Tidymodelsin ja Tidyversen avulla, olet valmis aloittamaan kysymysten esitt√§misen datallesi. Kun ty√∂skentelet datan kanssa ja sovellat koneoppimisratkaisuja, on eritt√§in t√§rke√§√§ ymm√§rt√§√§, miten esitt√§√§ oikea kysymys, jotta voit hy√∂dynt√§√§ datasetti√§si parhaalla mahdollisella tavalla.

T√§ss√§ oppitunnissa opit:

-   Kuinka valmistella data mallin rakentamista varten.

-   Kuinka k√§ytt√§√§ `ggplot2`:ta datan visualisointiin.

Kysymys, johon tarvitset vastauksen, m√§√§ritt√§√§, millaisia koneoppimisalgoritmeja k√§yt√§t. Ja saamasi vastauksen laatu riippuu vahvasti datasi luonteesta.

Katsotaanpa t√§t√§ k√§yt√§nn√∂n harjoituksen avulla.

<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Taiteilija: @allison_horst</figcaption>


<!--![Taiteilija: \@allison_horst](../../../../../../2-Regression/2-Data/images/unruly_data.jpg)<br>Taiteilija: \@allison_horst-->


## 1. Kurpitsadatan tuonti ja Tidyversen k√§ytt√∂√∂notto

Tarvitsemme seuraavat paketit t√§m√§n oppitunnin k√§sittelyyn:

-   `tidyverse`: [Tidyverse](https://www.tidyverse.org/) on [kokoelma R-paketteja](https://www.tidyverse.org/packages), jotka on suunniteltu tekem√§√§n datatieteest√§ nopeampaa, helpompaa ja hauskempaa!

Voit asentaa ne seuraavasti:

`install.packages(c("tidyverse"))`

Alla oleva skripti tarkistaa, onko sinulla tarvittavat paketit t√§m√§n moduulin suorittamiseen, ja asentaa puuttuvat paketit puolestasi.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Nyt otetaan k√§ytt√∂√∂n joitakin paketteja ja ladataan [data](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv), joka on tarjolla t√§t√§ oppituntia varten!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Pikainen `glimpse()` paljastaa heti, ett√§ datassa on tyhji√§ arvoja sek√§ merkkijonojen (`chr`) ja numeeristen tietojen (`dbl`) sekoitus. `Date`-sarake on merkkijonotyyppi√§, ja mukana on my√∂s outo sarake nimelt√§ `Package`, jossa tiedot vaihtelevat `sacks`, `bins` ja muiden arvojen v√§lill√§. Data on itse asiassa melko sekavaa üò§.

Onkin melko harvinaista saada datasetti, joka olisi t√§ysin valmis k√§ytett√§v√§ksi ML-mallin luomiseen suoraan sellaisenaan. Mutta ei h√§t√§√§, t√§ss√§ oppitunnissa opit, kuinka raakadataa valmistellaan k√§ytt√§en R:n vakiokirjastoja üßë‚Äçüîß. Opit my√∂s erilaisia tekniikoita datan visualisointiin. üìàüìä
<br>

> Kertauksena: Pipe-operaattori (`%>%`) suorittaa operaatioita loogisessa j√§rjestyksess√§ siirt√§m√§ll√§ objektin eteenp√§in funktioon tai kutsulausekkeeseen. Voit ajatella pipe-operaattorin tarkoittavan koodissasi "ja sitten".


## 2. Tarkista puuttuvat tiedot

Yksi yleisimmist√§ ongelmista, joita datatieteilij√§t kohtaavat, on puutteelliset tai puuttuvat tiedot. R edustaa puuttuvia tai tuntemattomia arvoja erityisell√§ tunnusarvolla: `NA` (Not Available).

Miten voisimme tiet√§√§, ett√§ data frame sis√§lt√§√§ puuttuvia arvoja?
<br>
-   Yksi suoraviivainen tapa olisi k√§ytt√§√§ R:n perustoimintoa `anyNA`, joka palauttaa loogiset objektit `TRUE` tai `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

Hienoa, n√§ytt√§√§ silt√§, ett√§ joitakin tietoja puuttuu! Se on hyv√§ paikka aloittaa.

-   Toinen tapa olisi k√§ytt√§√§ funktiota `is.na()`, joka osoittaa, mitk√§ yksitt√§iset sarake-elementit puuttuvat loogisella arvolla `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Okei, teht√§v√§ hoidettu, mutta n√§in suuren tietokehyksen kohdalla olisi tehotonta ja k√§yt√§nn√∂ss√§ mahdotonta k√§yd√§ l√§pi kaikkia rivej√§ ja sarakkeita yksitellenüò¥.

-   Intuitiivisempi tapa olisi laskea puuttuvien arvojen summa kullekin sarakkeelle:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Paljon parempi! Joitakin tietoja puuttuu, mutta ehk√§ sill√§ ei ole merkityst√§ teht√§v√§n kannalta. Katsotaan, mit√§ lis√§analyysi tuo tullessaan.

> R:ll√§ on erinomainen dokumentaatio mahtavien pakettien ja funktioiden lis√§ksi. Esimerkiksi, k√§yt√§ `help(colSums)` tai `?colSums` saadaksesi lis√§tietoja funktiosta.


## 3. Dplyr: Tiedon k√§sittelyn kielioppi

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Taiteilija: @allison_horst</figcaption>


<!--![Taiteilija: \@allison_horst](../../../../../../2-Regression/2-Data/images/dplyr_wrangling.png)<br/>Taiteilija: \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), Tidyversen paketti, on datan k√§sittelyn kielioppi, joka tarjoaa yhten√§isen joukon verbej√§ auttamaan yleisimpien datan k√§sittelyhaasteiden ratkaisemisessa. T√§ss√§ osiossa tutustumme joihinkin dplyr:n verbeihin!  
<br>


#### dplyr::select()

`select()` on `dplyr`-paketin funktio, joka auttaa valitsemaan sarakkeita s√§ilytett√§v√§ksi tai poistettavaksi.

Jotta tietokehyst√§si olisi helpompi k√§sitell√§, poista useita sen sarakkeita k√§ytt√§m√§ll√§ `select()`-funktiota ja s√§ilyt√§ vain tarvitsemasi sarakkeet.

Esimerkiksi t√§ss√§ harjoituksessa analyysimme keskittyy sarakkeisiin `Package`, `Low Price`, `High Price` ja `Date`. Valitaan n√§m√§ sarakkeet.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` on `dplyr`-paketin funktio, joka auttaa luomaan tai muokkaamaan sarakkeita s√§ilytt√§en olemassa olevat sarakkeet.

`mutate`-funktion yleinen rakenne on:

`data %>%   mutate(new_column_name = what_it_contains)`

Kokeillaan `mutate`-funktiota k√§ytt√§m√§ll√§ `Date`-saraketta ja tehd√§√§n seuraavat toimenpiteet:

1. Muutetaan p√§iv√§m√§√§r√§t (jotka ovat t√§ll√§ hetkell√§ merkkijonoja) kuukausimuotoon (n√§m√§ ovat Yhdysvaltain p√§iv√§m√§√§ri√§, joten muoto on `MM/DD/YYYY`).

2. Poimitaan kuukausi p√§iv√§m√§√§rist√§ uuteen sarakkeeseen.

R:ss√§ [lubridate](https://lubridate.tidyverse.org/)-paketti helpottaa p√§iv√§m√§√§r√§- ja aikadatan k√§sittely√§. K√§ytet√§√§n siis `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` ja katsotaan, miten yll√§ olevat tavoitteet saavutetaan. Voimme poistaa Date-sarakkeen, koska emme tarvitse sit√§ en√§√§ my√∂hemmiss√§ toimenpiteiss√§.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Jee! ü§©

Seuraavaksi luodaan uusi sarake `Price`, joka edustaa kurpitsan keskim√§√§r√§ist√§ hintaa. Lasketaan nyt `Low Price`- ja `High Price` -sarakkeiden keskiarvo, jotta saadaan t√§ytetty√§ uusi Price-sarake.
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Jep!üí™

"Mutta hetkinen!", sanot selailtuasi koko aineiston `View(pumpkins)`-komennolla, "T√§ss√§ on jotain outoa!"ü§î

Jos katsot `Package`-saraketta, kurpitsat myyd√§√§n monissa eri muodoissa. Joitakin myyd√§√§n `1 1/9 bushel` -yksik√∂iss√§, toisia `1/2 bushel` -yksik√∂iss√§, joitakin kappaleittain, joitakin painon mukaan ja joitakin suurissa laatikoissa, joiden leveydet vaihtelevat.

Varmistetaan t√§m√§:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Upeaa!üëè

Kurpitsojen punnitseminen tasaisesti n√§ytt√§√§ olevan todella haastavaa, joten suodatetaan niit√§ valitsemalla vain kurpitsat, joiden `Package`-sarakkeessa on merkkijono *bushel*, ja tallennetaan t√§m√§ uuteen tietokehykseen `new_pumpkins`.


#### dplyr::filter() ja stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): luo datasta alijoukon, joka sis√§lt√§√§ vain **rivit**, jotka t√§ytt√§v√§t ehtosi, t√§ss√§ tapauksessa kurpitsat, joiden `Package`-sarake sis√§lt√§√§ merkkijonon *bushel*.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): tunnistaa, esiintyyk√∂ jokin kuvio merkkijonossa vai ei.

[`stringr`](https://github.com/tidyverse/stringr)-paketti tarjoaa yksinkertaisia funktioita yleisiin merkkijono-operaatioihin.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Voit n√§hd√§, ett√§ olemme rajanneet noin 415 riviin dataa, joka sis√§lt√§√§ kurpitsoja tynnyrillisin√§.ü§©  
<br>


#### dplyr::case_when()

**Mutta odota! Viel√§ yksi asia teht√§v√§n√§**

Huomasitko, ett√§ korim√§√§r√§ vaihtelee rivikohtaisesti? Sinun t√§ytyy normalisoida hinnoittelu niin, ett√§ n√§yt√§t hinnan per kori, ei per 1 1/9 tai 1/2 kori. On aika tehd√§ hieman matematiikkaa standardisoinnin vuoksi.

K√§yt√§mme funktiota [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) *muuttaaksemme* Price-saraketta tiettyjen ehtojen mukaan. `case_when` mahdollistaa useiden `if_else()`-lauseiden vektorisoinnin.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Nyt voimme analysoida yksikk√∂hinnan perustuen niiden mittaukseen bushel-mitoilla. Kaikki t√§m√§ kurpitsabushelien tutkiminen kuitenkin osoittaa, kuinka `t√§rke√§√§` on `ymm√§rt√§√§ datasi luonne`!

> ‚úÖ [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) -sivuston mukaan bushelin paino riippuu tuotteen tyypist√§, koska se on tilavuusmitta. "Esimerkiksi tomaattibushelin pit√§isi painaa 56 paunaa... Lehdet ja vihre√§t viev√§t enemm√§n tilaa mutta painavat v√§hemm√§n, joten pinaattibushel painaa vain 20 paunaa." T√§m√§ on aika monimutkaista! Ei vaivauduta tekem√§√§n bushelista paunoihin -muunnosta, vaan hinnoitellaan bushelin mukaan. Kaikki t√§m√§ kurpitsabushelien tutkiminen kuitenkin osoittaa, kuinka t√§rke√§√§ on ymm√§rt√§√§ datasi luonne!
>
> ‚úÖ Huomasitko, ett√§ puolibushelilla myydyt kurpitsat ovat todella kalliita? Voitko selvitt√§√§ miksi? Vinkki: pienet kurpitsat ovat paljon kalliimpia kuin isot, luultavasti siksi, ett√§ niit√§ on bushelissa paljon enemm√§n, kun yksi iso ontto piirakkakurpitsa vie k√§ytt√§m√§t√∂nt√§ tilaa.


Nyt viimeiseksi, seikkailun vuoksi üíÅ‚Äç‚ôÄÔ∏è, siirret√§√§n Kuukausi-sarake ensimm√§iseksi eli `ennen` saraketta `Paketti`.

`dplyr::relocate()` -funktiota k√§ytet√§√§n sarakkeiden sijainnin muuttamiseen.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Hyv√§√§ ty√∂t√§!üëå Sinulla on nyt siisti ja j√§rjestelm√§llinen aineisto, jonka pohjalta voit rakentaa uuden regressiomallisi!
<br>


## 4. Datavisualisointi ggplot2:lla

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografiikka: Dasani Madipalli</figcaption>


<!--![Infografiikka: Dasani Madipalli](../../../../../../2-Regression/2-Data/images/data-visualization.png){width="600"}-->

On olemassa *viisas* sanonta, joka kuuluu n√§in:

> "Yksinkertainen kaavio on tuonut enemm√§n tietoa data-analyytikon mieleen kuin mik√§√§n muu v√§line." --- John Tukey

Osana data-analyytikon ty√∂t√§ on osoittaa datan laatu ja luonne, jonka parissa he ty√∂skentelev√§t. T√§t√§ varten he usein luovat kiinnostavia visualisointeja, kuten kaavioita, graafeja ja diagrammeja, jotka esitt√§v√§t datan eri puolia. N√§in he voivat visuaalisesti n√§ytt√§√§ suhteita ja aukkoja, jotka muuten olisivat vaikeasti havaittavissa.

Visualisoinnit voivat my√∂s auttaa m√§√§ritt√§m√§√§n, mik√§ koneoppimistekniikka sopii parhaiten datalle. Esimerkiksi hajontakaavio, joka n√§ytt√§√§ seuraavan suoraa linjaa, viittaa siihen, ett√§ data sopii hyvin lineaarisen regressioharjoituksen kohteeksi.

R tarjoaa useita j√§rjestelmi√§ graafien luomiseen, mutta [`ggplot2`](https://ggplot2.tidyverse.org/index.html) on yksi tyylikk√§immist√§ ja monipuolisimmista. `ggplot2` mahdollistaa graafien koostamisen **yhdist√§m√§ll√§ itsen√§isi√§ komponentteja**.

Aloitetaan yksinkertaisella hajontakaaviolla, joka kuvaa Price- ja Month-sarakkeita.

T√§ss√§ tapauksessa aloitamme [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html)-funktiolla, annamme sille datasetin ja esteettisen kartoituksen (k√§ytt√§en [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) ja lis√§√§mme kerroksia (kuten [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) hajontakaavioita varten.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Onko t√§m√§ hy√∂dyllinen kaavio ü§∑? Yll√§tt√§√§k√∂ siin√§ jokin sinua?

Se ei ole erityisen hy√∂dyllinen, sill√§ se vain n√§ytt√§√§ tietosi pistejoukkona tietyn kuukauden aikana.
<br>


### **Kuinka teemme siit√§ hy√∂dyllisen?**

Jotta kaaviot n√§ytt√§isiv√§t hy√∂dyllist√§ dataa, sinun t√§ytyy yleens√§ ryhmitell√§ data jollain tavalla. Esimerkiksi meid√§n tapauksessamme, keskim√§√§r√§isen kurpitsan hinnan l√∂yt√§minen kuukausittain antaisi enemm√§n tietoa datamme taustalla olevista kuvioista. T√§m√§ johdattaa meid√§t yhteen **dplyr**-pikakatsaukseen:

#### `dplyr::group_by() %>% summarize()`

R:ss√§ ryhmitelty aggregointi voidaan helposti laskea k√§ytt√§m√§ll√§

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` muuttaa analyysin yksik√∂n koko datasetist√§ yksitt√§isiin ryhmiin, kuten kuukausittain.

-   `dplyr::summarize()` luo uuden dataframen, jossa on yksi sarake kutakin ryhmittelymuuttujaa varten ja yksi sarake kutakin m√§√§rittelem√§√§si yhteenvetotilastoa varten.

Esimerkiksi voimme k√§ytt√§√§ `dplyr::group_by() %>% summarize()` ryhmitell√§ksemme kurpitsat **Kuukausi**-sarakkeen perusteella ja sitten laskea **keskim√§√§r√§isen hinnan** kullekin kuukaudelle.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Ytimekk√§√§sti!‚ú®

Kategoriset ominaisuudet, kuten kuukaudet, esitet√§√§n paremmin pylv√§sdiagrammin avulla üìä. Pylv√§sdiagrammeista vastaavat kerrokset ovat `geom_bar()` ja `geom_col()`. Katso `?geom_bar` saadaksesi lis√§tietoja.

Tehd√§√§n yksi!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§©T√§m√§ on hy√∂dyllisempi datavisualisointi! N√§ytt√§√§ silt√§, ett√§ kurpitsojen korkein hinta esiintyy syys- ja lokakuussa. Vastaako t√§m√§ odotuksiasi? Miksi tai miksi ei?

Onnittelut toisen oppitunnin suorittamisesta üëè! Valmistelit datasi mallin rakentamista varten ja l√∂ysit lis√§√§ oivalluksia visualisointien avulla!



---

**Vastuuvapauslauseke**:  
T√§m√§ asiakirja on k√§√§nnetty k√§ytt√§m√§ll√§ teko√§lypohjaista k√§√§nn√∂spalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Pyrimme tarkkuuteen, mutta huomioithan, ett√§ automaattiset k√§√§nn√∂kset voivat sis√§lt√§√§ virheit√§ tai ep√§tarkkuuksia. Alkuper√§ist√§ asiakirjaa sen alkuper√§isell√§ kielell√§ tulee pit√§√§ ensisijaisena l√§hteen√§. Kriittisen tiedon osalta suositellaan ammattimaista ihmisk√§√§nt√§mist√§. Emme ole vastuussa v√§√§rink√§sityksist√§ tai virhetulkinnoista, jotka johtuvat t√§m√§n k√§√§nn√∂ksen k√§yt√∂st√§.
