# Bygg en regressionsmodell: f√∂rbered och visualisera data

## **Linj√§r regression f√∂r pumpor - Lektion 2**
#### Introduktion

Nu n√§r du har verktygen du beh√∂ver f√∂r att b√∂rja bygga maskininl√§rningsmodeller med Tidymodels och Tidyverse, √§r du redo att b√∂rja st√§lla fr√•gor till dina data. N√§r du arbetar med data och till√§mpar ML-l√∂sningar √§r det mycket viktigt att f√∂rst√• hur man st√§ller r√§tt fr√•ga f√∂r att verkligen utnyttja potentialen i din dataset.

I den h√§r lektionen kommer du att l√§ra dig:

- Hur du f√∂rbereder dina data f√∂r modellbyggande.

- Hur du anv√§nder `ggplot2` f√∂r datavisualisering.

Fr√•gan du beh√∂ver svar p√• avg√∂r vilken typ av ML-algoritmer du kommer att anv√§nda. Och kvaliteten p√• svaret du f√•r tillbaka kommer att vara starkt beroende av datans natur.

L√•t oss se detta genom att arbeta igenom en praktisk √∂vning.


<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Konstverk av @allison_horst</figcaption>


<!--![Konstverk av \@allison_horst](../../../../../../2-Regression/2-Data/images/unruly_data.jpg)<br>Konstverk av \@allison_horst-->


## 1. Importera pumpadata och kalla p√• Tidyverse

Vi kommer att beh√∂va f√∂ljande paket f√∂r att hantera denna lektion:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) √§r en [samling av R-paket](https://www.tidyverse.org/packages) som √§r utformade f√∂r att g√∂ra datavetenskap snabbare, enklare och roligare!

Du kan installera dem med:

`install.packages(c("tidyverse"))`

Skriptet nedan kontrollerar om du har de paket som kr√§vs f√∂r att slutf√∂ra denna modul och installerar dem √•t dig om n√•gra saknas.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Nu s√§tter vi ig√•ng n√•gra paket och laddar [data](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) som tillhandah√•lls f√∂r denna lektion!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

En snabb `glimpse()` visar direkt att det finns tomma v√§rden och en blandning av str√§ngar (`chr`) och numeriska data (`dbl`). `Date` √§r av typen tecken och det finns ocks√• en m√§rklig kolumn kallad `Package` d√§r datan √§r en blandning av `sacks`, `bins` och andra v√§rden. Datan √§r faktiskt lite av en r√∂ra üò§.

Det √§r faktiskt inte s√§rskilt vanligt att f√• en dataset som √§r helt redo att anv√§ndas f√∂r att skapa en ML-modell direkt. Men oroa dig inte, i denna lektion kommer du att l√§ra dig hur man f√∂rbereder en r√• dataset med hj√§lp av standardbibliotek i R üßë‚Äçüîß. Du kommer ocks√• att l√§ra dig olika tekniker f√∂r att visualisera datan.üìàüìä
<br>

> En p√•minnelse: Pipe-operatorn (`%>%`) utf√∂r operationer i logisk sekvens genom att skicka ett objekt fram√•t in i en funktion eller ett uttryck. Du kan t√§nka p√• pipe-operatorn som att s√§ga "och sedan" i din kod.


## 2. Kontrollera f√∂r saknade data

Ett av de vanligaste problemen som dataanalytiker m√•ste hantera √§r ofullst√§ndig eller saknad data. R representerar saknade eller ok√§nda v√§rden med ett speciellt sentinelv√§rde: `NA` (Not Available).

S√• hur kan vi veta att dataframen inneh√•ller saknade v√§rden?
<br>
-   Ett direkt s√§tt skulle vara att anv√§nda R:s inbyggda funktion `anyNA`, som returnerar de logiska objekten `TRUE` eller `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

Bra, det verkar som att det saknas viss data! Det √§r en bra utg√•ngspunkt.

-   Ett annat s√§tt skulle vara att anv√§nda funktionen `is.na()` som visar vilka enskilda kolumnelement som saknas med ett logiskt v√§rde `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Okej, jobbet √§r klart men med en s√• stor dataram som denna skulle det vara ineffektivt och praktiskt taget om√∂jligt att granska alla rader och kolumner individuelltüò¥.

-   Ett mer intuitivt s√§tt skulle vara att ber√§kna summan av de saknade v√§rdena f√∂r varje kolumn:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Mycket b√§ttre! Det saknas data, men kanske spelar det ingen roll f√∂r uppgiften. L√•t oss se vad vidare analys ger.

> Tillsammans med de fantastiska upps√§ttningarna av paket och funktioner har R en mycket bra dokumentation. Till exempel, anv√§nd `help(colSums)` eller `?colSums` f√∂r att ta reda p√• mer om funktionen.


## 3. Dplyr: En grammatik f√∂r datamanipulation

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Konstverk av @allison_horst</figcaption>


<!--![Konstverk av \@allison_horst](../../../../../../2-Regression/2-Data/images/dplyr_wrangling.png)<br/>Konstverk av \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), ett paket i Tidyverse, √§r en grammatik f√∂r datamanipulation som erbjuder en konsekvent upps√§ttning verb som hj√§lper dig att l√∂sa de vanligaste utmaningarna inom datamanipulation. I det h√§r avsnittet ska vi utforska n√•gra av dplyrs verb!  
<br>


#### dplyr::select()

`select()` √§r en funktion i paketet `dplyr` som hj√§lper dig att v√§lja vilka kolumner du vill beh√•lla eller exkludera.

F√∂r att g√∂ra din data frame enklare att arbeta med, ta bort flera av dess kolumner med hj√§lp av `select()` och beh√•ll endast de kolumner du beh√∂ver.

Till exempel, i denna √∂vning kommer v√•r analys att involvera kolumnerna `Package`, `Low Price`, `High Price` och `Date`. L√•t oss v√§lja dessa kolumner.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` √§r en funktion i paketet `dplyr` som hj√§lper dig att skapa eller √§ndra kolumner, samtidigt som de befintliga kolumnerna beh√•lls.

Den generella strukturen f√∂r mutate √§r:

`data %>%   mutate(new_column_name = what_it_contains)`

L√•t oss testa `mutate` med hj√§lp av kolumnen `Date` genom att utf√∂ra f√∂ljande operationer:

1.  Konvertera datumen (som f√∂r n√§rvarande √§r av typen tecken) till ett m√•nadsformat (det h√§r √§r amerikanska datum, s√• formatet √§r `MM/DD/YYYY`).

2.  Extrahera m√•naden fr√•n datumen till en ny kolumn.

I R g√∂r paketet [lubridate](https://lubridate.tidyverse.org/) det enklare att arbeta med datum- och tidsdata. S√• l√•t oss anv√§nda `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` och se hur vi kan uppn√• ovanst√•ende m√•l. Vi kan ta bort kolumnen Date eftersom vi inte kommer att beh√∂va den igen i efterf√∂ljande operationer.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Woohoo! ü§©

Nu ska vi skapa en ny kolumn `Price`, som representerar det genomsnittliga priset p√• en pumpa. L√•t oss nu ta genomsnittet av kolumnerna `Low Price` och `High Price` f√∂r att fylla i den nya kolumnen Price.
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Jaaa!üí™

"Men v√§nta lite!", s√§ger du efter att ha skummat igenom hela datasettet med `View(pumpkins)`, "Det √§r n√•got konstigt h√§r!"ü§î

Om du tittar p√• kolumnen `Package`, s√§ljs pumpor i m√•nga olika konfigurationer. Vissa s√§ljs i m√•tt som `1 1/9 bushel`, andra i `1/2 bushel`, n√•gra per pumpa, n√•gra per pund, och vissa i stora l√•dor med varierande bredder.

L√•t oss kontrollera detta:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Fantastiskt!üëè

Pumpor verkar vara v√§ldigt sv√•ra att v√§ga konsekvent, s√• l√•t oss filtrera dem genom att v√§lja endast pumpor med str√§ngen *bushel* i kolumnen `Package` och l√§gga detta i en ny data frame `new_pumpkins`.


#### dplyr::filter() och stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): skapar en delm√§ngd av data som endast inneh√•ller **rader** som uppfyller dina villkor, i detta fall pumpor med str√§ngen *bushel* i kolumnen `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): identifierar f√∂rekomsten eller fr√•nvaron av ett m√∂nster i en str√§ng.

Paketet [`stringr`](https://github.com/tidyverse/stringr) erbjuder enkla funktioner f√∂r vanliga str√§ngoperationer.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Du kan se att vi har begr√§nsat oss till ungef√§r 415 rader med data som inneh√•ller pumpor i sk√§ppor.ü§©  
<br>


#### dplyr::case_when()

**Men v√§nta! Det finns en sak till att g√∂ra**

M√§rkte du att m√§ngden per sk√§ppa varierar per rad? Du beh√∂ver normalisera priss√§ttningen s√• att du visar priset per sk√§ppa, inte per 1 1/9 eller 1/2 sk√§ppa. Dags att g√∂ra lite matematik f√∂r att standardisera det.

Vi kommer att anv√§nda funktionen [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) f√∂r att *mutera* kolumnen Price beroende p√• vissa villkor. `case_when` g√∂r det m√∂jligt att vektorisera flera `if_else()`-satser.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Nu kan vi analysera priset per enhet baserat p√• deras m√•tt i bushels. All denna unders√∂kning av pumpors bushels visar dock hur `viktigt` det √§r att `f√∂rst√• din datas natur`!

> ‚úÖ Enligt [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) beror en bushels vikt p√• typen av gr√∂da, eftersom det √§r en volymm√§tning. "En bushel tomater, till exempel, ska v√§ga 56 pund... Blad och gr√∂na tar upp mer plats med mindre vikt, s√• en bushel spenat v√§ger bara 20 pund." Det √§r ganska komplicerat! L√•t oss inte bry oss om att g√∂ra en omvandling fr√•n bushel till pund, utan ist√§llet priss√§tta per bushel. All denna unders√∂kning av pumpors bushels visar dock hur viktigt det √§r att f√∂rst√• din datas natur!
>
> ‚úÖ Lade du m√§rke till att pumpor som s√§ljs per halv-bushel √§r v√§ldigt dyra? Kan du lista ut varf√∂r? Tips: sm√• pumpor √§r mycket dyrare √§n stora, antagligen eftersom det finns s√• m√•nga fler av dem per bushel, med tanke p√• det outnyttjade utrymmet som en stor ih√•lig pajpumpa tar upp.


Nu slutligen, f√∂r √§ventyrets skull üíÅ‚Äç‚ôÄÔ∏è, l√•t oss ocks√• flytta kolumnen M√•nad till f√∂rsta positionen, dvs `f√∂re` kolumnen `Paket`.

`dplyr::relocate()` anv√§nds f√∂r att √§ndra kolumnpositioner.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Bra jobbat! üëå Du har nu ett rent och prydligt dataset som du kan anv√§nda f√∂r att bygga din nya regressionsmodell!  
<br>


## 4. Datavisualisering med ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografik av Dasani Madipalli</figcaption>


<!--![Infografik av Dasani Madipalli](../../../../../../2-Regression/2-Data/images/data-visualization.png){width="600"}-->

Det finns ett *klokt* ordspr√•k som lyder s√• h√§r:

> "Den enkla grafen har f√∂rt mer information till dataanalytikerns sinne √§n n√•gon annan metod." --- John Tukey

En del av dataforskarens roll √§r att visa kvaliteten och karakt√§ren hos de data de arbetar med. F√∂r att g√∂ra detta skapar de ofta intressanta visualiseringar, eller diagram, grafer och tabeller, som visar olika aspekter av data. P√• s√• s√§tt kan de visuellt visa relationer och luckor som annars √§r sv√•ra att uppt√§cka.

Visualiseringar kan ocks√• hj√§lpa till att avg√∂ra vilken maskininl√§rningsteknik som √§r mest l√§mplig f√∂r datan. Ett spridningsdiagram som verkar f√∂lja en linje, till exempel, indikerar att datan √§r en bra kandidat f√∂r en linj√§r regressionsanalys.

R erbjuder flera system f√∂r att skapa grafer, men [`ggplot2`](https://ggplot2.tidyverse.org/index.html) √§r ett av de mest eleganta och m√•ngsidiga. `ggplot2` g√∂r det m√∂jligt att skapa grafer genom att **kombinera oberoende komponenter**.

L√•t oss b√∂rja med ett enkelt spridningsdiagram f√∂r kolumnerna Price och Month.

I det h√§r fallet b√∂rjar vi med [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), tillhandah√•ller en dataset och estetisk mappning (med [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) och l√§gger sedan till lager (som [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) f√∂r spridningsdiagram.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

√Ñr detta en anv√§ndbar graf ü§∑? √Ñr det n√•got med den som f√∂rv√•nar dig?

Den √§r inte s√§rskilt anv√§ndbar eftersom allt den g√∂r √§r att visa dina data som en spridning av punkter under en viss m√•nad.
<br>


### **Hur g√∂r vi det anv√§ndbart?**

F√∂r att f√• diagram att visa anv√§ndbar data beh√∂ver du oftast gruppera datan p√• n√•got s√§tt. Till exempel, i v√•rt fall skulle det ge mer insikt i de underliggande m√∂nstren i v√•r data om vi hittar det genomsnittliga priset p√• pumpor f√∂r varje m√•nad. Detta leder oss till √§nnu en snabbgenomg√•ng av **dplyr**:

#### `dplyr::group_by() %>% summarize()`

Grupperad aggregering i R kan enkelt ber√§knas med

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` √§ndrar analysenheten fr√•n hela datasetet till individuella grupper, som per m√•nad.

-   `dplyr::summarize()` skapar en ny dataram med en kolumn f√∂r varje grupperingsvariabel och en kolumn f√∂r varje sammanfattningsstatistik som du har specificerat.

Till exempel kan vi anv√§nda `dplyr::group_by() %>% summarize()` f√∂r att gruppera pumporna i grupper baserade p√• **Month**-kolumnen och sedan hitta **medelpriset** f√∂r varje m√•nad.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Kategoriska funktioner, s√•som m√•nader, representeras b√§st med ett stapeldiagram üìä. De lager som anv√§nds f√∂r stapeldiagram √§r `geom_bar()` och `geom_col()`. Konsultera `?geom_bar` f√∂r att l√§ra dig mer.

L√•t oss skapa ett!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§©Det h√§r √§r en mer anv√§ndbar datavisualisering! Det verkar indikera att det h√∂gsta priset f√∂r pumpor intr√§ffar i september och oktober. St√§mmer det med dina f√∂rv√§ntningar? Varf√∂r eller varf√∂r inte?

Grattis till att ha avslutat den andra lektionen üëè! Du f√∂rberedde dina data f√∂r modellbyggande och uppt√§ckte sedan fler insikter med hj√§lp av visualiseringar!



---

**Ansvarsfriskrivning**:  
Detta dokument har √∂versatts med hj√§lp av AI-√∂vers√§ttningstj√§nsten [Co-op Translator](https://github.com/Azure/co-op-translator). √Ñven om vi str√§var efter noggrannhet, v√§nligen notera att automatiska √∂vers√§ttningar kan inneh√•lla fel eller felaktigheter. Det ursprungliga dokumentet p√• sitt ursprungliga spr√•k b√∂r betraktas som den auktoritativa k√§llan. F√∂r kritisk information rekommenderas professionell m√§nsklig √∂vers√§ttning. Vi ansvarar inte f√∂r eventuella missf√∂rst√•nd eller feltolkningar som uppst√•r vid anv√§ndning av denna √∂vers√§ttning.
