# Bygg en regresjonsmodell: forbered og visualiser data

## **Line√¶r regresjon for gresskar - Leksjon 2**
#### Introduksjon

N√• som du har verkt√∏yene du trenger for √• begynne √• bygge maskinl√¶ringsmodeller med Tidymodels og Tidyverse, er du klar til √• begynne √• stille sp√∏rsm√•l til dataene dine. N√•r du jobber med data og bruker ML-l√∏sninger, er det sv√¶rt viktig √• forst√• hvordan du stiller de riktige sp√∏rsm√•lene for √• virkelig utnytte potensialet i datasettet ditt.

I denne leksjonen vil du l√¶re:

- Hvordan forberede dataene dine for modellbygging.

- Hvordan bruke `ggplot2` til datavisualisering.

Sp√∏rsm√•let du √∏nsker svar p√•, vil avgj√∏re hvilken type ML-algoritmer du vil bruke. Og kvaliteten p√• svaret du f√•r, vil i stor grad avhenge av kvaliteten p√• dataene dine.

La oss se p√• dette gjennom en praktisk √∏velse.


<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Kunstverk av @allison_horst</figcaption>


<!--![Kunstverk av \@allison_horst](../../../../../../2-Regression/2-Data/images/unruly_data.jpg)<br>Kunstverk av \@allison_horst-->


## 1. Importere data om gresskar og tilkalle Tidyverse

Vi trenger f√∏lgende pakker for √• bearbeide og analysere denne leksjonen:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling av R-pakker](https://www.tidyverse.org/packages) som er laget for √• gj√∏re datavitenskap raskere, enklere og morsommere!

Du kan installere dem slik:

`install.packages(c("tidyverse"))`

Skriptet nedenfor sjekker om du har de n√∏dvendige pakkene for √• fullf√∏re dette modulen, og installerer dem for deg hvis noen mangler.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

N√•, la oss fyre opp noen pakker og laste inn [data](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) som er gitt for denne leksjonen!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

En rask `glimpse()` viser umiddelbart at det finnes tomme verdier og en blanding av strenger (`chr`) og numeriske data (`dbl`). `Date` er av typen karakter, og det finnes ogs√• en merkelig kolonne kalt `Package` hvor dataene er en blanding av `sacks`, `bins` og andre verdier. Dataene er, √¶rlig talt, litt av et rot üò§.

Det er faktisk ikke veldig vanlig √• f√• et datasett som er helt klart til bruk for √• lage en ML-modell rett ut av boksen. Men fortvil ikke, i denne leksjonen vil du l√¶re hvordan du kan klargj√∏re et r√•datasett ved hjelp av standard R-biblioteker üßë‚Äçüîß. Du vil ogs√• l√¶re ulike teknikker for √• visualisere dataene. üìàüìä
<br>

> En oppfriskning: Pipe-operatoren (`%>%`) utf√∏rer operasjoner i logisk rekkef√∏lge ved √• sende et objekt videre inn i en funksjon eller et uttrykk. Du kan tenke p√• pipe-operatoren som √• si "og s√•" i koden din.


## 2. Sjekk etter manglende data

En av de vanligste utfordringene dataforskere m√• h√•ndtere er ufullstendige eller manglende data. R representerer manglende eller ukjente verdier med en spesiell sentinel-verdi: `NA` (Not Available).

S√• hvordan kan vi finne ut om datasettet inneholder manglende verdier?  
<br>
-   En enkel m√•te er √• bruke base R-funksjonen `anyNA`, som returnerer de logiske verdiene `TRUE` eller `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

Flott, det ser ut til √• mangle noen data! Det er et godt sted √• starte.

-   En annen m√•te er √• bruke funksjonen `is.na()` som viser hvilke individuelle kolonneelementer som mangler ved √• returnere en logisk `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Ok, jobben er gjort, men med en s√• stor dataramme som dette, ville det v√¶rt ineffektivt og praktisk talt umulig √• g√• gjennom alle radene og kolonnene individueltüò¥.

-   En mer intuitiv m√•te ville v√¶re √• beregne summen av de manglende verdiene for hver kolonne:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Mye bedre! Det mangler data, men kanskje det ikke vil ha betydning for oppgaven. La oss se hva videre analyse bringer frem.

> Sammen med de fantastiske pakkene og funksjonene, har R veldig god dokumentasjon. For eksempel, bruk `help(colSums)` eller `?colSums` for √• finne ut mer om funksjonen.


## 3. Dplyr: En grammatikk for datamanipulering

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Illustrasjon av @allison_horst</figcaption>


<!--![Illustrasjon av \@allison_horst](../../../../../../2-Regression/2-Data/images/dplyr_wrangling.png)<br/>Illustrasjon av \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), en pakke i Tidyverse, er en grammatikk for datamanipulering som tilbyr et konsistent sett med verb som hjelper deg med √• l√∏se de vanligste utfordringene innen datamanipulering. I denne delen skal vi utforske noen av dplyr sine verb!
<br>


#### dplyr::select()

`select()` er en funksjon i pakken `dplyr` som hjelper deg med √• velge kolonner du vil beholde eller utelate.

For √• gj√∏re datarammen din enklere √• jobbe med, fjern flere av kolonnene ved √• bruke `select()`, og behold kun de kolonnene du trenger.

For eksempel, i denne √∏velsen vil analysen v√•r involvere kolonnene `Package`, `Low Price`, `High Price` og `Date`. La oss velge disse kolonnene.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` er en funksjon i pakken `dplyr` som hjelper deg med √• lage eller endre kolonner, samtidig som de eksisterende kolonnene beholdes.

Den generelle strukturen for mutate er:

`data %>%   mutate(new_column_name = what_it_contains)`

La oss pr√∏ve `mutate` ved √• bruke `Date`-kolonnen og utf√∏re f√∏lgende operasjoner:

1. Konverter datoene (som for √∏yeblikket er av typen karakter) til et m√•nedsformat (disse er amerikanske datoer, s√• formatet er `MM/DD/YYYY`).

2. Ekstraher m√•neden fra datoene til en ny kolonne.

I R gj√∏r pakken [lubridate](https://lubridate.tidyverse.org/) det enklere √• jobbe med dato- og tidsdata. S√• la oss bruke `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` og se hvordan vi kan oppn√• de ovennevnte m√•lene. Vi kan fjerne Date-kolonnen siden vi ikke vil trenge den igjen i senere operasjoner.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Woohoo! ü§©

La oss n√• opprette en ny kolonne `Price`, som representerer gjennomsnittsprisen p√• et gresskar. N√• skal vi ta gjennomsnittet av kolonnene `Low Price` og `High Price` for √• fylle ut den nye kolonnen Price.
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Jaaa!üí™

"Men vent litt!", sier du etter √• ha skummet gjennom hele datasettet med `View(pumpkins)`, "Det er noe rart her!"ü§î

Hvis du ser p√• `Package`-kolonnen, blir gresskar solgt i mange forskjellige konfigurasjoner. Noen selges i `1 1/9 bushel`-m√•l, noen i `1/2 bushel`-m√•l, noen per gresskar, noen per pund, og noen i store bokser med varierende bredder.

La oss bekrefte dette:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Fantastisk!üëè

Gresskar ser ut til √• v√¶re veldig vanskelige √• veie konsekvent, s√• la oss filtrere dem ved √• velge kun gresskar med strengen *bushel* i `Package`-kolonnen og legge dette i en ny data frame `new_pumpkins`.


#### dplyr::filter() og stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): lager et delsett av dataene som kun inneholder **rader** som oppfyller dine betingelser, i dette tilfellet gresskar med strengen *bushel* i `Package`-kolonnen.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): oppdager tilstedev√¶relsen eller frav√¶ret av et m√∏nster i en streng.

[`stringr`](https://github.com/tidyverse/stringr)-pakken gir enkle funksjoner for vanlige operasjoner med strenger.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Du kan se at vi har snevret det ned til rundt 415 rader med data som inneholder gresskar i store mengder.ü§©  
<br>


#### dplyr::case_when()

**Men vent! Det er √©n ting til √• gj√∏re**

La du merke til at mengden per skjeppe varierer per rad? Du m√• normalisere prisen slik at du viser prisen per skjeppe, ikke per 1 1/9 eller 1/2 skjeppe. Tid for litt matte for √• standardisere det.

Vi skal bruke funksjonen [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) for √• *mutere* kolonnen Price avhengig av noen betingelser. `case_when` lar deg vektorisere flere `if_else()`-utsagn.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

N√• kan vi analysere prisen per enhet basert p√• deres m√•ling i skjepper. All denne studien av skjepper med gresskar viser imidlertid hvor `viktig` det er √• `forst√• naturen til dataene dine`!

> ‚úÖ If√∏lge [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) avhenger vekten av en skjepp av typen r√•vare, siden det er en volum-m√•ling. "En skjepp med tomater, for eksempel, skal veie 56 pund... Blader og gr√∏nnsaker tar opp mer plass med mindre vekt, s√• en skjepp med spinat veier bare 20 pund." Det er ganske komplisert! La oss ikke bry oss med √• gj√∏re en skjepp-til-pund-konvertering, og heller prise per skjepp. All denne studien av skjepper med gresskar viser imidlertid hvor viktig det er √• forst√• naturen til dataene dine!
>
> ‚úÖ La du merke til at gresskar som selges per halv skjepp er veldig dyre? Kan du finne ut hvorfor? Hint: sm√• gresskar er mye dyrere enn store, sannsynligvis fordi det er s√• mange flere av dem per skjepp, gitt den ubrukte plassen som tas opp av ett stort, hul paigresskar.


N√• til slutt, for eventyrets skyld üíÅ‚Äç‚ôÄÔ∏è, la oss ogs√• flytte M√•ned-kolonnen til f√∏rste posisjon, alts√• `f√∏r` kolonnen `Pakke`.

`dplyr::relocate()` brukes for √• endre kolonneposisjoner.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Godt jobbet!üëå Du har n√• et rent og ryddig datasett som du kan bruke til √• bygge din nye regresjonsmodell!


## 4. Datavisualisering med ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografikk av Dasani Madipalli</figcaption>


<!--![Infografikk av Dasani Madipalli](../../../../../../2-Regression/2-Data/images/data-visualization.png){width="600"}-->

Det finnes et *klokt* ordtak som sier:

> "Den enkle grafen har brakt mer informasjon til dataanalytikerens sinn enn noe annet verkt√∏y." --- John Tukey

En del av dataforskerens rolle er √• demonstrere kvaliteten og naturen til dataene de jobber med. For √• gj√∏re dette lager de ofte interessante visualiseringer, eller diagrammer, grafer og figurer, som viser ulike aspekter av dataene. P√• denne m√•ten kan de visuelt vise sammenhenger og mangler som ellers er vanskelige √• oppdage.

Visualiseringer kan ogs√• hjelpe med √• avgj√∏re hvilken maskinl√¶ringsteknikk som er mest passende for dataene. Et spredningsdiagram som ser ut til √• f√∏lge en linje, for eksempel, indikerer at dataene er en god kandidat for en line√¶r regresjons√∏velse.

R tilbyr flere systemer for √• lage grafer, men [`ggplot2`](https://ggplot2.tidyverse.org/index.html) er en av de mest elegante og allsidige. `ggplot2` lar deg sette sammen grafer ved √• **kombinere uavhengige komponenter**.

La oss starte med et enkelt spredningsdiagram for kolonnene Price og Month.

I dette tilfellet begynner vi med [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), oppgir et datasett og estetisk mapping (med [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) og legger deretter til lag (som [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) for spredningsdiagrammer.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Er dette et nyttig diagram ü§∑? Er det noe ved det som overrasker deg?

Det er ikke spesielt nyttig, ettersom alt det gj√∏r er √• vise dataene dine som en spredning av punkter i en gitt m√•ned.
<br>


### **Hvordan gj√∏r vi det nyttig?**

For √• f√• diagrammer til √• vise nyttige data, m√• du vanligvis gruppere dataene p√• en eller annen m√•te. For eksempel, i v√•rt tilfelle, vil det √• finne gjennomsnittsprisen p√• gresskar for hver m√•ned gi mer innsikt i de underliggende m√∏nstrene i dataene v√•re. Dette leder oss til enda en **dplyr** gjennomgang:

#### `dplyr::group_by() %>% summarize()`

Gruppert aggregering i R kan enkelt beregnes ved hjelp av

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` endrer analyseenheten fra hele datasettet til individuelle grupper, som for eksempel per m√•ned.

-   `dplyr::summarize()` lager en ny dataramme med √©n kolonne for hver grupperingsvariabel og √©n kolonne for hver av de oppsummeringsstatistikkene du har spesifisert.

For eksempel kan vi bruke `dplyr::group_by() %>% summarize()` til √• gruppere gresskar i grupper basert p√• **Month**-kolonnen og deretter finne **gjennomsnittsprisen** for hver m√•ned.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Kompakt!‚ú®

Kategoriske variabler som m√•neder blir bedre representert ved hjelp av et stolpediagram üìä. Lagene som brukes for stolpediagrammer er `geom_bar()` og `geom_col()`. Sjekk `?geom_bar` for √• l√¶re mer.

La oss lage et!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§©Dette er en mer nyttig datavisualisering! Det ser ut til √• indikere at den h√∏yeste prisen for gresskar forekommer i september og oktober. Stemmer dette med dine forventninger? Hvorfor eller hvorfor ikke?

Gratulerer med √• ha fullf√∏rt den andre leksjonen üëè! Du forberedte dataene dine for modellbygging, og deretter avdekket du flere innsikter ved hjelp av visualiseringer!



---

**Ansvarsfraskrivelse**:  
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter n√∏yaktighet, v√¶r oppmerksom p√• at automatiserte oversettelser kan inneholde feil eller un√∏yaktigheter. Det originale dokumentet p√• sitt opprinnelige spr√•k b√∏r anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforst√•elser eller feiltolkninger som oppst√•r ved bruk av denne oversettelsen.
