# Byg en regressionsmodel: forbered og visualiser data

## **Line√¶r regression for gr√¶skar - Lektion 2**
#### Introduktion

Nu hvor du har de n√∏dvendige v√¶rkt√∏jer til at begynde at bygge maskinl√¶ringsmodeller med Tidymodels og Tidyverse, er du klar til at begynde at stille sp√∏rgsm√•l til dine data. N√•r du arbejder med data og anvender ML-l√∏sninger, er det meget vigtigt at forst√•, hvordan man stiller de rigtige sp√∏rgsm√•l for korrekt at udnytte potentialet i dit datas√¶t.

I denne lektion vil du l√¶re:

-   Hvordan du forbereder dine data til modelbygning.

-   Hvordan du bruger `ggplot2` til datavisualisering.

Det sp√∏rgsm√•l, du √∏nsker besvaret, vil afg√∏re, hvilken type ML-algoritmer du skal anvende. Og kvaliteten af det svar, du f√•r tilbage, vil i h√∏j grad afh√¶nge af karakteren af dine data.

Lad os se dette ved at arbejde igennem en praktisk √∏velse.


<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Kunstv√¶rk af @allison_horst</figcaption>


<!--![Kunstv√¶rk af \@allison_horst](../../../../../../2-Regression/2-Data/images/unruly_data.jpg)<br>Kunstv√¶rk af \@allison_horst-->


## 1. Importering af gr√¶skardata og tilkaldelse af Tidyverse

Vi skal bruge f√∏lgende pakker for at sk√¶re og analysere denne lektion:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling af R-pakker](https://www.tidyverse.org/packages), der er designet til at g√∏re datavidenskab hurtigere, nemmere og sjovere!

Du kan installere dem med f√∏lgende kommando:

`install.packages(c("tidyverse"))`

Scriptet nedenfor tjekker, om du har de n√∏dvendige pakker til at gennemf√∏re dette modul, og installerer dem for dig, hvis nogle mangler.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Nu skal vi fyre op for nogle pakker og indl√¶se [data](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv), der er leveret til denne lektion!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

En hurtig `glimpse()` viser straks, at der er tomme felter og en blanding af strenge (`chr`) og numeriske data (`dbl`). `Date` er af typen karakter, og der er ogs√• en m√¶rkelig kolonne kaldet `Package`, hvor dataene er en blanding af `sacks`, `bins` og andre v√¶rdier. Dataene er faktisk lidt af en rodebunke üò§.

Det er faktisk ikke s√¶rlig almindeligt at f√• for√¶ret et datas√¶t, der er helt klar til brug for at skabe en ML-model direkte. Men bare rolig, i denne lektion vil du l√¶re, hvordan du forbereder et r√•t datas√¶t ved hj√¶lp af standard R-biblioteker üßë‚Äçüîß. Du vil ogs√• l√¶re forskellige teknikker til at visualisere data. üìàüìä
<br>

> En genopfriskning: Pipe-operatoren (`%>%`) udf√∏rer operationer i logisk r√¶kkef√∏lge ved at sende et objekt videre ind i en funktion eller et kald. Du kan t√¶nke p√• pipe-operatoren som at sige "og s√•" i din kode.


## 2. Kontroller for manglende data

En af de mest almindelige udfordringer, som dataforskere skal h√•ndtere, er ufuldst√¶ndige eller manglende data. R repr√¶senterer manglende eller ukendte v√¶rdier med en speciel sentinelv√¶rdi: `NA` (Not Available).

S√• hvordan kan vi finde ud af, om dataframen indeholder manglende v√¶rdier?
<br>
-   En direkte metode ville v√¶re at bruge base R-funktionen `anyNA`, som returnerer de logiske objekter `TRUE` eller `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

Fantastisk, det ser ud til, at der mangler nogle data! Det er et godt sted at starte.

-   En anden m√•de ville v√¶re at bruge funktionen `is.na()`, som angiver, hvilke individuelle kolonneelementer der mangler, med en logisk `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Okay, fik jobbet gjort, men med en stor dataramme som denne ville det v√¶re ineffektivt og praktisk talt umuligt at gennemg√• alle r√¶kker og kolonner individueltüò¥.

-   En mere intuitiv m√•de ville v√¶re at beregne summen af de manglende v√¶rdier for hver kolonne:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Meget bedre! Der mangler data, men m√•ske vil det ikke have betydning for opgaven. Lad os se, hvad yderligere analyse bringer frem.

> Sammen med de fantastiske s√¶t af pakker og funktioner har R en meget god dokumentation. For eksempel kan du bruge `help(colSums)` eller `?colSums` for at finde ud af mere om funktionen.


## 3. Dplyr: En grammatik for datamanipulation

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Kunstv√¶rk af @allison_horst</figcaption>


<!--![Kunstv√¶rk af \@allison_horst](../../../../../../2-Regression/2-Data/images/dplyr_wrangling.png)<br/>Kunstv√¶rk af \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), en pakke i Tidyverse, er en grammatik for datamanipulation, der tilbyder et konsistent s√¶t af verber, som hj√¶lper dig med at l√∏se de mest almindelige udfordringer inden for datamanipulation. I denne sektion vil vi udforske nogle af dplyrs verber!  
<br>


#### dplyr::select()

`select()` er en funktion i pakken `dplyr`, som hj√¶lper dig med at v√¶lge kolonner, du vil beholde eller udelade.

For at g√∏re din data frame lettere at arbejde med, kan du fjerne flere af dens kolonner ved hj√¶lp af `select()` og kun beholde de kolonner, du har brug for.

For eksempel vil vores analyse i denne √∏velse involvere kolonnerne `Package`, `Low Price`, `High Price` og `Date`. Lad os v√¶lge disse kolonner.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` er en funktion i pakken `dplyr`, som hj√¶lper dig med at oprette eller √¶ndre kolonner, samtidig med at de eksisterende kolonner bevares.

Den generelle struktur for `mutate` er:

`data %>%   mutate(new_column_name = what_it_contains)`

Lad os pr√∏ve `mutate` af ved at bruge `Date`-kolonnen og udf√∏re f√∏lgende operationer:

1.  Konverter datoerne (som i √∏jeblikket er af typen karakter) til et m√•nedsformat (disse er amerikanske datoer, s√• formatet er `MM/DD/YYYY`).

2.  Uddrag m√•neden fra datoerne til en ny kolonne.

I R g√∏r pakken [lubridate](https://lubridate.tidyverse.org/) det nemmere at arbejde med dato-tidsdata. S√• lad os bruge `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` og se, hvordan vi kan opn√• ovenst√•ende m√•l. Vi kan fjerne `Date`-kolonnen, da vi ikke f√•r brug for den igen i de efterf√∏lgende operationer.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Woohoo! ü§©

Lad os nu oprette en ny kolonne `Price`, som repr√¶senterer gennemsnitsprisen p√• et gr√¶skar. For at udfylde den nye Price-kolonne tager vi gennemsnittet af kolonnerne `Low Price` og `High Price`.  
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Yeees!üí™

"Men vent lige!", vil du sige efter at have skimmet hele datas√¶ttet med `View(pumpkins)`, "Der er noget m√¶rkeligt her!"ü§î

Hvis du kigger p√• kolonnen `Package`, bliver gr√¶skar solgt i mange forskellige konfigurationer. Nogle s√¶lges i m√•l af `1 1/9 bushel`, nogle i `1/2 bushel`, nogle per gr√¶skar, nogle per pund, og nogle i store kasser med varierende bredder.

Lad os verificere dette:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Fantastisk!üëè

Gr√¶skar ser ud til at v√¶re meget sv√¶re at veje konsekvent, s√• lad os filtrere dem ved kun at v√¶lge gr√¶skar med strengen *bushel* i `Package`-kolonnen og l√¶gge dette i en ny data frame `new_pumpkins`.  
<br>


#### dplyr::filter() og stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): opretter et datas√¶t, der kun indeholder **r√¶kker**, som opfylder dine betingelser, i dette tilf√¶lde gr√¶skar med teksten *bushel* i kolonnen `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): registrerer tilstedev√¶relsen eller frav√¶ret af et m√∏nster i en tekst.

Pakken [`stringr`](https://github.com/tidyverse/stringr) tilbyder simple funktioner til almindelige tekstoperationer.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Du kan se, at vi har indsn√¶vret det til omkring 415 r√¶kker med data, der indeholder gr√¶skar i store m√¶ngder.ü§©  
<br>


#### dplyr::case_when()

**Men vent! Der er √©n ting mere, du skal g√∏re**

Lagde du m√¶rke til, at m√¶ngden af bushels varierer fra r√¶kke til r√¶kke? Du skal normalisere priss√¶tningen, s√• du viser prisen per bushel og ikke per 1 1/9 eller 1/2 bushel. Det er tid til at lave lidt matematik for at standardisere det.

Vi bruger funktionen [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) til at *mutere* kolonnen Price afh√¶ngigt af nogle betingelser. `case_when` giver dig mulighed for at vektorisere flere `if_else()`-udsagn.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Nu kan vi analysere prisen pr. enhed baseret p√• deres bushel-m√•l. Hele denne unders√∏gelse af bushels af gr√¶skar viser dog, hvor `vigtigt` det er at `forst√• naturen af dine data`!

> ‚úÖ If√∏lge [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) afh√¶nger en bushels v√¶gt af typen af afgr√∏de, da det er en volumenm√•ling. "En bushel tomater, for eksempel, skal veje 56 pund... Blade og gr√∏nt fylder mere med mindre v√¶gt, s√• en bushel spinat vejer kun 20 pund." Det er alt sammen ret kompliceret! Lad os undlade at lave en bushel-til-pund-konvertering og i stedet priss√¶tte efter bushel. Hele denne unders√∏gelse af bushels af gr√¶skar viser dog, hvor vigtigt det er at forst√• naturen af dine data!
>
> ‚úÖ Lagde du m√¶rke til, at gr√¶skar solgt pr. halv-bushel er meget dyre? Kan du finde ud af hvorfor? Hint: sm√• gr√¶skar er langt dyrere end store, sandsynligvis fordi der er s√• mange flere af dem pr. bushel, givet den ubrugte plads, som √©t stort, hult t√¶rtegr√¶skar optager.


Vigtigt, lad os ogs√• flytte kolonnen "Month" til den f√∏rste position, alts√• **f√∏r** kolonnen "Package".

`dplyr::relocate()` bruges til at √¶ndre kolonnepositioner.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Godt klaret!üëå Du har nu et rent og ryddeligt datas√¶t, som du kan bruge til at bygge din nye regressionsmodel!  
<br>


## 4. Datavisualisering med ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografik af Dasani Madipalli</figcaption>


<!--![Infografik af Dasani Madipalli](../../../../../../2-Regression/2-Data/images/data-visualization.png){width="600"}-->

Der er et *klogt* ordsprog, der lyder s√•dan her:

> "Den simple graf har bragt mere information til dataanalytikerens sind end noget andet v√¶rkt√∏j." --- John Tukey

En del af dataforskerens rolle er at demonstrere kvaliteten og karakteren af de data, de arbejder med. For at g√∏re dette skaber de ofte interessante visualiseringer, eller grafer, diagrammer og plots, der viser forskellige aspekter af dataene. P√• denne m√•de kan de visuelt vise relationer og mangler, som ellers kan v√¶re sv√¶re at opdage.

Visualiseringer kan ogs√• hj√¶lpe med at afg√∏re, hvilken maskinl√¶ringsteknik der er mest passende for dataene. Et spredningsdiagram, der ser ud til at f√∏lge en linje, indikerer for eksempel, at dataene er en god kandidat til en line√¶r regressions√∏velse.

R tilbyder flere systemer til at lave grafer, men [`ggplot2`](https://ggplot2.tidyverse.org/index.html) er en af de mest elegante og alsidige. `ggplot2` giver dig mulighed for at sammens√¶tte grafer ved at **kombinere uafh√¶ngige komponenter**.

Lad os starte med et simpelt spredningsdiagram for kolonnerne Price og Month.

I dette tilf√¶lde starter vi med [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), angiver et datas√¶t og √¶stetisk mapping (med [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) og tilf√∏jer derefter lag (som [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) for spredningsdiagrammer.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Er dette et nyttigt plot ü§∑? Er der noget ved det, der overrasker dig?

Det er ikke specielt nyttigt, da det blot viser dine data som en spredning af punkter i en given m√•ned.  
<br>


### **Hvordan g√∏r vi det nyttigt?**

For at f√• grafer til at vise nyttige data, skal du normalt gruppere dataene p√• en eller anden m√•de. For eksempel i vores tilf√¶lde vil det at finde gennemsnitsprisen p√• gr√¶skar for hver m√•ned give mere indsigt i de underliggende m√∏nstre i vores data. Dette leder os til endnu en **dplyr** gennemgang:

#### `dplyr::group_by() %>% summarize()`

Grupperet aggregering i R kan nemt beregnes ved hj√¶lp af

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` √¶ndrer analyseenheden fra det komplette datas√¶t til individuelle grupper, s√•som pr. m√•ned.

-   `dplyr::summarize()` opretter en ny data frame med √©n kolonne for hver grupperingsvariabel og √©n kolonne for hver af de opsummeringsstatistikker, du har angivet.

For eksempel kan vi bruge `dplyr::group_by() %>% summarize()` til at gruppere gr√¶skarrene i grupper baseret p√• **Month**-kolonnen og derefter finde **gennemsnitsprisen** for hver m√•ned.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Kort og godt!‚ú®

Kategoriske funktioner som m√•neder repr√¶senteres bedst ved hj√¶lp af et s√∏jlediagram üìä. De lag, der bruges til s√∏jlediagrammer, er `geom_bar()` og `geom_col()`. Se `?geom_bar` for at l√¶re mere.

Lad os lave et!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§©Dette er en mere nyttig datavisualisering! Det ser ud til at indikere, at den h√∏jeste pris for gr√¶skar forekommer i september og oktober. Stemmer det overens med dine forventninger? Hvorfor eller hvorfor ikke?

Tillykke med at have afsluttet den anden lektion üëè! Du forberedte dine data til modelbygning og opdagede derefter flere indsigter ved hj√¶lp af visualiseringer!



---

**Ansvarsfraskrivelse**:  
Dette dokument er blevet oversat ved hj√¶lp af AI-overs√¶ttelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestr√¶ber os p√• at sikre n√∏jagtighed, skal du v√¶re opm√¶rksom p√•, at automatiserede overs√¶ttelser kan indeholde fejl eller un√∏jagtigheder. Det originale dokument p√• dets oprindelige sprog b√∏r betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig overs√¶ttelse. Vi p√•tager os intet ansvar for misforst√•elser eller fejltolkninger, der m√•tte opst√• som f√∏lge af brugen af denne overs√¶ttelse.
