## Introduktion til Regression - Lektion 1

#### S√¶t det i perspektiv

‚úÖ Der findes mange typer regressionsmetoder, og hvilken du v√¶lger afh√¶nger af det svar, du s√∏ger. Hvis du vil forudsige den sandsynlige h√∏jde for en person med en given alder, vil du bruge `line√¶r regression`, da du s√∏ger en **numerisk v√¶rdi**. Hvis du er interesseret i at finde ud af, om en type k√∏kken skal betragtes som vegansk eller ej, leder du efter en **kategoriinddeling**, s√• du vil bruge `logistisk regression`. Du vil l√¶re mere om logistisk regression senere. T√¶nk lidt over nogle sp√∏rgsm√•l, du kan stille til data, og hvilken af disse metoder der ville v√¶re mest passende.

I denne sektion vil du arbejde med et [lille datas√¶t om diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Forestil dig, at du ville teste en behandling for diabetiske patienter. Maskinl√¶ringsmodeller kan hj√¶lpe dig med at afg√∏re, hvilke patienter der vil reagere bedre p√• behandlingen, baseret p√• kombinationer af variabler. Selv en meget grundl√¶ggende regressionsmodel, n√•r den visualiseres, kan vise information om variabler, der kan hj√¶lpe dig med at organisere dine teoretiske kliniske fors√∏g.

Med det sagt, lad os komme i gang med denne opgave!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Kunstv√¶rk af @allison_horst</figcaption>

<!--![Kunstv√¶rk af \@allison_horst](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>Kunstv√¶rk af @allison_horst-->


## 1. Indl√¶sning af vores v√¶rkt√∏jss√¶t

Til denne opgave skal vi bruge f√∏lgende pakker:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling af R-pakker](https://www.tidyverse.org/packages), der er designet til at g√∏re datavidenskab hurtigere, nemmere og sjovere!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) er en [samling af pakker](https://www.tidymodels.org/packages/) til modellering og maskinl√¶ring.

Du kan installere dem med f√∏lgende kommando:

`install.packages(c("tidyverse", "tidymodels"))`

Scriptet nedenfor tjekker, om du har de n√∏dvendige pakker til at fuldf√∏re dette modul, og installerer dem for dig, hvis nogle mangler.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Lad os nu indl√¶se disse fantastiske pakker og g√∏re dem tilg√¶ngelige i vores nuv√¶rende R-session. (Dette er kun for illustration, `pacman::p_load()` har allerede gjort det for dig)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Diabetes-datas√¶ttet

I denne √∏velse vil vi demonstrere vores regressionsevner ved at lave forudsigelser p√• et diabetes-datas√¶t. [Diabetes-datas√¶ttet](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) indeholder `442 pr√∏ver` med data om diabetes, med 10 pr√¶diktorvariabler: `alder`, `k√∏n`, `body mass index`, `gennemsnitligt blodtryk` og `seks blodserumm√•linger` samt en resultatvariabel `y`: et kvantitativt m√•l for sygdomsprogression √©t √•r efter baseline.

|Antal observationer|442|
|-------------------|:---|
|Antal pr√¶diktorer|De f√∏rste 10 kolonner er numeriske pr√¶diktive|
|Resultat/M√•l|Kolonne 11 er et kvantitativt m√•l for sygdomsprogression √©t √•r efter baseline|
|Information om pr√¶diktorer|- alder i √•r
||- k√∏n
||- bmi body mass index
||- bp gennemsnitligt blodtryk
||- s1 tc, total serumkolesterol
||- s2 ldl, lavdensitetslipoproteiner
||- s3 hdl, h√∏jdensitetslipoproteiner
||- s4 tch, total kolesterol / HDL
||- s5 ltg, muligvis logaritmen af serum triglyceridniveau
||- s6 glu, blodsukkerniveau|

> üéì Husk, dette er superviseret l√¶ring, og vi har brug for et navngivet 'y'-m√•l.

F√∏r du kan manipulere data med R, skal du importere dataene til R's hukommelse eller oprette en forbindelse til dataene, som R kan bruge til at f√• adgang til dem eksternt.

> [readr](https://readr.tidyverse.org/)-pakken, som er en del af Tidyverse, giver en hurtig og brugervenlig m√•de at l√¶se rektangul√¶re data ind i R.

Lad os nu indl√¶se diabetes-datas√¶ttet fra denne kilde-URL: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Vi vil ogs√• udf√∏re en kontrol af vores data ved hj√¶lp af `glimpse()` og vise de f√∏rste 5 r√¶kker med `slice()`.

F√∏r vi g√•r videre, lad os introducere noget, du ofte vil st√∏de p√• i R-kode ü•Åü•Å: pipe-operatoren `%>%`

Pipe-operatoren (`%>%`) udf√∏rer operationer i logisk r√¶kkef√∏lge ved at sende et objekt videre til en funktion eller et kald. Du kan t√¶nke p√• pipe-operatoren som at sige "og derefter" i din kode.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` viser os, at denne data har 442 r√¶kker og 11 kolonner, hvor alle kolonnerne er af datatypen `double`.

<br>

> glimpse() og slice() er funktioner i [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, en del af Tidyverse, er en grammatik for datamanipulation, der tilbyder et konsistent s√¶t af verber, som hj√¶lper dig med at l√∏se de mest almindelige udfordringer inden for datamanipulation.

<br>

Nu hvor vi har dataen, lad os fokusere p√• √©n feature (`bmi`) som m√•l for denne √∏velse. Dette kr√¶ver, at vi v√¶lger de √∏nskede kolonner. S√• hvordan g√∏r vi dette?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) giver os mulighed for at *v√¶lge* (og eventuelt omd√∏be) kolonner i en data frame.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Tr√¶nings- og testdata

Det er almindelig praksis inden for superviseret l√¶ring at *opdele* dataene i to undergrupper; et (typisk st√∏rre) s√¶t til at tr√¶ne modellen med, og et mindre "tilbageholdt" s√¶t til at evaluere, hvordan modellen klarer sig.

Nu hvor vi har dataene klar, kan vi unders√∏ge, om en maskine kan hj√¶lpe med at finde en logisk opdeling mellem tallene i dette datas√¶t. Vi kan bruge pakken [rsample](https://tidymodels.github.io/rsample/), som er en del af Tidymodels-rammev√¶rket, til at oprette et objekt, der indeholder information om *hvordan* dataene skal opdeles, og derefter to yderligere rsample-funktioner til at udtr√¶kke de oprettede tr√¶nings- og tests√¶t:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Tr√¶n en line√¶r regressionsmodel med Tidymodels

Nu er vi klar til at tr√¶ne vores model!

I Tidymodels specificerer du modeller ved hj√¶lp af `parsnip()` ved at angive tre begreber:

-   Model **type** adskiller modeller som line√¶r regression, logistisk regression, beslutningstr√¶-modeller og s√• videre.

-   Model **mode** inkluderer almindelige muligheder som regression og klassifikation; nogle modeltyper underst√∏tter begge dele, mens andre kun har √©n tilstand.

-   Model **engine** er det beregningsv√¶rkt√∏j, der vil blive brugt til at tilpasse modellen. Ofte er disse R-pakker, s√•som **`"lm"`** eller **`"ranger"`**

Denne modelinformation fanges i en modelspecifikation, s√• lad os bygge en!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Efter en model er blevet *specificeret*, kan modellen `estimeres` eller `tr√¶nes` ved hj√¶lp af [`fit()`](https://parsnip.tidymodels.org/reference/fit.html)-funktionen, typisk ved brug af en formel og nogle data.

`y ~ .` betyder, at vi vil tilpasse `y` som den forudsagte v√¶rdi/m√•l, forklaret af alle pr√¶diktorer/egenskaber, dvs. `.` (i dette tilf√¶lde har vi kun √©n pr√¶diktor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Fra modeloutputtet kan vi se de koefficienter, der blev l√¶rt under tr√¶ningen. De repr√¶senterer koefficienterne for den bedste tilpasningslinje, som giver os den laveste samlede fejl mellem den faktiske og den forudsagte variabel.
<br>

## 5. Lav forudsigelser p√• testdatas√¶ttet

Nu hvor vi har tr√¶net en model, kan vi bruge den til at forudsige sygdomsprogressionen y for testdatas√¶ttet ved hj√¶lp af [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Dette vil blive brugt til at tegne linjen mellem datagrupper.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! üíÉüï∫ Vi har lige tr√¶net en model og brugt den til at lave forudsigelser!

N√•r man laver forudsigelser, er tidymodels-konventionen altid at producere en tibble/data frame med resultater og standardiserede kolonnenavne. Dette g√∏r det nemt at kombinere de originale data og forudsigelserne i et brugbart format til efterf√∏lgende operationer s√•som visualisering.

`dplyr::bind_cols()` binder effektivt flere data frames kolonnevis.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Visualisering af modelleringsresultater

Nu er det tid til at se dette visuelt üìà. Vi laver et scatterplot af alle `y`- og `bmi`-v√¶rdierne fra testdatas√¶ttet og bruger derefter forudsigelserne til at tegne en linje p√• det mest passende sted mellem modellens datagrupperinger.

R har flere systemer til at lave grafer, men `ggplot2` er en af de mest elegante og alsidige. Det giver dig mulighed for at sammens√¶tte grafer ved **at kombinere uafh√¶ngige komponenter**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ T√¶nk lidt over, hvad der sker her. En lige linje l√∏ber gennem mange sm√• datapunkter, men hvad g√∏r den egentlig? Kan du se, hvordan du burde kunne bruge denne linje til at forudsige, hvor et nyt, uset datapunkt skulle passe i forhold til plottets y-akse? Pr√∏v at s√¶tte ord p√• den praktiske anvendelse af denne model.

Tillykke, du har bygget din f√∏rste line√¶re regressionsmodel, lavet en forudsigelse med den og vist den i et plot!



---

**Ansvarsfraskrivelse**:  
Dette dokument er blevet oversat ved hj√¶lp af AI-overs√¶ttelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestr√¶ber os p√• n√∏jagtighed, skal du v√¶re opm√¶rksom p√•, at automatiserede overs√¶ttelser kan indeholde fejl eller un√∏jagtigheder. Det originale dokument p√• dets oprindelige sprog b√∏r betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig overs√¶ttelse. Vi p√•tager os intet ansvar for misforst√•elser eller fejltolkninger, der m√•tte opst√• som f√∏lge af brugen af denne overs√¶ttelse.
