## Introduksjon til regresjon - Leksjon 1

#### Sett det i perspektiv

‚úÖ Det finnes mange typer regresjonsmetoder, og hvilken du velger avhenger av svaret du leter etter. Hvis du vil forutsi sannsynlig h√∏yde for en person med en gitt alder, vil du bruke `line√¶r regresjon`, siden du s√∏ker en **numerisk verdi**. Hvis du er interessert i √• finne ut om en type mat b√∏r anses som vegansk eller ikke, ser du etter en **kategoriinndeling**, og da vil du bruke `logistisk regresjon`. Du vil l√¶re mer om logistisk regresjon senere. Tenk litt p√• noen sp√∏rsm√•l du kan stille til data, og hvilken av disse metodene som ville v√¶re mest passende.

I denne delen skal du jobbe med et [lite datasett om diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Tenk deg at du √∏nsket √• teste en behandling for diabetikere. Maskinl√¶ringsmodeller kan hjelpe deg med √• avgj√∏re hvilke pasienter som vil respondere bedre p√• behandlingen, basert p√• kombinasjoner av variabler. Selv en veldig enkel regresjonsmodell, n√•r den visualiseres, kan vise informasjon om variabler som kan hjelpe deg med √• organisere dine teoretiske kliniske studier.

Med det sagt, la oss komme i gang med denne oppgaven!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Kunstverk av @allison_horst</figcaption>

<!--![Kunstverk av \@allison_horst](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>Kunstverk av @allison_horst-->


## 1. Laste inn verkt√∏ysettet v√•rt

For denne oppgaven trenger vi f√∏lgende pakker:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling av R-pakker](https://www.tidyverse.org/packages) som er laget for √• gj√∏re datavitenskap raskere, enklere og morsommere!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) er et [rammeverk med pakker](https://www.tidymodels.org/packages/) for modellering og maskinl√¶ring.

Du kan installere dem slik:

`install.packages(c("tidyverse", "tidymodels"))`

Skriptet nedenfor sjekker om du har de n√∏dvendige pakkene for √• fullf√∏re denne modulen og installerer dem for deg dersom noen mangler.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



La oss n√• laste inn disse fantastiske pakkene og gj√∏re dem tilgjengelige i v√•r n√•v√¶rende R-√∏kt. (Dette er kun for illustrasjon, `pacman::p_load()` har allerede gjort det for deg)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Diabetes-datasettet

I denne √∏velsen skal vi vise v√•re regresjonsferdigheter ved √• lage prediksjoner p√• et diabetes-datasett. [Diabetes-datasettet](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) inkluderer `442 pr√∏ver` med data om diabetes, med 10 prediktorvariabler: `alder`, `kj√∏nn`, `kroppsmasseindeks`, `gjennomsnittlig blodtrykk` og `seks blodserumm√•linger`, samt en utfallsvariabel `y`: et kvantitativt m√•l p√• sykdomsutvikling ett √•r etter baseline.

|Antall observasjoner|442|
|--------------------|:---|
|Antall prediktorer|De f√∏rste 10 kolonnene er numeriske prediktorer|
|Utfall/M√•l|Kolonne 11 er et kvantitativt m√•l p√• sykdomsutvikling ett √•r etter baseline|
|Informasjon om prediktorer|- alder i √•r
||- kj√∏nn
||- bmi kroppsmasseindeks
||- bp gjennomsnittlig blodtrykk
||- s1 tc, total serumkolesterol
||- s2 ldl, lavdensitetslipoproteiner
||- s3 hdl, h√∏ydensitetslipoproteiner
||- s4 tch, total kolesterol / HDL
||- s5 ltg, muligens logaritmen av serumtriglyseridniv√•
||- s6 glu, blodsukkerniv√•|

> üéì Husk, dette er veiledet l√¶ring, og vi trenger et navngitt m√•l 'y'.

F√∏r du kan manipulere data med R, m√• du importere dataene til R's minne, eller opprette en forbindelse til dataene som R kan bruke for √• f√• tilgang til dem eksternt.

> [readr](https://readr.tidyverse.org/)-pakken, som er en del av Tidyverse, gir en rask og brukervennlig m√•te √• lese rektangul√¶re data inn i R.

La oss n√• laste inn diabetes-datasettet fra denne kilde-URL-en: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Vi skal ogs√• utf√∏re en enkel sjekk av dataene v√•re ved √• bruke `glimpse()` og vise de f√∏rste 5 radene med `slice()`.

F√∏r vi g√•r videre, la oss ogs√• introdusere noe du ofte vil st√∏te p√• i R-kode ü•Åü•Å: pipe-operat√∏ren `%>%`

Pipe-operat√∏ren (`%>%`) utf√∏rer operasjoner i logisk rekkef√∏lge ved √• sende et objekt videre inn i en funksjon eller kalluttrykk. Du kan tenke p√• pipe-operat√∏ren som √• si "og deretter" i koden din.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` viser oss at disse dataene har 442 rader og 11 kolonner, hvor alle kolonnene er av datatypen `double`.

<br>

> glimpse() og slice() er funksjoner i [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, som er en del av Tidyverse, er et rammeverk for datamanipulering som gir et konsistent sett med verkt√∏y for √• l√∏se de vanligste utfordringene innen datamanipulering.

<br>

N√• som vi har dataene, la oss fokusere p√• √©n variabel (`bmi`) som m√•l for denne √∏velsen. Dette krever at vi velger de √∏nskede kolonnene. S√•, hvordan gj√∏r vi dette?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) lar oss *velge* (og eventuelt gi nytt navn til) kolonner i en dataramme.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Trenings- og testdata

Det er vanlig praksis i overv√•ket l√¶ring √• *dele* dataene i to undergrupper; et (typisk st√∏rre) sett for √• trene modellen, og et mindre "tilbakeholdt" sett for √• se hvordan modellen presterte.

N√• som vi har dataene klare, kan vi se om en maskin kan hjelpe med √• bestemme en logisk deling mellom tallene i dette datasettet. Vi kan bruke [rsample](https://tidymodels.github.io/rsample/)-pakken, som er en del av Tidymodels-rammeverket, for √• opprette et objekt som inneholder informasjon om *hvordan* dataene skal deles, og deretter to flere rsample-funksjoner for √• hente ut de opprettede trenings- og testsettene:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Tren en line√¶r regresjonsmodell med Tidymodels

N√• er vi klare til √• trene modellen v√•r!

I Tidymodels spesifiserer du modeller ved hjelp av `parsnip()` ved √• definere tre konsepter:

-   Modell **type** skiller mellom modeller som line√¶r regresjon, logistisk regresjon, beslutningstr√¶r og lignende.

-   Modell **modus** inkluderer vanlige alternativer som regresjon og klassifisering; noen modelltyper st√∏tter begge disse, mens andre kun har √©n modus.

-   Modell **motor** er det beregningsverkt√∏yet som vil bli brukt til √• tilpasse modellen. Ofte er disse R-pakker, som **`"lm"`** eller **`"ranger"`**

Denne modellinformasjonen fanges opp i en modellspecifikasjon, s√• la oss lage en!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Etter at en modell har blitt *spesifisert*, kan modellen `estimeres` eller `trenes` ved hjelp av funksjonen [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), vanligvis ved bruk av en formel og noen data.

`y ~ .` betyr at vi skal tilpasse `y` som den predikerte verdien/m√•let, forklart av alle prediktorene/egenskapene, alts√• `.` (i dette tilfellet har vi kun √©n prediktor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Fra modellens output kan vi se koeffisientene som ble l√¶rt under treningen. Disse representerer koeffisientene for den beste tilpasningslinjen som gir oss den laveste totale feilen mellom den faktiske og den predikerte variabelen.
<br>

## 5. Gj√∏r prediksjoner p√• testsettet

N√• som vi har trent en modell, kan vi bruke den til √• forutsi sykdomsutviklingen y for testdatasettet ved hjelp av [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Dette vil bli brukt til √• tegne linjen mellom datagruppene.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! üíÉüï∫ Vi har nettopp trent en modell og brukt den til √• lage prediksjoner!

N√•r vi lager prediksjoner, er det en konvensjon i tidymodels √• alltid produsere en tibble/data frame med resultater og standardiserte kolonnenavn. Dette gj√∏r det enkelt √• kombinere de originale dataene med prediksjonene i et brukervennlig format for videre operasjoner som visualisering.

`dplyr::bind_cols()` binder effektivt flere data frames sammen kolonnevis.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Visualisering av modellresultater

N√• er det p√• tide √• se dette visuelt üìà. Vi skal lage et spredningsdiagram av alle `y`- og `bmi`-verdiene fra testsettet, og deretter bruke prediksjonene til √• tegne en linje p√• det mest passende stedet, mellom modellens datagrupperinger.

R har flere systemer for √• lage grafer, men `ggplot2` er en av de mest elegante og allsidige. Dette lar deg komponere grafer ved **√• kombinere uavhengige komponenter**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ Tenk litt over hva som skjer her. En rett linje g√•r gjennom mange sm√• datapunkter, men hva gj√∏r den egentlig? Kan du se hvordan du burde kunne bruke denne linjen til √• forutsi hvor et nytt, ukjent datapunkt burde passe i forhold til plottets y-akse? Pr√∏v √• sette ord p√• den praktiske bruken av denne modellen.

Gratulerer, du har laget din f√∏rste line√¶re regresjonsmodell, laget en prediksjon med den, og vist den i et plott!



---

**Ansvarsfraskrivelse**:  
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber n√∏yaktighet, vennligst v√¶r oppmerksom p√• at automatiske oversettelser kan inneholde feil eller un√∏yaktigheter. Det originale dokumentet p√• sitt opprinnelige spr√•k b√∏r anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforst√•elser eller feiltolkninger som oppst√•r ved bruk av denne oversettelsen.
