## Introduktion till regression - Lektion 1

#### S√§tta det i perspektiv

‚úÖ Det finns m√•nga typer av regressionsmetoder, och vilken du v√§ljer beror p√• vilken typ av svar du s√∂ker. Om du vill f√∂ruts√§ga den sannolika l√§ngden f√∂r en person i en viss √•lder, skulle du anv√§nda `linj√§r regression`, eftersom du s√∂ker ett **numeriskt v√§rde**. Om du √§r intresserad av att avg√∂ra om en viss typ av mat ska betraktas som vegansk eller inte, s√∂ker du en **kategoriindelning** och skulle anv√§nda `logistisk regression`. Du kommer att l√§ra dig mer om logistisk regression senare. Fundera lite p√• n√•gra fr√•gor du kan st√§lla till data, och vilken av dessa metoder som skulle vara mest l√§mplig.

I det h√§r avsnittet kommer du att arbeta med en [liten dataset om diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). F√∂rest√§ll dig att du ville testa en behandling f√∂r diabetiker. Maskininl√§rningsmodeller kan hj√§lpa dig att avg√∂ra vilka patienter som skulle svara b√§ttre p√• behandlingen, baserat p√• kombinationer av variabler. √Ñven en mycket enkel regressionsmodell, n√§r den visualiseras, kan visa information om variabler som kan hj√§lpa dig att organisera dina teoretiska kliniska studier.

Med det sagt, l√•t oss s√§tta ig√•ng med denna uppgift!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Konstverk av @allison_horst</figcaption>

<!--![Konstverk av \@allison_horst](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>Konstverk av @allison_horst-->


## 1. Ladda upp v√•rt verktygspaket

F√∂r den h√§r uppgiften beh√∂ver vi f√∂ljande paket:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) √§r en [samling av R-paket](https://www.tidyverse.org/packages) som √§r utformade f√∂r att g√∂ra dataanalys snabbare, enklare och roligare!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) √§r ett ramverk som best√•r av en [samling paket](https://www.tidymodels.org/packages/) f√∂r modellering och maskininl√§rning.

Du kan installera dem med f√∂ljande kommando:

`install.packages(c("tidyverse", "tidymodels"))`

Skriptet nedan kontrollerar om du har de paket som kr√§vs f√∂r att slutf√∂ra denna modul och installerar dem √•t dig om n√•gra saknas.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Nu, l√•t oss ladda dessa fantastiska paket och g√∂ra dem tillg√§ngliga i v√•r nuvarande R-session. (Detta √§r bara f√∂r illustration, `pacman::p_load()` har redan gjort det √•t dig)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Diabetes-datasetet

I den h√§r √∂vningen ska vi anv√§nda v√•ra regressionskunskaper f√∂r att g√∂ra f√∂ruts√§gelser p√• ett diabetes-dataset. [Diabetes-datasetet](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) inneh√•ller `442 prover` med data relaterad till diabetes, med 10 prediktorvariabler: `√•lder`, `k√∂n`, `kroppsmasseindex`, `genomsnittligt blodtryck` och `sex blodserumm√§tningar` samt en utfallsvariabel `y`: ett kvantitativt m√•tt p√• sjukdomsprogression ett √•r efter baslinjen.

|Antal observationer|442|
|-------------------|:---|
|Antal prediktorer|De f√∂rsta 10 kolumnerna √§r numeriska prediktorer|
|Utfall/M√•l|Kolumn 11 √§r ett kvantitativt m√•tt p√• sjukdomsprogression ett √•r efter baslinjen|
|Information om prediktorer|- √•lder i √•r
||- k√∂n
||- bmi kroppsmasseindex
||- bp genomsnittligt blodtryck
||- s1 tc, totalt serumkolesterol
||- s2 ldl, l√•gdensitetslipoproteiner
||- s3 hdl, h√∂gdensitetslipoproteiner
||- s4 tch, totalt kolesterol / HDL
||- s5 ltg, m√∂jligen logaritmen av serumtriglyceridniv√•
||- s6 glu, blodsockerniv√•|

> üéì Kom ih√•g, detta √§r √∂vervakad inl√§rning, och vi beh√∂ver ett namngivet m√•l 'y'.

Innan du kan manipulera data med R, m√•ste du importera data till R:s minne eller skapa en anslutning till data som R kan anv√§nda f√∂r att komma √•t den p√• distans.

> Paketet [readr](https://readr.tidyverse.org/), som √§r en del av Tidyverse, erbjuder ett snabbt och anv√§ndarv√§nligt s√§tt att l√§sa in rektangul√§ra data i R.

Nu ska vi ladda diabetes-datasetet fr√•n denna k√§ll-URL: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Vi ska ocks√• g√∂ra en snabb kontroll av v√•r data med hj√§lp av `glimpse()` och visa de f√∂rsta 5 raderna med `slice()`.

Innan vi g√•r vidare, l√•t oss introducera n√•got du ofta kommer att st√∂ta p√• i R-kod ü•Åü•Å: pipe-operatorn `%>%`

Pipe-operatorn (`%>%`) utf√∂r operationer i logisk sekvens genom att skicka ett objekt vidare till en funktion eller ett uttryck. Du kan t√§nka p√• pipe-operatorn som att s√§ga "och sedan" i din kod.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` visar oss att denna data har 442 rader och 11 kolumner, d√§r alla kolumner √§r av datatypen `double`.

<br>

> glimpse() och slice() √§r funktioner i [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, som √§r en del av Tidyverse, √§r en grammatik f√∂r datamanipulation som erbjuder en konsekvent upps√§ttning verb f√∂r att l√∂sa de vanligaste utmaningarna inom datamanipulation.

<br>

Nu n√§r vi har datan, l√•t oss fokusera p√• en specifik variabel (`bmi`) som m√•l f√∂r denna √∂vning. Detta kr√§ver att vi v√§ljer ut de √∂nskade kolumnerna. S√•, hur g√∂r vi detta?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) l√•ter oss *v√§lja* (och eventuellt byta namn p√•) kolumner i en data frame.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Tr√§nings- och testdata

Det √§r vanligt inom √∂vervakad inl√§rning att *dela upp* data i tv√• delm√§ngder; en (vanligtvis st√∂rre) upps√§ttning f√∂r att tr√§na modellen, och en mindre "h√•ll-ut" upps√§ttning f√∂r att se hur modellen presterade.

Nu n√§r vi har data redo kan vi se om en maskin kan hj√§lpa till att avg√∂ra en logisk uppdelning mellan siffrorna i detta dataset. Vi kan anv√§nda paketet [rsample](https://tidymodels.github.io/rsample/), som √§r en del av Tidymodels-ramverket, f√∂r att skapa ett objekt som inneh√•ller information om *hur* man delar upp data, och sedan tv√• ytterligare rsample-funktioner f√∂r att extrahera de skapade tr√§nings- och testupps√§ttningarna:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Tr√§na en linj√§r regressionsmodell med Tidymodels

Nu √§r vi redo att tr√§na v√•r modell!

I Tidymodels specificerar du modeller med `parsnip()` genom att ange tre koncept:

-   Modellens **typ** skiljer mellan olika modeller som linj√§r regression, logistisk regression, beslutstr√§d och s√• vidare.

-   Modellens **l√§ge** inkluderar vanliga alternativ som regression och klassificering; vissa modelltyper st√∂djer b√•da dessa medan andra bara har ett l√§ge.

-   Modellens **motor** √§r det ber√§kningsverktyg som kommer att anv√§ndas f√∂r att anpassa modellen. Ofta √§r dessa R-paket, s√•som **`"lm"`** eller **`"ranger"`**

Denna modellinformation f√•ngas i en modelspecifikation, s√• l√•t oss skapa en!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Efter att en modell har *specificerats* kan modellen `estimeras` eller `tr√§nas` med hj√§lp av funktionen [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), vanligtvis med en formel och lite data.

`y ~ .` betyder att vi kommer att anpassa `y` som den f√∂rutsagda kvantiteten/m√•let, f√∂rklarad av alla prediktorer/funktioner, dvs. `.` (i det h√§r fallet har vi bara en prediktor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Fr√•n modellens output kan vi se de koefficienter som l√§rdes in under tr√§ningen. Dessa representerar koefficienterna f√∂r den b√§sta anpassade linjen som ger oss det l√§gsta totala felet mellan den faktiska och den f√∂rutsagda variabeln.
<br>

## 5. G√∂r f√∂ruts√§gelser p√• testupps√§ttningen

Nu n√§r vi har tr√§nat en modell kan vi anv√§nda den f√∂r att f√∂ruts√§ga sjukdomsprogressionen y f√∂r testdatam√§ngden med hj√§lp av [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Detta kommer att anv√§ndas f√∂r att dra linjen mellan datagrupper.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! üíÉüï∫ Vi har precis tr√§nat en modell och anv√§nt den f√∂r att g√∂ra f√∂ruts√§gelser!

N√§r man g√∂r f√∂ruts√§gelser √§r tidymodels-konventionen att alltid skapa en tibble/data frame med resultat och standardiserade kolumnnamn. Detta g√∂r det enkelt att kombinera den ursprungliga datan med f√∂ruts√§gelserna i ett anv√§ndbart format f√∂r efterf√∂ljande operationer, s√•som att skapa diagram.

`dplyr::bind_cols()` binder effektivt flera data frames kolumnvis.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Visa modellresultat

Nu √§r det dags att se detta visuellt üìà. Vi ska skapa ett spridningsdiagram med alla `y`- och `bmi`-v√§rden fr√•n testupps√§ttningen och sedan anv√§nda f√∂ruts√§gelserna f√∂r att rita en linje p√• den mest l√§mpliga platsen, mellan modellens datagrupperingar.

R har flera system f√∂r att skapa grafer, men `ggplot2` √§r ett av de mest eleganta och m√•ngsidiga. Det g√∂r det m√∂jligt att komponera grafer genom att **kombinera oberoende komponenter**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ Fundera lite p√• vad som h√§nder h√§r. En rak linje g√•r genom m√•nga sm√• datapunkter, men vad g√∂r den egentligen? Kan du se hur du borde kunna anv√§nda denna linje f√∂r att f√∂ruts√§ga var en ny, osedd datapunkt borde passa i f√∂rh√•llande till diagrammets y-axel? F√∂rs√∂k att formulera den praktiska anv√§ndningen av denna modell.

Grattis, du har byggt din f√∂rsta linj√§ra regressionsmodell, gjort en f√∂ruts√§gelse med den och visat den i ett diagram!



---

**Ansvarsfriskrivning**:  
Detta dokument har √∂versatts med hj√§lp av AI-√∂vers√§ttningstj√§nsten [Co-op Translator](https://github.com/Azure/co-op-translator). √Ñven om vi str√§var efter noggrannhet, v√§nligen notera att automatiska √∂vers√§ttningar kan inneh√•lla fel eller felaktigheter. Det ursprungliga dokumentet p√• sitt originalspr√•k b√∂r betraktas som den auktoritativa k√§llan. F√∂r kritisk information rekommenderas professionell m√§nsklig √∂vers√§ttning. Vi ansvarar inte f√∂r eventuella missf√∂rst√•nd eller feltolkningar som uppst√•r vid anv√§ndning av denna √∂vers√§ttning.
