## Einf√ºhrung in die Regression - Lektion 1

#### Einordnung in den Kontext

‚úÖ Es gibt viele Arten von Regressionsmethoden, und welche du w√§hlst, h√§ngt von der Frage ab, die du beantworten m√∂chtest. M√∂chtest du beispielsweise die wahrscheinliche K√∂rpergr√∂√üe einer Person in einem bestimmten Alter vorhersagen, w√ºrdest du `lineare Regression` verwenden, da du nach einem **numerischen Wert** suchst. Wenn du hingegen herausfinden m√∂chtest, ob eine bestimmte K√ºche als vegan betrachtet werden sollte oder nicht, suchst du nach einer **Kategorisierung**, und daf√ºr w√ºrdest du `logistische Regression` verwenden. Mehr √ºber logistische Regression wirst du sp√§ter lernen. √úberlege dir ein paar Fragen, die du an Daten stellen k√∂nntest, und welche dieser Methoden daf√ºr am besten geeignet w√§re.

In diesem Abschnitt wirst du mit einem [kleinen Datensatz √ºber Diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) arbeiten. Stell dir vor, du m√∂chtest eine Behandlung f√ºr Diabetespatienten testen. Machine-Learning-Modelle k√∂nnten dir dabei helfen, herauszufinden, welche Patienten besser auf die Behandlung ansprechen w√ºrden, basierend auf Kombinationen von Variablen. Selbst ein sehr einfaches Regressionsmodell k√∂nnte, wenn es visualisiert wird, Informationen √ºber Variablen liefern, die dir bei der Organisation deiner theoretischen klinischen Studien helfen k√∂nnten.

Also, lass uns mit dieser Aufgabe beginnen!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Kunstwerk von @allison_horst</figcaption>

<!--![Kunstwerk von \@allison_horst](../../../../../../translated_images/encouRage.e75d5fe0367fb9136b78104baf4e2032a7622bc42a2bc34c0ad36c294eeb83f5.de.jpg)<br>Kunstwerk von @allison_horst-->


## 1. Laden unseres Werkzeugkastens

F√ºr diese Aufgabe ben√∂tigen wir die folgenden Pakete:

-   `tidyverse`: Das [tidyverse](https://www.tidyverse.org/) ist eine [Sammlung von R-Paketen](https://www.tidyverse.org/packages), die darauf ausgelegt ist, Datenwissenschaft schneller, einfacher und unterhaltsamer zu machen!

-   `tidymodels`: Das [tidymodels](https://www.tidymodels.org/) Framework ist eine [Sammlung von Paketen](https://www.tidymodels.org/packages/) f√ºr Modellierung und maschinelles Lernen.

Sie k√∂nnen sie wie folgt installieren:

`install.packages(c("tidyverse", "tidymodels"))`

Das untenstehende Skript √ºberpr√ºft, ob Sie die f√ºr dieses Modul ben√∂tigten Pakete installiert haben, und installiert sie f√ºr Sie, falls einige fehlen.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Lassen Sie uns nun diese gro√üartigen Pakete laden und in unserer aktuellen R-Sitzung verf√ºgbar machen. (Dies dient nur zur Veranschaulichung, `pacman::p_load()` hat das bereits f√ºr Sie erledigt.)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Der Diabetes-Datensatz

In dieser √úbung werden wir unsere Regressionsf√§higkeiten unter Beweis stellen, indem wir Vorhersagen auf einem Diabetes-Datensatz treffen. Der [Diabetes-Datensatz](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) umfasst `442 Stichproben` mit Daten zu Diabetes, darunter 10 Pr√§diktorvariablen: `Alter`, `Geschlecht`, `Body-Mass-Index`, `durchschnittlicher Blutdruck` und `sechs Messungen des Blutserums` sowie eine Zielvariable `y`: ein quantitativer Messwert f√ºr den Krankheitsverlauf ein Jahr nach der Ausgangsmessung.

|Anzahl der Beobachtungen|442|
|-------------------------|:---|
|Anzahl der Pr√§diktoren|Die ersten 10 Spalten sind numerische Pr√§diktoren|
|Zielvariable|Spalte 11 ist ein quantitativer Messwert f√ºr den Krankheitsverlauf ein Jahr nach der Ausgangsmessung|
|Informationen zu den Pr√§diktoren|- Alter in Jahren
||- Geschlecht
||- bmi Body-Mass-Index
||- bp durchschnittlicher Blutdruck
||- s1 tc, Gesamtserumcholesterin
||- s2 ldl, Low-Density-Lipoproteine
||- s3 hdl, High-Density-Lipoproteine
||- s4 tch, Gesamtcholesterin / HDL
||- s5 ltg, m√∂glicherweise Logarithmus des Serumtriglyceridspiegels
||- s6 glu, Blutzuckerspiegel|


> üéì Denke daran, dies ist √ºberwachtes Lernen, und wir ben√∂tigen eine benannte Zielvariable 'y'.

Bevor du Daten mit R bearbeiten kannst, musst du die Daten in den Speicher von R importieren oder eine Verbindung zu den Daten herstellen, die R f√ºr den Fernzugriff auf die Daten verwenden kann.

> Das [readr](https://readr.tidyverse.org/)-Paket, das Teil des Tidyverse ist, bietet eine schnelle und benutzerfreundliche M√∂glichkeit, rechteckige Daten in R einzulesen.

Lass uns nun den Diabetes-Datensatz von der folgenden URL laden: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Au√üerdem werden wir eine Plausibilit√§tspr√ºfung unserer Daten mit `glimpse()` durchf√ºhren und die ersten 5 Zeilen mit `slice()` anzeigen.

Bevor wir weitermachen, m√∂chten wir noch etwas vorstellen, das du oft in R-Code sehen wirst ü•Åü•Å: den Pipe-Operator `%>%`

Der Pipe-Operator (`%>%`) f√ºhrt Operationen in logischer Reihenfolge aus, indem er ein Objekt an eine Funktion oder einen Ausdruck weiterleitet. Du kannst dir den Pipe-Operator so vorstellen, als w√ºrdest du in deinem Code "und dann" sagen.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` zeigt uns, dass diese Daten 442 Zeilen und 11 Spalten enthalten, wobei alle Spalten den Datentyp `double` haben.

<br>

> `glimpse()` und `slice()` sind Funktionen aus [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, ein Teil des Tidyverse, ist eine Grammatik f√ºr Datenmanipulation, die eine konsistente Reihe von Verben bereitstellt, um die h√§ufigsten Herausforderungen bei der Datenmanipulation zu l√∂sen.

<br>

Da wir nun die Daten haben, konzentrieren wir uns auf ein Merkmal (`bmi`), das wir f√ºr diese √úbung verwenden m√∂chten. Daf√ºr m√ºssen wir die gew√ºnschten Spalten ausw√§hlen. Wie machen wir das?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) erm√∂glicht es uns, Spalten in einem Dataframe *auszuw√§hlen* (und optional umzubenennen).


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Trainings- und Testdaten

Es ist g√§ngige Praxis im √ºberwachten Lernen, die Daten in zwei Teilmengen aufzuteilen: einen (in der Regel gr√∂√üeren) Satz, mit dem das Modell trainiert wird, und einen kleineren "R√ºckhalte"-Satz, mit dem √ºberpr√ºft wird, wie gut das Modell funktioniert hat.

Da wir nun die Daten vorbereitet haben, k√∂nnen wir pr√ºfen, ob eine Maschine helfen kann, eine logische Aufteilung zwischen den Zahlen in diesem Datensatz zu bestimmen. Wir k√∂nnen das [rsample](https://tidymodels.github.io/rsample/)-Paket verwenden, das Teil des Tidymodels-Frameworks ist, um ein Objekt zu erstellen, das die Informationen dar√ºber enth√§lt, *wie* die Daten aufgeteilt werden sollen. Anschlie√üend k√∂nnen zwei weitere rsample-Funktionen verwendet werden, um die erstellten Trainings- und Testdatens√§tze zu extrahieren:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Trainieren eines linearen Regressionsmodells mit Tidymodels

Jetzt sind wir bereit, unser Modell zu trainieren!

In Tidymodels spezifizieren Sie Modelle mit `parsnip()`, indem Sie drei Konzepte angeben:

-   Der **Modelltyp** unterscheidet Modelle wie lineare Regression, logistische Regression, Entscheidungsbaum-Modelle und so weiter.

-   Der **Modus des Modells** umfasst g√§ngige Optionen wie Regression und Klassifikation; einige Modelltypen unterst√ºtzen beide, w√§hrend andere nur einen Modus haben.

-   Die **Engine des Modells** ist das rechnerische Werkzeug, das verwendet wird, um das Modell anzupassen. Oft sind dies R-Pakete, wie **`"lm"`** oder **`"ranger"`**.

Diese Modellinformationen werden in einer Modellspezifikation erfasst, also erstellen wir eine!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Nachdem ein Modell *spezifiziert* wurde, kann das Modell mit der [`fit()`](https://parsnip.tidymodels.org/reference/fit.html)-Funktion `gesch√§tzt` oder `trainiert` werden, typischerweise unter Verwendung einer Formel und einiger Daten.

`y ~ .` bedeutet, dass wir `y` als die vorhergesagte Gr√∂√üe/Zielvariable anpassen, erkl√§rt durch alle Pr√§diktoren/Merkmale, also `.` (in diesem Fall haben wir nur einen Pr√§diktor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Aus den Modell-Ausgaben k√∂nnen wir die w√§hrend des Trainings gelernten Koeffizienten erkennen. Sie repr√§sentieren die Koeffizienten der Ausgleichsgeraden, die den geringsten Gesamtfehler zwischen der tats√§chlichen und der vorhergesagten Variablen liefert.
<br>

## 5. Vorhersagen f√ºr den Testdatensatz treffen

Nachdem wir nun ein Modell trainiert haben, k√∂nnen wir es verwenden, um die Krankheitsprogression y f√ºr den Testdatensatz mithilfe von [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html) vorherzusagen. Dies wird genutzt, um die Linie zwischen den Datenclustern zu ziehen.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! üíÉüï∫ Wir haben gerade ein Modell trainiert und es verwendet, um Vorhersagen zu treffen!

Beim Erstellen von Vorhersagen ist es in der tidymodels-Konvention √ºblich, immer ein Tibble/Data-Frame mit standardisierten Spaltennamen zu erzeugen. Dies erleichtert es, die Originaldaten und die Vorhersagen in einem nutzbaren Format zu kombinieren, um sie f√ºr nachfolgende Operationen wie das Plotten zu verwenden.

`dplyr::bind_cols()` verbindet effizient mehrere Data-Frames spaltenweise.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Modellierungsergebnisse visualisieren

Jetzt ist es an der Zeit, dies visuell darzustellen üìà. Wir erstellen ein Streudiagramm aller `y`- und `bmi`-Werte des Testdatensatzes und verwenden dann die Vorhersagen, um eine Linie an der passendsten Stelle zwischen den Datenclustern des Modells zu zeichnen.

R bietet mehrere Systeme zur Erstellung von Grafiken, aber `ggplot2` ist eines der elegantesten und vielseitigsten. Es erm√∂glicht dir, Grafiken durch **Kombination unabh√§ngiger Komponenten** zu erstellen.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ Denk mal dar√ºber nach, was hier genau passiert. Eine gerade Linie verl√§uft durch viele kleine Datenpunkte, aber was macht sie eigentlich genau? Kannst du erkennen, wie du diese Linie nutzen k√∂nntest, um vorherzusagen, wo ein neuer, noch nicht gesehener Datenpunkt in Bezug auf die y-Achse des Plots liegen sollte? Versuche, den praktischen Nutzen dieses Modells in Worte zu fassen.

Herzlichen Gl√ºckwunsch, du hast dein erstes lineares Regressionsmodell erstellt, eine Vorhersage damit gemacht und es in einem Plot dargestellt!



---

**Haftungsausschluss**:  
Dieses Dokument wurde mithilfe des KI-√úbersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) √ºbersetzt. Obwohl wir uns um Genauigkeit bem√ºhen, weisen wir darauf hin, dass automatisierte √úbersetzungen Fehler oder Ungenauigkeiten enthalten k√∂nnen. Das Originaldokument in seiner urspr√ºnglichen Sprache sollte als ma√ügebliche Quelle betrachtet werden. F√ºr kritische Informationen wird eine professionelle menschliche √úbersetzung empfohlen. Wir √ºbernehmen keine Haftung f√ºr Missverst√§ndnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser √úbersetzung ergeben.
