# Erstellen eines Regressionsmodells: Daten vorbereiten und visualisieren

## **Lineare Regression f√ºr K√ºrbisse - Lektion 2**
#### Einf√ºhrung

Jetzt, da Sie mit den Werkzeugen ausgestattet sind, die Sie f√ºr den Einstieg in den Aufbau von Machine-Learning-Modellen mit Tidymodels und dem Tidyverse ben√∂tigen, k√∂nnen Sie beginnen, Fragen an Ihre Daten zu stellen. Wenn Sie mit Daten arbeiten und ML-L√∂sungen anwenden, ist es √§u√üerst wichtig, zu verstehen, wie man die richtigen Fragen stellt, um das Potenzial Ihres Datensatzes vollst√§ndig auszusch√∂pfen.

In dieser Lektion lernen Sie:

-   Wie Sie Ihre Daten f√ºr den Modellaufbau vorbereiten.

-   Wie Sie `ggplot2` f√ºr die Datenvisualisierung nutzen.

Die Frage, die Sie beantwortet haben m√∂chten, bestimmt, welche Art von ML-Algorithmen Sie verwenden werden. Und die Qualit√§t der Antwort, die Sie erhalten, h√§ngt stark von der Beschaffenheit Ihrer Daten ab.

Lassen Sie uns dies anhand einer praktischen √úbung genauer betrachten.

<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Kunstwerk von @allison_horst</figcaption>


<!--![Kunstwerk von \@allison_horst](../../../../../../translated_images/unruly_data.0eedc7ced92d2d919cf5ea197bfe0fe9a30780c4bf7cdcf14ff4e9dc5a4c7267.de.jpg)<br>Kunstwerk von \@allison_horst-->


## 1. Importieren von K√ºrbisdaten und Aufrufen des Tidyverse

Wir ben√∂tigen die folgenden Pakete, um diese Lektion zu bearbeiten:

-   `tidyverse`: Das [tidyverse](https://www.tidyverse.org/) ist eine [Sammlung von R-Paketen](https://www.tidyverse.org/packages), die darauf ausgelegt ist, Datenwissenschaft schneller, einfacher und unterhaltsamer zu machen!

Sie k√∂nnen sie wie folgt installieren:

`install.packages(c("tidyverse"))`

Das untenstehende Skript √ºberpr√ºft, ob Sie die f√ºr dieses Modul ben√∂tigten Pakete haben, und installiert sie f√ºr Sie, falls einige fehlen.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Lassen Sie uns nun einige Pakete starten und die [Daten](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) laden, die f√ºr diese Lektion bereitgestellt wurden!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Ein schneller `glimpse()` zeigt sofort, dass es L√ºcken gibt und eine Mischung aus Zeichenketten (`chr`) und numerischen Daten (`dbl`). Das `Date`-Feld ist vom Typ Zeichenkette, und es gibt auch eine seltsame Spalte namens `Package`, in der die Daten eine Mischung aus `sacks`, `bins` und anderen Werten sind. Die Daten sind, ehrlich gesagt, ein bisschen chaotisch üò§.

Tats√§chlich ist es nicht sehr h√§ufig, ein Datenset zu erhalten, das vollst√§ndig einsatzbereit ist, um direkt ein ML-Modell daraus zu erstellen. Aber keine Sorge, in dieser Lektion wirst du lernen, wie man ein rohes Datenset mit Standardbibliotheken in R vorbereitet üßë‚Äçüîß. Au√üerdem wirst du verschiedene Techniken zur Visualisierung der Daten kennenlernen. üìàüìä
<br>

> Eine Auffrischung: Der Pipe-Operator (`%>%`) f√ºhrt Operationen in logischer Reihenfolge aus, indem er ein Objekt an eine Funktion oder einen Ausdruck weiterleitet. Du kannst den Pipe-Operator so verstehen, als w√ºrdest du in deinem Code "und dann" sagen.


## 2. √úberpr√ºfung auf fehlende Daten

Eines der h√§ufigsten Probleme, mit denen Datenwissenschaftler umgehen m√ºssen, sind unvollst√§ndige oder fehlende Daten. R stellt fehlende oder unbekannte Werte mit einem speziellen Platzhalter dar: `NA` (Not Available).

Wie k√∂nnen wir also feststellen, ob der Data Frame fehlende Werte enth√§lt?  
<br>
-   Eine einfache M√∂glichkeit w√§re die Verwendung der Basis-R-Funktion `anyNA`, die die logischen Werte `TRUE` oder `FALSE` zur√ºckgibt.


In [None]:
pumpkins %>% 
  anyNA()

Super, es scheint, als ob einige Daten fehlen! Das ist ein guter Ausgangspunkt.

-   Eine andere M√∂glichkeit w√§re, die Funktion `is.na()` zu verwenden, die anzeigt, welche einzelnen Spaltenelemente mit einem logischen `TRUE` fehlen.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Okay, erledigt, aber bei einem so gro√üen Dataframe wie diesem w√§re es ineffizient und praktisch unm√∂glich, alle Zeilen und Spalten einzeln zu √ºberpr√ºfenüò¥.

-   Eine intuitivere Methode w√§re, die Summe der fehlenden Werte f√ºr jede Spalte zu berechnen:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Viel besser! Es fehlen einige Daten, aber vielleicht spielt das f√ºr die Aufgabe keine Rolle. Mal sehen, welche weiteren Analysen Ergebnisse bringen.

> Neben den gro√üartigen Paketen und Funktionen verf√ºgt R √ºber eine sehr gute Dokumentation. Zum Beispiel k√∂nnen Sie `help(colSums)` oder `?colSums` verwenden, um mehr √ºber die Funktion zu erfahren.


## 3. Dplyr: Eine Grammatik f√ºr Datenmanipulation

<p>
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Illustration von @allison_horst</figcaption>


<!--![Illustration von \@allison_horst](../../../../../../translated_images/dplyr_wrangling.f5f99c64fd4580f1377fee3ea428b6f8fd073845ec0f8409d483cfe148f0984e.de.png)<br/>Illustration von \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), ein Paket im Tidyverse, ist eine Grammatik f√ºr Datenmanipulation, die eine einheitliche Sammlung von Verben bereitstellt, um die h√§ufigsten Herausforderungen bei der Datenmanipulation zu l√∂sen. In diesem Abschnitt werden wir einige der Verben von dplyr erkunden!  
<br>


#### dplyr::select()

`select()` ist eine Funktion aus dem Paket `dplyr`, mit der du Spalten ausw√§hlen kannst, die du behalten oder ausschlie√üen m√∂chtest.

Um deinen Data Frame √ºbersichtlicher zu gestalten, kannst du mit `select()` mehrere Spalten entfernen und nur die behalten, die du ben√∂tigst.

Zum Beispiel werden wir in dieser √úbung die Spalten `Package`, `Low Price`, `High Price` und `Date` f√ºr unsere Analyse verwenden. Lass uns diese Spalten ausw√§hlen.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` ist eine Funktion im Paket `dplyr`, mit der Sie Spalten erstellen oder √§ndern k√∂nnen, w√§hrend die bestehenden Spalten erhalten bleiben.

Die allgemeine Struktur von `mutate` lautet:

`data %>%   mutate(new_column_name = what_it_contains)`

Lassen Sie uns `mutate` ausprobieren, indem wir die Spalte `Date` verwenden und die folgenden Operationen durchf√ºhren:

1.  Konvertieren Sie die Daten (derzeit vom Typ Zeichenkette) in ein Monatsformat (es handelt sich um US-Daten, das Format ist also `MM/DD/YYYY`).

2.  Extrahieren Sie den Monat aus den Daten in eine neue Spalte.

Im R-Paket [lubridate](https://lubridate.tidyverse.org/) wird die Arbeit mit Datums- und Zeitdaten erleichtert. Also verwenden wir `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` und schauen, wie wir die oben genannten Ziele erreichen k√∂nnen. Wir k√∂nnen die Spalte `Date` entfernen, da wir sie in den nachfolgenden Operationen nicht mehr ben√∂tigen.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Woohoo! ü§©

Als N√§chstes erstellen wir eine neue Spalte `Price`, die den Durchschnittspreis eines K√ºrbisses darstellt. Jetzt berechnen wir den Durchschnitt der Spalten `Low Price` und `High Price`, um die neue Spalte Price zu f√ºllen.
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Yeees!üí™

‚ÄûAber Moment mal!‚Äú, wirst du sagen, nachdem du das gesamte Datenset mit `View(pumpkins)` durchgesehen hast, ‚ÄûHier stimmt doch etwas nicht!‚Äúü§î

Wenn du dir die Spalte `Package` ansiehst, werden K√ºrbisse in vielen verschiedenen Konfigurationen verkauft. Einige werden in `1 1/9 bushel`-Ma√üen verkauft, andere in `1/2 bushel`-Ma√üen, einige pro K√ºrbis, einige pro Pfund und einige in gro√üen Kisten mit unterschiedlichen Breiten.

Lass uns das √ºberpr√ºfen:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Erstaunlich!üëè

K√ºrbisse scheinen sehr schwer konsistent zu wiegen zu sein, daher filtern wir sie, indem wir nur K√ºrbisse mit dem String *bushel* in der Spalte `Package` ausw√§hlen und diese in einen neuen Dataframe `new_pumpkins` speichern.
<br>


#### dplyr::filter() und stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): erstellt eine Teilmenge der Daten, die nur **Zeilen** enth√§lt, die Ihre Bedingungen erf√ºllen, in diesem Fall K√ºrbisse mit dem String *bushel* in der Spalte `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): erkennt das Vorhandensein oder Fehlen eines Musters in einem String.

Das [`stringr`](https://github.com/tidyverse/stringr)-Paket bietet einfache Funktionen f√ºr g√§ngige String-Operationen.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Du kannst sehen, dass wir uns auf etwa 415 Zeilen Daten beschr√§nkt haben, die K√ºrbisse in gro√üen Mengen enthalten. ü§©
<br>


#### dplyr::case_when()

**Aber Moment! Es gibt noch etwas zu tun**

Hast du bemerkt, dass die Menge pro Scheffel je nach Zeile variiert? Du musst die Preise normalisieren, sodass sie pro Scheffel angezeigt werden und nicht pro 1 1/9 oder 1/2 Scheffel. Zeit f√ºr etwas Mathematik, um das zu standardisieren.

Wir verwenden die Funktion [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html), um die Spalte "Price" je nach bestimmten Bedingungen zu *mutieren*. `case_when` erm√∂glicht es, mehrere `if_else()`-Anweisungen zu vektorisieren.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Jetzt k√∂nnen wir die Preise pro Einheit basierend auf ihrer Buschel-Messung analysieren. All diese Untersuchung der K√ºrbis-Buschel zeigt jedoch, wie `wichtig` es ist, `die Natur Ihrer Daten zu verstehen`!

> ‚úÖ Laut [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) h√§ngt das Gewicht eines Buschels von der Art des Produkts ab, da es sich um eine Volumenmessung handelt. "Ein Buschel Tomaten soll beispielsweise 56 Pfund wiegen... Bl√§tter und Gr√ºnzeug nehmen mehr Platz mit weniger Gewicht ein, sodass ein Buschel Spinat nur 20 Pfund wiegt." Das ist alles ziemlich kompliziert! Lassen wir die Umrechnung von Buschel zu Pfund beiseite und setzen stattdessen den Preis pro Buschel an. All diese Untersuchung der K√ºrbis-Buschel zeigt jedoch, wie wichtig es ist, die Natur Ihrer Daten zu verstehen!
>
> ‚úÖ Ist Ihnen aufgefallen, dass K√ºrbisse, die pro halbem Buschel verkauft werden, sehr teuer sind? K√∂nnen Sie herausfinden, warum? Hinweis: Kleine K√ºrbisse sind viel teurer als gro√üe, wahrscheinlich weil es viel mehr von ihnen pro Buschel gibt, da der ungenutzte Raum von einem gro√üen hohlen Kuchen-K√ºrbis eingenommen wird.


Nun, zum Schluss, einfach aus Abenteuerlust üíÅ‚Äç‚ôÄÔ∏è, verschieben wir die Spalte "Month" an die erste Position, also `vor` die Spalte "Package".

`dplyr::relocate()` wird verwendet, um die Position von Spalten zu √§ndern.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Gute Arbeit! üëå Du hast jetzt einen sauberen, aufger√§umten Datensatz, mit dem du dein neues Regressionsmodell erstellen kannst!  
<br>


## 4. Datenvisualisierung mit ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografik von Dasani Madipalli</figcaption>


<!--![Infografik von Dasani Madipalli](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.de.png){width="600"}-->

Es gibt ein *weises* Sprichwort, das so lautet:

> "Das einfache Diagramm hat dem Datenanalysten mehr Informationen geliefert als jedes andere Hilfsmittel." --- John Tukey

Ein Teil der Aufgabe eines Data Scientists besteht darin, die Qualit√§t und die Eigenschaften der Daten, mit denen er arbeitet, zu demonstrieren. Dazu erstellen sie oft interessante Visualisierungen, wie Diagramme, Grafiken und Charts, die verschiedene Aspekte der Daten zeigen. Auf diese Weise k√∂nnen sie Beziehungen und L√ºcken visuell darstellen, die sonst schwer zu erkennen w√§ren.

Visualisierungen k√∂nnen auch dabei helfen, die am besten geeignete Machine-Learning-Technik f√ºr die Daten zu bestimmen. Ein Streudiagramm, das einer Linie zu folgen scheint, deutet beispielsweise darauf hin, dass die Daten gut f√ºr eine lineare Regression geeignet sind.

R bietet mehrere Systeme zur Erstellung von Grafiken, aber [`ggplot2`](https://ggplot2.tidyverse.org/index.html) ist eines der elegantesten und vielseitigsten. Mit `ggplot2` k√∂nnen Sie Grafiken erstellen, indem Sie **unabh√§ngige Komponenten kombinieren**.

Beginnen wir mit einem einfachen Streudiagramm f√ºr die Spalten Price und Month.

In diesem Fall starten wir mit [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), geben einen Datensatz und eine √§sthetische Zuordnung (mit [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) an und f√ºgen dann Schichten hinzu (wie [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) f√ºr Streudiagramme.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Ist das ein n√ºtzlicher Plot ü§∑? √úberrascht dich irgendetwas daran?

Er ist nicht besonders n√ºtzlich, da er lediglich deine Daten als eine Ansammlung von Punkten in einem bestimmten Monat darstellt.
<br>


### **Wie machen wir es n√ºtzlich?**

Um Diagramme mit n√ºtzlichen Daten anzuzeigen, m√ºssen die Daten normalerweise irgendwie gruppiert werden. In unserem Fall w√ºrde beispielsweise das Ermitteln des Durchschnittspreises von K√ºrbissen f√ºr jeden Monat mehr Einblicke in die zugrunde liegenden Muster unserer Daten liefern. Das f√ºhrt uns zu einem weiteren **dplyr**-√úberblick:

#### `dplyr::group_by() %>% summarize()`

Gruppierte Aggregationen in R k√∂nnen einfach berechnet werden mit

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` √§ndert die Analyseebene von dem gesamten Datensatz zu einzelnen Gruppen, wie beispielsweise pro Monat.

-   `dplyr::summarize()` erstellt einen neuen Dataframe mit einer Spalte f√ºr jede Gruppierungsvariable und einer Spalte f√ºr jede der angegebenen Zusammenfassungsstatistiken.

Zum Beispiel k√∂nnen wir `dplyr::group_by() %>% summarize()` verwenden, um die K√ºrbisse basierend auf der **Monat**-Spalte zu gruppieren und dann den **Durchschnittspreis** f√ºr jeden Monat zu berechnen.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Knapp und b√ºndig!‚ú®

Kategorische Merkmale wie Monate werden besser mit einem Balkendiagramm üìä dargestellt. Die Ebenen, die f√ºr Balkendiagramme zust√§ndig sind, sind `geom_bar()` und `geom_col()`. Sieh dir `?geom_bar` an, um mehr zu erfahren.

Lass uns eins erstellen!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§© Dies ist eine n√ºtzlichere Datenvisualisierung! Sie scheint darauf hinzudeuten, dass die h√∂chsten Preise f√ºr K√ºrbisse im September und Oktober auftreten. Entspricht das deinen Erwartungen? Warum oder warum nicht?

Herzlichen Gl√ºckwunsch zum Abschluss der zweiten Lektion üëè! Du hast deine Daten f√ºr den Modellaufbau vorbereitet und anschlie√üend weitere Erkenntnisse mithilfe von Visualisierungen gewonnen!



---

**Haftungsausschluss**:  
Dieses Dokument wurde mithilfe des KI-√úbersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) √ºbersetzt. Obwohl wir uns um Genauigkeit bem√ºhen, weisen wir darauf hin, dass automatisierte √úbersetzungen Fehler oder Ungenauigkeiten enthalten k√∂nnen. Das Originaldokument in seiner urspr√ºnglichen Sprache sollte als ma√ügebliche Quelle betrachtet werden. F√ºr kritische Informationen wird eine professionelle menschliche √úbersetzung empfohlen. Wir √ºbernehmen keine Haftung f√ºr Missverst√§ndnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser √úbersetzung ergeben.
