## Erkunde K-Means-Clustering mit R und den Prinzipien von Tidy Data.

### [**Quiz vor der Lektion**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/29/)

In dieser Lektion lernst du, wie du mit dem Tidymodels-Paket und anderen Paketen aus dem R-√ñkosystem (wir nennen sie Freunde üßë‚Äçü§ù‚Äçüßë) sowie dem nigerianischen Musikdatensatz, den du zuvor importiert hast, Cluster erstellen kannst. Wir behandeln die Grundlagen von K-Means f√ºr das Clustering. Denke daran, dass es, wie du in der vorherigen Lektion gelernt hast, viele M√∂glichkeiten gibt, mit Clustern zu arbeiten, und die Methode, die du w√§hlst, von deinen Daten abh√§ngt. Wir werden K-Means ausprobieren, da es die am h√§ufigsten verwendete Clustering-Technik ist. Los geht's!

Begriffe, die du kennenlernen wirst:

-   Silhouettenbewertung

-   Elbow-Methode

-   Tr√§gheit

-   Varianz

### **Einf√ºhrung**

[K-Means-Clustering](https://wikipedia.org/wiki/K-means_clustering) ist eine Methode, die aus dem Bereich der Signalverarbeitung stammt. Sie wird verwendet, um Gruppen von Daten basierend auf √Ñhnlichkeiten ihrer Merkmale in `k Cluster` zu unterteilen und zu partitionieren.

Die Cluster k√∂nnen als [Voronoi-Diagramme](https://wikipedia.org/wiki/Voronoi_diagram) visualisiert werden, die einen Punkt (oder 'Seed') und dessen entsprechende Region enthalten.

<p >
   <img src="../../images/voronoi.png"
   width="500"/>
   <figcaption>Infografik von Jen Looper</figcaption>


Die Schritte des K-Means-Clustering sind wie folgt:

1.  Der Datenwissenschaftler beginnt damit, die gew√ºnschte Anzahl von Clustern festzulegen, die erstellt werden sollen.

2.  Anschlie√üend w√§hlt der Algorithmus zuf√§llig K Beobachtungen aus dem Datensatz aus, die als anf√§ngliche Zentren der Cluster (d. h. Zentroiden) dienen.

3.  Danach wird jede der verbleibenden Beobachtungen ihrem n√§chstgelegenen Zentroiden zugewiesen.

4.  Anschlie√üend werden die neuen Mittelwerte jedes Clusters berechnet und der Zentroid wird zum Mittelwert verschoben.

5.  Nun, da die Zentren neu berechnet wurden, wird jede Beobachtung erneut √ºberpr√ºft, um festzustellen, ob sie m√∂glicherweise n√§her an einem anderen Cluster liegt. Alle Objekte werden erneut unter Verwendung der aktualisierten Cluster-Mittelwerte zugewiesen. Die Schritte der Clusterzuweisung und der Aktualisierung der Zentroiden werden iterativ wiederholt, bis sich die Clusterzuweisungen nicht mehr √§ndern (d. h. wenn Konvergenz erreicht ist). Typischerweise endet der Algorithmus, wenn jede neue Iteration zu einer vernachl√§ssigbaren Bewegung der Zentroiden f√ºhrt und die Cluster statisch werden.

<div>

> Beachte, dass aufgrund der Zuf√§lligkeit der anf√§nglichen k Beobachtungen, die als Startzentroiden verwendet werden, jedes Mal, wenn wir das Verfahren anwenden, leicht unterschiedliche Ergebnisse erzielt werden k√∂nnen. Aus diesem Grund verwenden die meisten Algorithmen mehrere *zuf√§llige Starts* und w√§hlen die Iteration mit dem niedrigsten WCSS. Daher wird dringend empfohlen, K-Means immer mit mehreren Werten von *nstart* auszuf√ºhren, um ein *unerw√ºnschtes lokales Optimum* zu vermeiden.

</div>

Diese kurze Animation, die die [Illustrationen](https://github.com/allisonhorst/stats-illustrations) von Allison Horst verwendet, erkl√§rt den Clustering-Prozess:

<p >
   <img src="../../images/kmeans.gif"
   width="550"/>
   <figcaption>Illustration von @allison_horst</figcaption>



Eine grundlegende Frage, die beim Clustering aufkommt, ist: Wie wei√üt du, in wie viele Cluster du deine Daten aufteilen sollst? Ein Nachteil der Verwendung von K-Means ist, dass du `k`, also die Anzahl der `Zentroiden`, festlegen musst. Gl√ºcklicherweise hilft die `Elbow-Methode`, einen guten Ausgangswert f√ºr `k` zu sch√§tzen. Du wirst es gleich ausprobieren.

### 

**Voraussetzung**

Wir machen genau dort weiter, wo wir in der [vorherigen Lektion](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb) aufgeh√∂rt haben, in der wir den Datensatz analysiert, viele Visualisierungen erstellt und den Datensatz auf interessante Beobachtungen gefiltert haben. Schau sie dir unbedingt an!

Wir ben√∂tigen einige Pakete, um dieses Modul abzuschlie√üen. Du kannst sie wie folgt installieren: `install.packages(c('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork'))`

Alternativ √ºberpr√ºft das folgende Skript, ob du die f√ºr dieses Modul erforderlichen Pakete hast, und installiert sie f√ºr dich, falls einige fehlen.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork')


Los geht's!

## 1. Ein Tanz mit Daten: Eingrenzen auf die 3 beliebtesten Musikgenres

Dies ist eine Zusammenfassung dessen, was wir in der vorherigen Lektion gemacht haben. Lass uns ein paar Daten analysieren!


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv", show_col_types = FALSE)

# Narrow down to top 3 popular genres
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres using bar plots
theme_set(theme_light())
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


ü§© Das lief gut!

## 2. Mehr Datenexploration.

Wie sauber sind diese Daten? Lassen Sie uns Ausrei√üer mithilfe von Boxplots √ºberpr√ºfen. Wir konzentrieren uns auf numerische Spalten mit weniger Ausrei√üern (auch wenn Sie die Ausrei√üer bereinigen k√∂nnten). Boxplots k√∂nnen den Wertebereich der Daten zeigen und helfen, auszuw√§hlen, welche Spalten verwendet werden sollen. Beachten Sie, dass Boxplots keine Varianz darstellen, ein wichtiger Aspekt f√ºr gut clustbare Daten. Weitere Informationen finden Sie in [dieser Diskussion](https://stats.stackexchange.com/questions/91536/deduce-variance-from-boxplot).

[Boxplots](https://de.wikipedia.org/wiki/Box-Plot) werden verwendet, um die Verteilung von `numerischen` Daten grafisch darzustellen. Beginnen wir also damit, alle numerischen Spalten zusammen mit den beliebten Musikgenres *auszuw√§hlen*.


In [None]:
# Select top genre column and all other numeric columns
df_numeric <- nigerian_songs %>% 
  select(artist_top_genre, where(is.numeric)) 

# Display the data
df_numeric %>% 
  slice_head(n = 5)


Sehen Sie, wie der Auswahlhelfer `where` das so einfach macht üíÅ? Entdecken Sie weitere solche Funktionen [hier](https://tidyselect.r-lib.org/).

Da wir f√ºr jede numerische Eigenschaft ein Boxplot erstellen werden und Schleifen vermeiden m√∂chten, formatieren wir unsere Daten in ein *l√§ngeres* Format um. Dadurch k√∂nnen wir `facets` nutzen ‚Äì Unterdiagramme, die jeweils einen Teil der Daten anzeigen.


In [None]:
# Pivot data from wide to long
df_numeric_long <- df_numeric %>% 
  pivot_longer(!artist_top_genre, names_to = "feature_names", values_to = "values") 

# Print out data
df_numeric_long %>% 
  slice_head(n = 15)


Viel l√§nger! Jetzt ist es Zeit f√ºr einige `ggplots`! Welches `geom` werden wir verwenden?


In [None]:
# Make a box plot
df_numeric_long %>% 
  ggplot(mapping = aes(x = feature_names, y = values, fill = feature_names)) +
  geom_boxplot() +
  facet_wrap(~ feature_names, ncol = 4, scales = "free") +
  theme(legend.position = "none")


Easy-gg!

Jetzt k√∂nnen wir sehen, dass diese Daten etwas unruhig sind: Wenn man jede Spalte als Boxplot betrachtet, erkennt man Ausrei√üer. Man k√∂nnte den Datensatz durchgehen und diese Ausrei√üer entfernen, aber das w√ºrde die Daten ziemlich minimal machen.

F√ºr den Moment w√§hlen wir aus, welche Spalten wir f√ºr unsere Cluster-√úbung verwenden werden. Lassen Sie uns die numerischen Spalten mit √§hnlichen Bereichen ausw√§hlen. Wir k√∂nnten `artist_top_genre` als numerisch codieren, aber wir lassen es vorerst weg.


In [None]:
# Select variables with similar ranges
df_numeric_select <- df_numeric %>% 
  select(popularity, danceability, acousticness, loudness, energy) 

# Normalize data
# df_numeric_select <- scale(df_numeric_select)


## 3. Berechnung von k-means Clustering in R

Wir k√∂nnen k-means in R mit der integrierten Funktion `kmeans` berechnen, siehe `help("kmeans()")`. Die Funktion `kmeans()` akzeptiert als Hauptargument einen Data Frame mit ausschlie√ülich numerischen Spalten.

Der erste Schritt bei der Verwendung von k-means Clustering besteht darin, die Anzahl der Cluster (k) festzulegen, die in der endg√ºltigen L√∂sung erzeugt werden sollen. Wir wissen, dass es 3 Musikgenres gibt, die wir aus dem Datensatz herausgearbeitet haben, also probieren wir es mit 3:


In [None]:
set.seed(2056)
# Kmeans clustering for 3 clusters
kclust <- kmeans(
  df_numeric_select,
  # Specify the number of clusters
  centers = 3,
  # How many random initial configurations
  nstart = 25
)

# Display clustering object
kclust


Das kmeans-Objekt enth√§lt mehrere Informationen, die in `help("kmeans()")` gut erkl√§rt werden. F√ºr den Moment konzentrieren wir uns auf einige davon. Wir sehen, dass die Daten in 3 Cluster mit den Gr√∂√üen 65, 110, 111 gruppiert wurden. Die Ausgabe enth√§lt au√üerdem die Clusterzentren (Mittelwerte) f√ºr die 3 Gruppen √ºber die 5 Variablen.

Der Clustering-Vektor ist die Clusterzuweisung f√ºr jede Beobachtung. Nutzen wir die Funktion `augment`, um die Clusterzuweisung dem urspr√ºnglichen Datensatz hinzuzuf√ºgen.


In [None]:
# Add predicted cluster assignment to data set
augment(kclust, df_numeric_select) %>% 
  relocate(.cluster) %>% 
  slice_head(n = 10)


Perfekt, wir haben gerade unseren Datensatz in 3 Gruppen aufgeteilt. Aber wie gut ist unser Clustering ü§∑? Schauen wir uns den `Silhouette-Score` an.

### **Silhouette-Score**

[Silhouette-Analyse](https://en.wikipedia.org/wiki/Silhouette_(clustering)) kann verwendet werden, um die Trennungsdistanz zwischen den resultierenden Clustern zu untersuchen. Dieser Score variiert zwischen -1 und 1. Wenn der Score nahe bei 1 liegt, ist das Cluster dicht und gut von anderen Clustern getrennt. Ein Wert nahe 0 repr√§sentiert sich √ºberlappende Cluster, bei denen die Datenpunkte sehr nah an der Entscheidungsgrenze der benachbarten Cluster liegen. [Quelle](https://dzone.com/articles/kmeans-silhouette-score-explained-with-python-exam).

Die Methode des durchschnittlichen Silhouette-Scores berechnet den durchschnittlichen Silhouette-Wert der Beobachtungen f√ºr verschiedene Werte von *k*. Ein hoher durchschnittlicher Silhouette-Score deutet auf ein gutes Clustering hin.

Die `silhouette`-Funktion im Cluster-Paket wird verwendet, um die durchschnittliche Silhouette-Breite zu berechnen.

> Der Silhouette-Score kann mit jeder [Distanz](https://en.wikipedia.org/wiki/Distance "Distance")-Metrik berechnet werden, wie z. B. der [euklidischen Distanz](https://en.wikipedia.org/wiki/Euclidean_distance "Euclidean distance") oder der [Manhattan-Distanz](https://en.wikipedia.org/wiki/Manhattan_distance "Manhattan distance"), die wir in der [vorherigen Lektion](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb) besprochen haben.


In [None]:
# Load cluster package
library(cluster)

# Compute average silhouette score
ss <- silhouette(kclust$cluster,
                 # Compute euclidean distance
                 dist = dist(df_numeric_select))
mean(ss[, 3])


Unser Score ist **0,549**, also genau in der Mitte. Das deutet darauf hin, dass unsere Daten nicht besonders gut f√ºr diese Art der Clusterbildung geeignet sind. Schauen wir, ob wir diese Vermutung visuell best√§tigen k√∂nnen. Das [factoextra-Paket](https://rpkgs.datanovia.com/factoextra/index.html) stellt Funktionen (`fviz_cluster()`) zur Verf√ºgung, um Cluster visuell darzustellen.


In [None]:
library(factoextra)

# Visualize clustering results
fviz_cluster(kclust, df_numeric_select)


Die √úberlappung der Cluster zeigt, dass unsere Daten f√ºr diese Art der Clusterbildung nicht besonders gut geeignet sind, aber lassen Sie uns trotzdem weitermachen.

## 4. Bestimmung der optimalen Anzahl von Clustern

Eine grundlegende Frage, die bei der K-Means-Clusterbildung h√§ufig auftritt, lautet: Ohne bekannte Klassenlabels, wie wissen wir, in wie viele Cluster die Daten unterteilt werden sollen?

Eine M√∂glichkeit, dies herauszufinden, besteht darin, eine Datenprobe zu verwenden, um `eine Reihe von Clustering-Modellen` mit einer steigenden Anzahl von Clustern zu erstellen (z. B. von 1 bis 10) und Clustering-Metriken wie den **Silhouette-Score** zu bewerten.

Lassen Sie uns die optimale Anzahl von Clustern bestimmen, indem wir den Clustering-Algorithmus f√ºr verschiedene Werte von *k* berechnen und die **Summe der Quadrate innerhalb der Cluster** (WCSS) bewerten. Die gesamte Summe der Quadrate innerhalb der Cluster (WCSS) misst die Kompaktheit der Clusterbildung, und wir m√∂chten, dass sie so klein wie m√∂glich ist. Niedrigere Werte bedeuten, dass die Datenpunkte n√§her beieinander liegen.

Lassen Sie uns die Auswirkungen verschiedener Werte von `k`, von 1 bis 10, auf diese Clusterbildung untersuchen.


In [None]:
# Create a series of clustering models
kclusts <- tibble(k = 1:10) %>% 
  # Perform kmeans clustering for 1,2,3 ... ,10 clusters
  mutate(model = map(k, ~ kmeans(df_numeric_select, centers = .x, nstart = 25)),
  # Farm out clustering metrics eg WCSS
         glanced = map(model, ~ glance(.x))) %>% 
  unnest(cols = glanced)
  

# View clustering rsulsts
kclusts


Nun, da wir die gesamte innerhalb-Cluster-Summe der Quadrate (tot.withinss) f√ºr jeden Clustering-Algorithmus mit Zentrum *k* haben, verwenden wir die [Elbow-Methode](https://en.wikipedia.org/wiki/Elbow_method_(clustering)), um die optimale Anzahl von Clustern zu finden. Die Methode besteht darin, die WCSS als Funktion der Anzahl der Cluster zu plotten und den [Knick der Kurve](https://en.wikipedia.org/wiki/Elbow_of_the_curve "Knick der Kurve") als die Anzahl der zu verwendenden Cluster auszuw√§hlen.


In [None]:
set.seed(2056)
# Use elbow method to determine optimum number of clusters
kclusts %>% 
  ggplot(mapping = aes(x = k, y = tot.withinss)) +
  geom_line(size = 1.2, alpha = 0.8, color = "#FF7F0EFF") +
  geom_point(size = 2, color = "#FF7F0EFF")


Die Grafik zeigt eine deutliche Reduktion des WCSS (also eine gr√∂√üere *Kompaktheit*), wenn die Anzahl der Cluster von eins auf zwei steigt, sowie eine weitere merkliche Reduktion von zwei auf drei Cluster. Danach wird die Reduktion weniger ausgepr√§gt, was zu einem `Knick` üí™ im Diagramm bei etwa drei Clustern f√ºhrt. Dies ist ein guter Hinweis darauf, dass es zwei bis drei einigerma√üen gut getrennte Cluster von Datenpunkten gibt.

Wir k√∂nnen nun das Clustering-Modell extrahieren, bei dem `k = 3` ist:

> `pull()`: wird verwendet, um eine einzelne Spalte zu extrahieren
>
> `pluck()`: wird verwendet, um Datenstrukturen wie Listen zu indexieren


In [None]:
# Extract k = 3 clustering
final_kmeans <- kclusts %>% 
  filter(k == 3) %>% 
  pull(model) %>% 
  pluck(1)


final_kmeans


Super! Lassen Sie uns die erhaltenen Cluster visualisieren. Lust auf etwas Interaktivit√§t mit `plotly`?


In [None]:
# Add predicted cluster assignment to data set
results <-  augment(final_kmeans, df_numeric_select) %>% 
  bind_cols(df_numeric %>% select(artist_top_genre)) 

# Plot cluster assignments
clust_plt <- results %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = .cluster, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("ggthemes::Tableau_10")

ggplotly(clust_plt)


Vielleicht h√§tten wir erwartet, dass jeder Cluster (repr√§sentiert durch verschiedene Farben) unterschiedliche Genres (repr√§sentiert durch verschiedene Formen) aufweist.

Werfen wir einen Blick auf die Genauigkeit des Modells.


In [None]:
# Assign genres to predefined integers
label_count <- results %>% 
  group_by(artist_top_genre) %>% 
  mutate(id = cur_group_id()) %>% 
  ungroup() %>% 
  summarise(correct_labels = sum(.cluster == id))


# Print results  
cat("Result:", label_count$correct_labels, "out of", nrow(results), "samples were correctly labeled.")

cat("\nAccuracy score:", label_count$correct_labels/nrow(results))


Die Genauigkeit dieses Modells ist nicht schlecht, aber auch nicht besonders gut. Es k√∂nnte daran liegen, dass die Daten sich nicht gut f√ºr K-Means-Clustering eignen. Die Daten sind zu unausgewogen, zu wenig korreliert, und es gibt zu viel Varianz zwischen den Spaltenwerten, um gut zu clustern. Tats√§chlich werden die gebildeten Cluster wahrscheinlich stark von den drei oben definierten Genre-Kategorien beeinflusst oder verzerrt.

Nichtsdestotrotz war das ein ziemlich lehrreicher Prozess!

In der Dokumentation von Scikit-learn kann man sehen, dass ein Modell wie dieses, bei dem die Cluster nicht klar abgegrenzt sind, ein 'Varianz'-Problem hat:

<p >
   <img src="../../images/problems.png"
   width="500"/>
   <figcaption>Infografik von Scikit-learn</figcaption>



## **Varianz**

Varianz wird definiert als "der Durchschnitt der quadrierten Abweichungen vom Mittelwert" [Quelle](https://www.mathsisfun.com/data/standard-deviation.html). Im Kontext dieses Clustering-Problems bezieht sich dies darauf, dass die Zahlen in unserem Datensatz dazu neigen, sich zu stark vom Mittelwert zu entfernen.

‚úÖ Dies ist ein gro√üartiger Moment, um √ºber alle M√∂glichkeiten nachzudenken, wie man dieses Problem beheben k√∂nnte. Die Daten noch etwas anpassen? Andere Spalten verwenden? Einen anderen Algorithmus ausprobieren? Tipp: Versuchen Sie, [Ihre Daten zu skalieren](https://www.mygreatlearning.com/blog/learning-data-science-with-k-means-clustering/), um sie zu normalisieren, und testen Sie andere Spalten.

> Probieren Sie diesen '[Varianzrechner](https://www.calculatorsoup.com/calculators/statistics/variance-calculator.php)' aus, um das Konzept besser zu verstehen.

------------------------------------------------------------------------

## **üöÄHerausforderung**

Verbringen Sie etwas Zeit mit diesem Notebook und passen Sie die Parameter an. K√∂nnen Sie die Genauigkeit des Modells verbessern, indem Sie die Daten weiter bereinigen (z. B. Ausrei√üer entfernen)? Sie k√∂nnen Gewichte verwenden, um bestimmten Datenproben mehr Gewicht zu geben. Was k√∂nnen Sie sonst noch tun, um bessere Cluster zu erstellen?

Tipp: Versuchen Sie, Ihre Daten zu skalieren. Im Notebook gibt es auskommentierten Code, der eine Standard-Skalierung hinzuf√ºgt, um die Daten-Spalten in Bezug auf den Wertebereich einander √§hnlicher zu machen. Sie werden feststellen, dass der Silhouetten-Score zwar sinkt, aber der 'Knick' im Elbogen-Diagramm gegl√§ttet wird. Das liegt daran, dass unskalierte Daten es Daten mit weniger Varianz erm√∂glichen, mehr Gewicht zu tragen. Lesen Sie mehr √ºber dieses Problem [hier](https://stats.stackexchange.com/questions/21222/are-mean-normalization-and-feature-scaling-needed-for-k-means-clustering/21226#21226).

## [**Quiz nach der Vorlesung**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/30/)

## **√úberblick & Selbststudium**

-   Schauen Sie sich einen K-Means-Simulator [wie diesen hier](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/) an. Mit diesem Tool k√∂nnen Sie Beispieldatenpunkte visualisieren und deren Zentroiden bestimmen. Sie k√∂nnen die Zuf√§lligkeit der Daten, die Anzahl der Cluster und die Anzahl der Zentroiden bearbeiten. Hilft Ihnen das, eine Vorstellung davon zu bekommen, wie die Daten gruppiert werden k√∂nnen?

-   Werfen Sie auch einen Blick auf [dieses Handout zu K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) von Stanford.

M√∂chten Sie Ihre neu erworbenen Clustering-F√§higkeiten an Datens√§tzen ausprobieren, die sich gut f√ºr K-Means-Clustering eignen? Schauen Sie sich Folgendes an:

-   [Train and Evaluate Clustering Models](https://rpubs.com/eR_ic/clustering) mit Tidymodels und Co.

-   [K-means Cluster Analysis](https://uc-r.github.io/kmeans_clustering), UC Business Analytics R Programming Guide

- [K-means clustering with tidy data principles](https://www.tidymodels.org/learn/statistics/k-means/)

## **Aufgabe**

[Probieren Sie verschiedene Clustering-Methoden aus](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/2-K-Means/assignment.md)

## EIN GROSSES DANKESCH√ñN AN:

[Jen Looper](https://www.twitter.com/jenlooper) f√ºr die Erstellung der urspr√ºnglichen Python-Version dieses Moduls ‚ô•Ô∏è

[`Allison Horst`](https://twitter.com/allison_horst/) f√ºr die Erstellung der gro√üartigen Illustrationen, die R einladender und ansprechender machen. Weitere Illustrationen finden Sie in ihrer [Galerie](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

Viel Spa√ü beim Lernen,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="500"/>
   <figcaption>Kunstwerk von @allison_horst</figcaption>



---

**Haftungsausschluss**:  
Dieses Dokument wurde mithilfe des KI-√úbersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) √ºbersetzt. Obwohl wir uns um Genauigkeit bem√ºhen, weisen wir darauf hin, dass automatisierte √úbersetzungen Fehler oder Ungenauigkeiten enthalten k√∂nnen. Das Originaldokument in seiner urspr√ºnglichen Sprache sollte als ma√ügebliche Quelle betrachtet werden. F√ºr kritische Informationen wird eine professionelle menschliche √úbersetzung empfohlen. Wir √ºbernehmen keine Haftung f√ºr Missverst√§ndnisse oder Fehlinterpretationen, die aus der Nutzung dieser √úbersetzung entstehen.
