# Erstellen Sie ein Klassifikationsmodell: K√∂stliche asiatische und indische K√ºchen


## K√ºchenklassifikatoren 2

In dieser zweiten Lektion zur Klassifikation werden wir `weitere M√∂glichkeiten` zur Klassifikation von kategorialen Daten erkunden. Au√üerdem werden wir die Auswirkungen der Wahl eines Klassifikators gegen√ºber einem anderen kennenlernen.

### [**Quiz vor der Vorlesung**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Voraussetzungen**

Wir gehen davon aus, dass Sie die vorherigen Lektionen abgeschlossen haben, da wir einige zuvor erlernte Konzepte weiterf√ºhren werden.

F√ºr diese Lektion ben√∂tigen wir die folgenden Pakete:

-   `tidyverse`: Das [tidyverse](https://www.tidyverse.org/) ist eine [Sammlung von R-Paketen](https://www.tidyverse.org/packages), die darauf abzielt, Datenwissenschaft schneller, einfacher und unterhaltsamer zu machen!

-   `tidymodels`: Das [tidymodels](https://www.tidymodels.org/) Framework ist eine [Sammlung von Paketen](https://www.tidymodels.org/packages/) f√ºr Modellierung und maschinelles Lernen.

-   `themis`: Das [themis-Paket](https://themis.tidymodels.org/) bietet zus√§tzliche Rezeptschritte f√ºr den Umgang mit unausgewogenen Daten.

Sie k√∂nnen diese Pakete wie folgt installieren:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativ √ºberpr√ºft das untenstehende Skript, ob Sie die f√ºr dieses Modul ben√∂tigten Pakete installiert haben, und installiert sie f√ºr Sie, falls sie fehlen.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Eine Klassifikations√ºbersicht**

In unserer [vorherigen Lektion](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1) haben wir versucht, die Frage zu beantworten: Wie w√§hlt man zwischen mehreren Modellen aus? In hohem Ma√üe h√§ngt dies von den Eigenschaften der Daten und der Art des Problems ab, das wir l√∂sen m√∂chten (zum Beispiel Klassifikation oder Regression?).

Zuvor haben wir die verschiedenen M√∂glichkeiten kennengelernt, die Ihnen zur Verf√ºgung stehen, wenn Sie Daten mithilfe von Microsofts Spickzettel klassifizieren. Das Machine-Learning-Framework von Python, Scikit-learn, bietet einen √§hnlichen, aber detaillierteren Spickzettel, der Ihnen dabei helfen kann, Ihre Auswahl an Sch√§tzern (ein anderer Begriff f√ºr Klassifikatoren) weiter einzugrenzen:

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Tipp: [Besuchen Sie diese Karte online](https://scikit-learn.org/stable/tutorial/machine_learning_map/) und klicken Sie entlang des Pfads, um die Dokumentation zu lesen.
>
> Die [Tidymodels-Referenzseite](https://www.tidymodels.org/find/parsnip/#models) bietet ebenfalls eine hervorragende Dokumentation √ºber verschiedene Modelltypen.

### **Der Plan** üó∫Ô∏è

Diese Karte ist sehr hilfreich, sobald Sie ein klares Verst√§ndnis Ihrer Daten haben, da Sie entlang ihrer Pfade zu einer Entscheidung ‚Äûgehen‚Äú k√∂nnen:

-   Wir haben \>50 Proben

-   Wir m√∂chten eine Kategorie vorhersagen

-   Wir haben beschriftete Daten

-   Wir haben weniger als 100.000 Proben

-   ‚ú® Wir k√∂nnen einen Linear SVC w√§hlen

-   Wenn das nicht funktioniert, da wir numerische Daten haben

    -   K√∂nnen wir einen ‚ú® KNeighbors Classifier ausprobieren

        -   Wenn das nicht funktioniert, probieren Sie ‚ú® SVC und ‚ú® Ensemble Classifiers

Dies ist ein sehr hilfreicher Pfad, dem man folgen kann. Jetzt legen wir direkt los und nutzen das [tidymodels](https://www.tidymodels.org/) Modellierungs-Framework: eine konsistente und flexible Sammlung von R-Paketen, die entwickelt wurden, um gute statistische Praktiken zu f√∂rdern üòä.

## 2. Daten aufteilen und mit unausgewogenen Datens√§tzen umgehen.

Aus unseren vorherigen Lektionen haben wir gelernt, dass es eine Reihe von gemeinsamen Zutaten in unseren K√ºchen gab. Au√üerdem gab es eine ziemlich ungleiche Verteilung in der Anzahl der K√ºchen.

Wir werden damit umgehen, indem wir:

-   Die h√§ufigsten Zutaten, die Verwirrung zwischen verschiedenen K√ºchen schaffen, mit `dplyr::select()` entfernen.

-   Ein `recipe` verwenden, das die Daten vorverarbeitet, um sie f√ºr die Modellierung vorzubereiten, indem ein `over-sampling`-Algorithmus angewendet wird.

Wir haben das oben bereits in der vorherigen Lektion behandelt, daher sollte das ein Kinderspiel sein ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### Umgang mit unausgeglichenen Daten

Unausgeglichene Daten haben oft negative Auswirkungen auf die Modellleistung. Viele Modelle erzielen die besten Ergebnisse, wenn die Anzahl der Beobachtungen gleich ist, und haben daher Schwierigkeiten mit unausgeglichenen Daten.

Es gibt im Wesentlichen zwei Ans√§tze, um mit unausgeglichenen Datens√§tzen umzugehen:

-   Hinzuf√ºgen von Beobachtungen zur Minderheitsklasse: `Over-sampling`, z. B. mit einem SMOTE-Algorithmus, der synthetisch neue Beispiele der Minderheitsklasse generiert, indem er die n√§chsten Nachbarn dieser F√§lle verwendet.

-   Entfernen von Beobachtungen aus der Mehrheitsklasse: `Under-sampling`

In unserer vorherigen Lektion haben wir demonstriert, wie man mit unausgeglichenen Datens√§tzen mithilfe eines `recipe` umgeht. Ein Recipe kann als eine Art Blaupause betrachtet werden, die beschreibt, welche Schritte auf einen Datensatz angewendet werden sollten, um ihn f√ºr die Datenanalyse vorzubereiten. In unserem Fall m√∂chten wir eine gleichm√§√üige Verteilung der Anzahl unserer K√ºchenstile im `training set` erreichen. Legen wir los.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Jetzt sind wir bereit, Modelle zu trainieren üë©‚Äçüíªüë®‚Äçüíª!

## 3. √úber multinomiale Regressionsmodelle hinaus

In unserer vorherigen Lektion haben wir uns mit multinomialen Regressionsmodellen besch√§ftigt. Lassen Sie uns einige flexiblere Modelle f√ºr die Klassifikation erkunden.

### Support Vector Machines

Im Kontext der Klassifikation ist `Support Vector Machines` eine Technik des maschinellen Lernens, die versucht, eine *Hyperebene* zu finden, die die Klassen "optimal" trennt. Schauen wir uns ein einfaches Beispiel an:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ trennt die Klassen nicht. H2~ trennt sie, aber nur mit einem kleinen Abstand. H3~ trennt sie mit dem maximalen Abstand.

#### Linearer Support-Vector-Klassifikator

Support-Vector-Clustering (SVC) ist ein Mitglied der Familie der Support-Vector-Maschinen (SVM), einer Technik des maschinellen Lernens. Beim SVC wird die Hyperebene so gew√§hlt, dass sie `die meisten` Trainingsbeobachtungen korrekt trennt, aber `einige` Beobachtungen m√∂glicherweise falsch klassifiziert. Indem einige Punkte auf der falschen Seite erlaubt werden, wird die SVM robuster gegen√ºber Ausrei√üern und erzielt dadurch eine bessere Generalisierung auf neue Daten. Der Parameter, der diese Abweichung reguliert, wird als `cost` bezeichnet und hat standardm√§√üig den Wert 1 (siehe `help("svm_poly")`).

Lassen Sie uns einen linearen SVC erstellen, indem wir `degree = 1` in einem polynomialen SVM-Modell setzen.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Nun, da wir die Vorverarbeitungsschritte und die Modellspezifikation in einem *Workflow* erfasst haben, k√∂nnen wir fortfahren, den linearen SVC zu trainieren und die Ergebnisse dabei auszuwerten. F√ºr die Leistungskennzahlen erstellen wir ein Metrik-Set, das folgende Werte bewertet: `accuracy`, `sensitivity`, `Positive Predicted Value` und `F Measure`.

> `augment()` f√ºgt der angegebenen Datenmenge Spalte(n) f√ºr Vorhersagen hinzu.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### Support Vector Machine

Die Support Vector Machine (SVM) ist eine Erweiterung des Support Vector Classifiers, um eine nicht-lineare Grenze zwischen den Klassen zu erm√∂glichen. Im Wesentlichen nutzen SVMs den *Kernel-Trick*, um den Merkmalsraum zu erweitern und sich an nichtlineare Beziehungen zwischen den Klassen anzupassen. Eine beliebte und √§u√üerst flexible Kernel-Funktion, die von SVMs verwendet wird, ist die *Radial Basis Function.* Schauen wir uns an, wie sie sich auf unseren Daten schl√§gt.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Viel besser ü§©!

> ‚úÖ Bitte siehe:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning mit R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), Eine Einf√ºhrung in Statistisches Lernen mit Anwendungen in R
>
> f√ºr weiterf√ºhrende Lekt√ºre.

### N√§chster-Nachbar-Klassifikatoren

Der *k*-n√§chste Nachbar (KNN) ist ein Algorithmus, bei dem jede Beobachtung basierend auf ihrer *√Ñhnlichkeit* zu anderen Beobachtungen vorhergesagt wird.

Lass uns einen auf unsere Daten anwenden.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Es scheint, dass dieses Modell nicht besonders gut abschneidet. Wahrscheinlich wird eine Anpassung der Modellparameter (siehe `help("nearest_neighbor")`) die Leistung verbessern. Probieren Sie es unbedingt aus.

> ‚úÖ Weitere Informationen finden Sie unter:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> um mehr √ºber *K*-Nearest Neighbors-Klassifikatoren zu erfahren.

### Ensemble-Klassifikatoren

Ensemble-Algorithmen funktionieren, indem sie mehrere Basis-Estimatoren kombinieren, um ein optimales Modell zu erstellen, entweder durch:

`bagging`: Anwenden einer *Mittelungsfunktion* auf eine Sammlung von Basismodellen

`boosting`: Erstellen einer Sequenz von Modellen, die aufeinander aufbauen, um die Vorhersageleistung zu verbessern.

Beginnen wir mit einem Random-Forest-Modell, das eine gro√üe Sammlung von Entscheidungsb√§umen erstellt und dann eine Mittelungsfunktion anwendet, um ein besseres Gesamtmodell zu erhalten.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Gute Arbeit üëè!

Lass uns auch ein Boosted-Tree-Modell ausprobieren.

Boosted Tree definiert eine Ensemble-Methode, die eine Reihe von sequentiellen Entscheidungsb√§umen erstellt, bei denen jeder Baum von den Ergebnissen der vorherigen B√§ume abh√§ngt, um den Fehler schrittweise zu reduzieren. Der Fokus liegt auf den Gewichten der falsch klassifizierten Elemente, und die Anpassung f√ºr den n√§chsten Klassifikator wird entsprechend korrigiert.

Es gibt verschiedene M√∂glichkeiten, dieses Modell anzupassen (siehe `help("boost_tree")`). In diesem Beispiel passen wir Boosted Trees √ºber die `xgboost`-Engine an.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Bitte sehen Sie:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Untersucht das AdaBoost-Modell, das eine gute Alternative zu xgboost darstellt.
>
> um mehr √ºber Ensemble-Klassifikatoren zu erfahren.

## 4. Extra - Vergleich mehrerer Modelle

Wir haben in diesem Lab eine ganze Reihe von Modellen angepasst üôå. Es kann m√ºhsam oder aufwendig werden, viele Workflows aus verschiedenen Sets von Preprozessoren und/oder Modellspezifikationen zu erstellen und dann die Leistungskennzahlen einzeln zu berechnen.

Schauen wir, ob wir das vereinfachen k√∂nnen, indem wir eine Funktion erstellen, die eine Liste von Workflows auf den Trainingssatz anpasst und dann die Leistungskennzahlen basierend auf dem Testsatz zur√ºckgibt. Wir werden `map()` und `map_dfr()` aus dem [purrr](https://purrr.tidyverse.org/) Paket verwenden, um Funktionen auf jedes Element in einer Liste anzuwenden.

> [`map()`](https://purrr.tidyverse.org/reference/map.html)-Funktionen erm√∂glichen es, viele for-Schleifen durch Code zu ersetzen, der sowohl k√ºrzer als auch leichter lesbar ist. Der beste Ort, um mehr √ºber die [`map()`](https://purrr.tidyverse.org/reference/map.html)-Funktionen zu lernen, ist das [Kapitel √ºber Iteration](http://r4ds.had.co.nz/iteration.html) in "R for Data Science".


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


[**workflowset**](https://workflowsets.tidymodels.org/) Paket erm√∂glicht es Nutzern, eine gro√üe Anzahl von Modellen zu erstellen und einfach anzupassen. Es ist jedoch haupts√§chlich darauf ausgelegt, mit Resampling-Techniken wie `cross-validation` zu arbeiten, eine Methode, die wir noch behandeln werden.

## **üöÄHerausforderung**

Jede dieser Techniken hat eine Vielzahl von Parametern, die Sie anpassen k√∂nnen, wie zum Beispiel `cost` bei SVMs, `neighbors` bei KNN, `mtry` (zuf√§llig ausgew√§hlte Pr√§diktoren) bei Random Forest.

Recherchieren Sie die Standardparameter jedes Modells und √ºberlegen Sie, was das Anpassen dieser Parameter f√ºr die Qualit√§t des Modells bedeuten w√ºrde.

Um mehr √ºber ein bestimmtes Modell und seine Parameter zu erfahren, verwenden Sie: `help("model")`, z. B. `help("rand_forest")`.

> In der Praxis *sch√§tzen* wir normalerweise die *besten Werte* f√ºr diese Parameter, indem wir viele Modelle auf einem `simulierten Datensatz` trainieren und messen, wie gut diese Modelle abschneiden. Dieser Prozess wird **Tuning** genannt.

### [**Quiz nach der Vorlesung**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **√úberblick & Selbststudium**

Es gibt viele Fachbegriffe in diesen Lektionen, nehmen Sie sich daher einen Moment Zeit, um [diese Liste](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) n√ºtzlicher Begriffe zu √ºberpr√ºfen!

#### EIN DANKESCH√ñN AN:

[`Allison Horst`](https://twitter.com/allison_horst/) f√ºr die gro√üartigen Illustrationen, die R einladender und ansprechender machen. Weitere Illustrationen finden Sie in ihrer [Galerie](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) und [Jen Looper](https://www.twitter.com/jenlooper) f√ºr die Erstellung der urspr√ºnglichen Python-Version dieses Moduls ‚ô•Ô∏è

Viel Spa√ü beim Lernen,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Kunstwerk von @allison_horst</figcaption>



---

**Haftungsausschluss**:  
Dieses Dokument wurde mit dem KI-√úbersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) √ºbersetzt. Obwohl wir uns um Genauigkeit bem√ºhen, weisen wir darauf hin, dass automatisierte √úbersetzungen Fehler oder Ungenauigkeiten enthalten k√∂nnen. Das Originaldokument in seiner urspr√ºnglichen Sprache sollte als ma√ügebliche Quelle betrachtet werden. F√ºr kritische Informationen wird eine professionelle menschliche √úbersetzung empfohlen. Wir √ºbernehmen keine Haftung f√ºr Missverst√§ndnisse oder Fehlinterpretationen, die aus der Nutzung dieser √úbersetzung entstehen.
