# Byg en klassifikationsmodel: L√¶kre asiatiske og indiske retter


## Klassifikatorer for k√∏kken 2

I denne anden lektion om klassifikation vil vi udforske `flere m√•der` at klassificere kategoriske data p√•. Vi vil ogs√• l√¶re om konsekvenserne ved at v√¶lge √©n klassifikator frem for en anden.

### [**Quiz f√∏r lektionen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Foruds√¶tninger**

Vi antager, at du har gennemf√∏rt de tidligere lektioner, da vi vil bygge videre p√• nogle af de begreber, vi tidligere har l√¶rt.

Til denne lektion skal vi bruge f√∏lgende pakker:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling af R-pakker](https://www.tidyverse.org/packages), der er designet til at g√∏re datavidenskab hurtigere, nemmere og sjovere!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) er en [rammev√¶rk af pakker](https://www.tidymodels.org/packages/) til modellering og maskinl√¶ring.

-   `themis`: [themis-pakken](https://themis.tidymodels.org/) tilbyder ekstra opskridt til h√•ndtering af ubalancerede data.

Du kan installere dem med f√∏lgende kommando:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativt kan scriptet nedenfor kontrollere, om du har de n√∏dvendige pakker til at gennemf√∏re dette modul, og installere dem for dig, hvis de mangler.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Et klassifikationskort**

I vores [forrige lektion](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1) fors√∏gte vi at besvare sp√∏rgsm√•let: hvordan v√¶lger vi mellem flere modeller? I h√∏j grad afh√¶nger det af dataenes karakteristika og typen af problem, vi √∏nsker at l√∏se (for eksempel klassifikation eller regression).

Tidligere l√¶rte vi om de forskellige muligheder, du har, n√•r du klassificerer data ved hj√¶lp af Microsofts cheat sheet. Python's Machine Learning-framework, Scikit-learn, tilbyder et lignende, men mere detaljeret cheat sheet, der yderligere kan hj√¶lpe med at indsn√¶vre dine estimators (et andet ord for klassifikatorer):

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Tip: [bes√∏g dette kort online](https://scikit-learn.org/stable/tutorial/machine_learning_map/) og klik langs stien for at l√¶se dokumentationen.
>
> [Tidymodels reference-siden](https://www.tidymodels.org/find/parsnip/#models) giver ogs√• fremragende dokumentation om forskellige typer modeller.

### **Planen** üó∫Ô∏è

Dette kort er meget nyttigt, n√•r du har et klart overblik over dine data, da du kan 'g√•' langs dets stier til en beslutning:

-   Vi har \>50 pr√∏ver

-   Vi √∏nsker at forudsige en kategori

-   Vi har m√¶rkede data

-   Vi har f√¶rre end 100K pr√∏ver

-   ‚ú® Vi kan v√¶lge en Linear SVC

-   Hvis det ikke virker, da vi har numeriske data

    -   Kan vi pr√∏ve en ‚ú® KNeighbors Classifier

        -   Hvis det heller ikke virker, pr√∏v ‚ú® SVC og ‚ú® Ensemble Classifiers

Dette er en meget nyttig sti at f√∏lge. Lad os nu komme i gang med at bruge [tidymodels](https://www.tidymodels.org/) modelleringsrammen: en konsistent og fleksibel samling af R-pakker udviklet til at fremme god statistisk praksis üòä.

## 2. Opdel dataene og h√•ndter ubalancerede datas√¶t.

Fra vores tidligere lektioner l√¶rte vi, at der var et s√¶t af f√¶lles ingredienser p√• tv√¶rs af vores k√∏kkener. Derudover var der en ret ulige fordeling i antallet af k√∏kkener.

Vi vil h√•ndtere dette ved at

-   Fjerne de mest almindelige ingredienser, der skaber forvirring mellem forskellige k√∏kkener, ved hj√¶lp af `dplyr::select()`.

-   Bruge en `recipe`, der forbehandler dataene, s√• de er klar til modellering, ved at anvende en `over-sampling` algoritme.

Vi har allerede kigget p√• ovenst√•ende i den tidligere lektion, s√• dette burde v√¶re en leg ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### H√•ndtering af ubalancerede data

Ubalancerede data har ofte en negativ indvirkning p√• modellens ydeevne. Mange modeller fungerer bedst, n√•r antallet af observationer er lige, og har derfor tendens til at k√¶mpe med ubalancerede data.

Der er prim√¶rt to m√•der at h√•ndtere ubalancerede datas√¶t p√•:

-   tilf√∏je observationer til minoritetsklassen: `Over-sampling`, f.eks. ved brug af en SMOTE-algoritme, som syntetisk genererer nye eksempler af minoritetsklassen ved hj√¶lp af n√¶rmeste naboer til disse tilf√¶lde.

-   fjerne observationer fra majoritetsklassen: `Under-sampling`

I vores tidligere lektion demonstrerede vi, hvordan man h√•ndterer ubalancerede datas√¶t ved hj√¶lp af en `recipe`. En recipe kan betragtes som en k√∏replan, der beskriver, hvilke trin der skal anvendes p√• et datas√¶t for at g√∏re det klar til dataanalyse. I vores tilf√¶lde √∏nsker vi at have en lige fordeling i antallet af vores k√∏kkener for vores `training set`. Lad os komme i gang.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Nu er vi klar til at tr√¶ne modeller üë©‚Äçüíªüë®‚Äçüíª!

## 3. Ud over multinomial regressionsmodeller

I vores tidligere lektion kiggede vi p√• multinomial regressionsmodeller. Lad os udforske nogle mere fleksible modeller til klassifikation.

### Support Vector Machines

I forbindelse med klassifikation er `Support Vector Machines` en maskinl√¶ringsteknik, der fors√∏ger at finde et *hyperplan*, som "bedst" adskiller klasserne. Lad os se p√• et simpelt eksempel:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ adskiller ikke klasserne. H2~ g√∏r det, men kun med en lille margin. H3~ adskiller dem med den maksimale margin.

#### Line√¶r Support Vector Classifier

Support-Vector clustering (SVC) er en del af Support-Vector maskinerne, som er en familie af ML-teknikker. I SVC v√¶lges hyperplanet, s√• det korrekt adskiller `de fleste` af tr√¶ningsobservationerne, men `kan fejlagtigt klassificere` nogle f√• observationer. Ved at tillade, at nogle punkter er p√• den forkerte side, bliver SVM mere robust over for outliers og dermed bedre til at generalisere til nye data. Den parameter, der regulerer denne overtr√¶delse, kaldes `cost`, som har en standardv√¶rdi p√• 1 (se `help("svm_poly")`).

Lad os oprette en line√¶r SVC ved at s√¶tte `degree = 1` i en polynomisk SVM-model.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Nu hvor vi har samlet forbehandlingsskridtene og modelspecifikationen i en *workflow*, kan vi g√• videre og tr√¶ne den line√¶re SVC og evaluere resultaterne samtidig. For at m√•le ydeevnen, lad os oprette et s√¶t af metrikker, der vil evaluere: `accuracy`, `sensitivity`, `Positive Predicted Value` og `F Measure`.

> `augment()` vil tilf√∏je kolonne(r) med forudsigelser til de givne data.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### Support Vector Machine

Support vector maskinen (SVM) er en udvidelse af support vector klassifikatoren for at kunne h√•ndtere en ikke-line√¶r gr√¶nse mellem klasserne. Grundl√¶ggende bruger SVM'er *kernel-tricket* til at udvide feature-rummet for at tilpasse sig ikke-line√¶re relationer mellem klasserne. En popul√¶r og meget fleksibel kernel-funktion, der bruges af SVM'er, er *Radial basis function.* Lad os se, hvordan den klarer sig p√• vores data.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Meget bedre ü§©!

> ‚úÖ Se venligst:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> for yderligere l√¶sning.

### N√¶rmeste nabo-klassifikatorer

*K*-n√¶rmeste nabo (KNN) er en algoritme, hvor hver observation forudsiges baseret p√• dens *lighed* med andre observationer.

Lad os tilpasse en til vores data.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Det ser ud til, at denne model ikke klarer sig s√• godt. Det er sandsynligt, at √¶ndring af modellens parametre (se `help("nearest_neighbor")`) vil forbedre modellens ydeevne. S√∏rg for at pr√∏ve det.

> ‚úÖ Se venligst:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> for at l√¶re mere om *K*-Nearest Neighbors klassifikatorer.

### Ensemble klassifikatorer

Ensemble-algoritmer fungerer ved at kombinere flere basismodeller for at producere en optimal model enten ved:

`bagging`: anvendelse af en *gennemsnitsfunktion* p√• en samling af basismodeller

`boosting`: opbygning af en sekvens af modeller, der bygger p√• hinanden for at forbedre den pr√¶diktive ydeevne.

Lad os starte med at pr√∏ve en Random Forest-model, som opbygger en stor samling af beslutningstr√¶er og derefter anvender en gennemsnitsfunktion for at skabe en bedre samlet model.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Godt klaret üëè!

Lad os ogs√• eksperimentere med en Boosted Tree-model.

Boosted Tree definerer en ensemblemetode, der skaber en r√¶kke sekventielle beslutningstr√¶er, hvor hvert tr√¶ afh√¶nger af resultaterne fra de tidligere tr√¶er i et fors√∏g p√• gradvist at reducere fejlen. Den fokuserer p√• v√¶gten af forkert klassificerede elementer og justerer tilpasningen for den n√¶ste klassifikator for at rette op.

Der er forskellige m√•der at tilpasse denne model p√• (se `help("boost_tree")`). I dette eksempel vil vi tilpasse Boosted Trees via `xgboost`-motoren.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Se:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Udforsker AdaBoost-modellen, som er et godt alternativ til xgboost.
>
> for at l√¶re mere om Ensemble-klassifikatorer.

## 4. Ekstra - sammenligning af flere modeller

Vi har tilpasset en hel del modeller i denne √∏velse üôå. Det kan blive tidskr√¶vende eller besv√¶rligt at oprette mange workflows fra forskellige s√¶t af preprocessorer og/eller modelspecifikationer og derefter beregne pr√¶stationsm√•linger √©n efter √©n.

Lad os se, om vi kan l√∏se dette ved at oprette en funktion, der tilpasser en liste af workflows p√• tr√¶ningss√¶ttet og derefter returnerer pr√¶stationsm√•lingerne baseret p√• test-s√¶ttet. Vi kommer til at bruge `map()` og `map_dfr()` fra [purrr](https://purrr.tidyverse.org/) pakken til at anvende funktioner p√• hvert element i en liste.

> [`map()`](https://purrr.tidyverse.org/reference/map.html) funktioner giver dig mulighed for at erstatte mange for-l√∏kker med kode, der b√•de er mere kortfattet og lettere at l√¶se. Det bedste sted at l√¶re om [`map()`](https://purrr.tidyverse.org/reference/map.html) funktionerne er [iteration-kapitlet](http://r4ds.had.co.nz/iteration.html) i R for data science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


[**workflowset**](https://workflowsets.tidymodels.org/) pakken giver brugerne mulighed for at oprette og nemt tilpasse et stort antal modeller, men den er prim√¶rt designet til at arbejde med genpr√∏vningsteknikker som f.eks. `cross-validation`, en metode vi endnu ikke har d√¶kket.

## **üöÄUdfordring**

Hver af disse teknikker har et stort antal parametre, som du kan justere, for eksempel `cost` i SVM'er, `neighbors` i KNN, `mtry` (Tilf√¶ldigt Valgte Predictors) i Random Forest.

Unders√∏g standardparametrene for hver enkelt og overvej, hvad det ville betyde for modellens kvalitet at justere disse parametre.

For at finde mere information om en bestemt model og dens parametre, brug: `help("model")`, f.eks. `help("rand_forest")`.

> I praksis *estimerer* vi normalt de *bedste v√¶rdier* for disse ved at tr√¶ne mange modeller p√• et `simuleret datas√¶t` og m√•le, hvor godt alle disse modeller pr√¶sterer. Denne proces kaldes **tuning**.

### [**Quiz efter forel√¶sningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Gennemgang & Selvstudie**

Der er mange fagudtryk i disse lektioner, s√• tag et √∏jeblik til at gennemg√• [denne liste](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) med nyttig terminologi!

#### TAK TIL:

[`Allison Horst`](https://twitter.com/allison_horst/) for at skabe de fantastiske illustrationer, der g√∏r R mere im√∏dekommende og engagerende. Find flere illustrationer i hendes [galleri](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) og [Jen Looper](https://www.twitter.com/jenlooper) for at skabe den originale Python-version af dette modul ‚ô•Ô∏è

God l√¶ring,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Illustration af @allison_horst</figcaption>



---

**Ansvarsfraskrivelse**:  
Dette dokument er blevet oversat ved hj√¶lp af AI-overs√¶ttelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestr√¶ber os p√• at sikre n√∏jagtighed, skal du v√¶re opm√¶rksom p√•, at automatiserede overs√¶ttelser kan indeholde fejl eller un√∏jagtigheder. Det originale dokument p√• dets oprindelige sprog b√∏r betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig overs√¶ttelse. Vi p√•tager os intet ansvar for misforst√•elser eller fejltolkninger, der m√•tte opst√• som f√∏lge af brugen af denne overs√¶ttelse.
