## Klassifisering av matretter 2

I denne andre leksjonen om klassifisering skal vi utforske `flere m√•ter` √• klassifisere kategoriske data p√•. Vi skal ogs√• l√¶re om konsekvensene ved √• velge √©n klassifikator fremfor en annen.

### [**Quiz f√∏r forelesning**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Forutsetninger**

Vi antar at du har fullf√∏rt de tidligere leksjonene, siden vi vil bygge videre p√• noen konsepter vi l√¶rte tidligere.

For denne leksjonen trenger vi f√∏lgende pakker:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling av R-pakker](https://www.tidyverse.org/packages) som er designet for √• gj√∏re dataanalyse raskere, enklere og mer morsomt!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) er et [rammeverk med pakker](https://www.tidymodels.org/packages/) for modellering og maskinl√¶ring.

-   `themis`: [themis-pakken](https://themis.tidymodels.org/) gir ekstra oppskritt for √• h√•ndtere ubalanserte data.

Du kan installere dem slik:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativt kan skriptet nedenfor sjekke om du har de n√∏dvendige pakkene for √• fullf√∏re dette modulen, og installere dem for deg hvis de mangler.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Et klassifiseringskart**

I v√•r [forrige leksjon](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1) fors√∏kte vi √• besvare sp√∏rsm√•let: hvordan velger vi mellom flere modeller? I stor grad avhenger det av egenskapene til dataene og typen problem vi √∏nsker √• l√∏se (for eksempel klassifisering eller regresjon).

Tidligere l√¶rte vi om de ulike alternativene du har n√•r du klassifiserer data ved hjelp av Microsofts jukselapp. Python sitt maskinl√¶ringsrammeverk, Scikit-learn, tilbyr en lignende, men mer detaljert jukselapp som kan hjelpe deg med √• snevre inn dine estimators (et annet begrep for klassifikatorer):

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Tips: [bes√∏k dette kartet online](https://scikit-learn.org/stable/tutorial/machine_learning_map/) og klikk langs stien for √• lese dokumentasjonen.
>
> Referansesiden for [Tidymodels](https://www.tidymodels.org/find/parsnip/#models) gir ogs√• utmerket dokumentasjon om ulike typer modeller.

### **Planen** üó∫Ô∏è

Dette kartet er veldig nyttig n√•r du har en klar forst√•else av dataene dine, da du kan 'g√•' langs stiene til en beslutning:

-   Vi har \>50 pr√∏ver

-   Vi √∏nsker √• forutsi en kategori

-   Vi har merket data

-   Vi har f√¶rre enn 100K pr√∏ver

-   ‚ú® Vi kan velge en Linear SVC

-   Hvis det ikke fungerer, siden vi har numeriske data

    -   Vi kan pr√∏ve en ‚ú® KNeighbors Classifier

        -   Hvis det ikke fungerer, pr√∏v ‚ú® SVC og ‚ú® Ensemble Classifiers

Dette er en veldig nyttig sti √• f√∏lge. N√•, la oss komme i gang med [tidymodels](https://www.tidymodels.org/) modelleringsrammeverket: en konsistent og fleksibel samling av R-pakker utviklet for √• oppmuntre til god statistisk praksis üòä.

## 2. Del opp dataene og h√•ndter ubalanserte datasett.

Fra v√•re tidligere leksjoner l√¶rte vi at det var et sett med vanlige ingredienser p√• tvers av v√•re kj√∏kken. Det var ogs√• en ganske ujevn fordeling i antall kj√∏kken.

Vi vil h√•ndtere dette ved √•

-   Fjerne de vanligste ingrediensene som skaper forvirring mellom ulike kj√∏kken, ved √• bruke `dplyr::select()`.

-   Bruke en `recipe` som forh√•ndsprosesserer dataene for √• gj√∏re dem klare for modellering ved √• bruke en `over-sampling`-algoritme.

Vi har allerede sett p√• dette i den forrige leksjonen, s√• dette b√∏r g√• som en lek ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### H√•ndtering av ubalanserte data

Ubalanserte data har ofte negative effekter p√• modellens ytelse. Mange modeller fungerer best n√•r antallet observasjoner er likt, og har derfor en tendens til √• slite med ubalanserte data.

Det finnes hovedsakelig to m√•ter √• h√•ndtere ubalanserte datasett p√•:

-   legge til observasjoner i minoritetsklassen: `Over-sampling`, for eksempel ved √• bruke en SMOTE-algoritme som syntetisk genererer nye eksempler av minoritetsklassen ved hjelp av n√¶rmeste naboer til disse tilfellene.

-   fjerne observasjoner fra majoritetsklassen: `Under-sampling`

I v√•r forrige leksjon demonstrerte vi hvordan man kan h√•ndtere ubalanserte datasett ved hjelp av en `recipe`. En recipe kan betraktes som en plan som beskriver hvilke steg som skal brukes p√• et datasett for √• gj√∏re det klart for dataanalyse. I v√•rt tilfelle √∏nsker vi √• ha en lik fordeling i antallet av v√•re matretter for v√•rt `training set`. La oss sette i gang.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

N√• er vi klare til √• trene modeller üë©‚Äçüíªüë®‚Äçüíª!

## 3. Utover multinomiale regresjonsmodeller

I v√•r forrige leksjon s√• vi p√• multinomiale regresjonsmodeller. La oss utforske noen mer fleksible modeller for klassifisering.

### Support Vector Machines

I sammenheng med klassifisering er `Support Vector Machines` en maskinl√¶ringsteknikk som pr√∏ver √• finne et *hyperplan* som "best" skiller klassene. La oss se p√• et enkelt eksempel:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ skiller ikke klassene. H2~ gj√∏r det, men bare med en liten margin. H3~ skiller dem med maksimal margin.

#### Line√¶r Support Vector Classifier

Support-Vector clustering (SVC) er en del av Support-Vector-maskiner-familien av ML-teknikker. I SVC velges hyperplanet for √• korrekt skille `de fleste` av treningsobservasjonene, men `kan feilkategorisere` noen observasjoner. Ved √• tillate at noen punkter er p√• feil side, blir SVM mer robust mot uteliggere og dermed bedre til √• generalisere til nye data. Parameteren som regulerer denne bruddgrensen kalles `cost`, som har en standardverdi p√• 1 (se `help("svm_poly")`).

La oss lage en line√¶r SVC ved √• sette `degree = 1` i en polynomisk SVM-modell.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

N√• som vi har samlet forh√•ndsprosesseringsstegene og modellspesifikasjonen i en *arbeidsflyt*, kan vi g√• videre og trene den line√¶re SVC og evaluere resultatene samtidig. For ytelsesm√•linger, la oss lage et m√•lesett som vil evaluere: `accuracy`, `sensitivity`, `Positive Predicted Value` og `F Measure`.

> `augment()` vil legge til kolonne(r) for prediksjoner til de gitte dataene.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### St√∏ttevektormaskin

St√∏ttevektormaskinen (SVM) er en utvidelse av st√∏ttevektor-klassifiseringen for √• kunne h√•ndtere en ikke-line√¶r grense mellom klassene. I hovedsak bruker SVM-er *kernel-trikset* for √• utvide funksjonsrommet og tilpasse seg ikke-line√¶re relasjoner mellom klassene. En popul√¶r og sv√¶rt fleksibel kjernefunksjon som brukes av SVM-er er *Radial basis function.* La oss se hvordan den vil prestere p√• v√•re data.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Mye bedre ü§©!

> ‚úÖ Vennligst se:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> for videre lesing.

### Klassifisering med n√¶rmeste nabo

*K*-n√¶rmeste nabo (KNN) er en algoritme der hver observasjon blir forutsagt basert p√• dens *likhet* med andre observasjoner.

La oss tilpasse en til dataene v√•re.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Det ser ut til at denne modellen ikke presterer s√• bra. Sannsynligvis vil det √• endre modellens argumenter (se `help("nearest_neighbor")`) forbedre modellens ytelse. S√∏rg for √• teste det ut.

> ‚úÖ Vennligst se:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> for √• l√¶re mer om *K*-Nearest Neighbors klassifikatorer.

### Ensemble-klassifikatorer

Ensemble-algoritmer fungerer ved √• kombinere flere grunnmodeller for √• produsere en optimal modell enten ved:

`bagging`: √• bruke en *gjennomsnittsfunksjon* p√• en samling av grunnmodeller

`boosting`: √• bygge en sekvens av modeller som bygger p√• hverandre for √• forbedre prediktiv ytelse.

La oss starte med √• pr√∏ve ut en Random Forest-modell, som bygger en stor samling beslutningstr√¶r og deretter bruker en gjennomsnittsfunksjon for √• skape en bedre helhetlig modell.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Godt jobbet üëè!

La oss ogs√• eksperimentere med en Boosted Tree-modell.

Boosted Tree definerer en ensemblemetode som lager en serie av sekvensielle beslutningstr√¶r der hvert tre avhenger av resultatene fra tidligere tr√¶r i et fors√∏k p√• √• gradvis redusere feilen. Den fokuserer p√• vektene til feilklassifiserte elementer og justerer tilpasningen for neste klassifikator for √• rette opp.

Det finnes forskjellige m√•ter √• tilpasse denne modellen p√• (se `help("boost_tree")`). I dette eksempelet skal vi tilpasse Boosted trees via `xgboost`-motoren.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Vennligst se:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Utforsker AdaBoost-modellen, som er et godt alternativ til xgboost.
>
> for √• l√¶re mer om Ensemble-klassifikatorer.

## 4. Ekstra - sammenligne flere modeller

Vi har tilpasset ganske mange modeller i denne labben üôå. Det kan bli tidkrevende eller tungvint √• lage mange arbeidsflyter fra ulike sett med forbehandlingsmetoder og/eller spesifikasjoner for modeller, og deretter beregne ytelsesm√•l √©n etter √©n.

La oss se om vi kan l√∏se dette ved √• lage en funksjon som tilpasser en liste med arbeidsflyter p√• treningssettet og deretter returnerer ytelsesm√•l basert p√• testsettet. Vi skal bruke `map()` og `map_dfr()` fra [purrr](https://purrr.tidyverse.org/) pakken for √• anvende funksjoner p√• hvert element i en liste.

> [`map()`](https://purrr.tidyverse.org/reference/map.html)-funksjoner lar deg erstatte mange for-l√∏kker med kode som b√•de er mer kortfattet og lettere √• lese. Det beste stedet √• l√¶re om [`map()`](https://purrr.tidyverse.org/reference/map.html)-funksjoner er [iterasjonskapitlet](http://r4ds.had.co.nz/iteration.html) i R for data science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


[**workflowset**](https://workflowsets.tidymodels.org/) pakken lar brukere lage og enkelt tilpasse et stort antall modeller, men er hovedsakelig designet for √• fungere med resamplingsteknikker som `cross-validation`, en tiln√¶rming vi enn√• ikke har dekket.

## **üöÄUtfordring**

Hver av disse teknikkene har et stort antall parametere som du kan justere, for eksempel `cost` i SVMs, `neighbors` i KNN, `mtry` (Tilfeldig Valgte Prediktorer) i Random Forest.

Unders√∏k standardparametrene for hver av dem og tenk over hva det √• justere disse parameterne vil bety for modellens kvalitet.

For √• finne ut mer om en bestemt modell og dens parametere, bruk: `help("model")` f.eks. `help("rand_forest")`

> I praksis *estimerer* vi vanligvis de *beste verdiene* for disse ved √• trene mange modeller p√• et `simulert datasett` og m√•le hvor godt alle disse modellene presterer. Denne prosessen kalles **tuning**.

### [**Quiz etter forelesning**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Gjennomgang & Selvstudium**

Det er mye fagterminologi i disse leksjonene, s√• ta et √∏yeblikk til √• g√• gjennom [denne listen](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) med nyttige begreper!

#### TAKK TIL:

[`Allison Horst`](https://twitter.com/allison_horst/) for √• lage de fantastiske illustrasjonene som gj√∏r R mer innbydende og engasjerende. Finn flere illustrasjoner i hennes [galleri](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) og [Jen Looper](https://www.twitter.com/jenlooper) for √• lage den originale Python-versjonen av dette modulen ‚ô•Ô∏è

Lykke til med l√¶ringen,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Kunstverk av @allison_horst</figcaption>



---

**Ansvarsfraskrivelse**:  
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber n√∏yaktighet, vennligst v√¶r oppmerksom p√• at automatiske oversettelser kan inneholde feil eller un√∏yaktigheter. Det originale dokumentet p√• sitt opprinnelige spr√•k b√∏r anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforst√•elser eller feiltolkninger som oppst√•r ved bruk av denne oversettelsen.
