# Bygg en klassificeringsmodell: Uts√∂kta asiatiska och indiska r√§tter


## Klassificerare f√∂r k√∂k 2

I denna andra lektion om klassificering kommer vi att utforska `fler s√§tt` att klassificera kategoriska data. Vi kommer ocks√• att l√§ra oss om konsekvenserna av att v√§lja en klassificerare framf√∂r en annan.

### [**Quiz f√∂re f√∂rel√§sningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **F√∂rkunskaper**

Vi antar att du har slutf√∂rt de tidigare lektionerna eftersom vi kommer att bygga vidare p√• n√•gra koncept vi l√§rde oss tidigare.

F√∂r denna lektion beh√∂ver vi f√∂ljande paket:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) √§r en [samling av R-paket](https://www.tidyverse.org/packages) som √§r utformade f√∂r att g√∂ra datavetenskap snabbare, enklare och roligare!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) √§r ett [ramverk av paket](https://www.tidymodels.org/packages/) f√∂r modellering och maskininl√§rning.

-   `themis`: [themis-paketet](https://themis.tidymodels.org/) tillhandah√•ller extra receptsteg f√∂r att hantera obalanserad data.

Du kan installera dem med:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativt kan skriptet nedan kontrollera om du har de paket som kr√§vs f√∂r att slutf√∂ra denna modul och installera dem √•t dig om de saknas.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. En klassificeringskarta**

I v√•r [f√∂reg√•ende lektion](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1) f√∂rs√∂kte vi besvara fr√•gan: hur v√§ljer vi mellan flera modeller? Till stor del beror det p√• egenskaperna hos datan och typen av problem vi vill l√∂sa (till exempel klassificering eller regression).

Tidigare l√§rde vi oss om de olika alternativen du har n√§r du klassificerar data med hj√§lp av Microsofts fusklapp. Python's Machine Learning-ramverk, Scikit-learn, erbjuder en liknande men mer detaljerad fusklapp som kan hj√§lpa dig att ytterligare begr√§nsa dina estimatorer (ett annat ord f√∂r klassificerare):

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Tips: [bes√∂k den h√§r kartan online](https://scikit-learn.org/stable/tutorial/machine_learning_map/) och klicka l√§ngs v√§gen f√∂r att l√§sa dokumentationen.
>
> [Tidymodels referenssida](https://www.tidymodels.org/find/parsnip/#models) erbjuder ocks√• utm√§rkt dokumentation om olika typer av modeller.

### **Planen** üó∫Ô∏è

Den h√§r kartan √§r v√§ldigt anv√§ndbar n√§r du har en tydlig f√∂rst√•else f√∂r din data, eftersom du kan "vandra" l√§ngs dess v√§gar mot ett beslut:

-   Vi har \>50 prover

-   Vi vill f√∂ruts√§ga en kategori

-   Vi har m√§rkt data

-   Vi har f√§rre √§n 100K prover

-   ‚ú® Vi kan v√§lja en Linear SVC

-   Om det inte fungerar, eftersom vi har numerisk data

    -   Kan vi prova en ‚ú® KNeighbors Classifier

        -   Om det inte fungerar, prova ‚ú® SVC och ‚ú® Ensemble Classifiers

Det h√§r √§r en v√§ldigt anv√§ndbar v√§g att f√∂lja. Nu ska vi dyka rakt in i det med [tidymodels](https://www.tidymodels.org/) modelleringsramverket: en konsekvent och flexibel samling av R-paket utvecklade f√∂r att fr√§mja god statistisk praxis üòä.

## 2. Dela upp data och hantera obalanserade dataset.

Fr√•n v√•ra tidigare lektioner l√§rde vi oss att det fanns en upps√§ttning vanliga ingredienser √∂ver v√•ra k√∂k. Dessutom fanns det en ganska oj√§mn f√∂rdelning i antalet k√∂k.

Vi kommer att hantera detta genom att

-   Ta bort de vanligaste ingredienserna som skapar f√∂rvirring mellan olika k√∂k, med hj√§lp av `dplyr::select()`.

-   Anv√§nda ett `recipe` som f√∂rbehandlar data f√∂r att g√∂ra den redo f√∂r modellering genom att till√§mpa en `over-sampling`-algoritm.

Vi tittade redan p√• detta i den tidigare lektionen, s√• det h√§r borde g√• som en dans ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### Hantera obalanserad data

Obalanserad data p√•verkar ofta modellens prestanda negativt. M√•nga modeller presterar b√§st n√§r antalet observationer √§r lika, och har d√§rf√∂r en tendens att ha sv√•rt med obalanserad data.

Det finns huvudsakligen tv√• s√§tt att hantera obalanserade datas√§tt:

-   l√§gga till observationer till minoritetsklassen: `√ñver-sampling`, t.ex. med hj√§lp av en SMOTE-algoritm som syntetiskt genererar nya exempel av minoritetsklassen genom att anv√§nda n√§rmaste grannar till dessa fall.

-   ta bort observationer fr√•n majoritetsklassen: `Under-sampling`

I v√•r tidigare lektion visade vi hur man hanterar obalanserade datas√§tt med hj√§lp av ett `recept`. Ett recept kan ses som en ritning som beskriver vilka steg som ska till√§mpas p√• ett datas√§tt f√∂r att g√∂ra det redo f√∂r dataanalys. I v√•rt fall vill vi ha en j√§mn f√∂rdelning av antalet k√∂k i v√•r `tr√§ningsupps√§ttning`. L√•t oss s√§tta ig√•ng!


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Nu √§r vi redo att tr√§na modeller üë©‚Äçüíªüë®‚Äçüíª!

## 3. Ut√∂ver multinomiala regressionsmodeller

I v√•r tidigare lektion tittade vi p√• multinomiala regressionsmodeller. L√•t oss utforska n√•gra mer flexibla modeller f√∂r klassificering.

### Support Vector Machines

I klassificeringssammanhang √§r `Support Vector Machines` en maskininl√§rningsteknik som f√∂rs√∂ker hitta ett *hyperplan* som "b√§st" separerar klasserna. L√•t oss titta p√• ett enkelt exempel:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ separerar inte klasserna. H2~ g√∂r det, men endast med en liten marginal. H3~ separerar dem med maximal marginal.

#### Linj√§r Support Vector Classifier

Support-Vector clustering (SVC) √§r en del av Support-Vector-maskinerna inom ML-tekniker. I SVC v√§ljs hyperplanet f√∂r att korrekt separera `de flesta` av tr√§ningsobservationerna, men `kan felklassificera` n√•gra observationer. Genom att till√•ta vissa punkter att vara p√• fel sida blir SVM mer robust mot avvikelser och d√§rmed b√§ttre p√• att generalisera till ny data. Parametern som reglerar denna √∂vertr√§delse kallas `cost` och har ett standardv√§rde p√• 1 (se `help("svm_poly")`).

L√•t oss skapa en linj√§r SVC genom att s√§tta `degree = 1` i en polynomisk SVM-modell.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Nu n√§r vi har sammanst√§llt f√∂rbehandlingsstegen och modellspecifikationen i ett *arbetsfl√∂de*, kan vi g√• vidare och tr√§na den linj√§ra SVC och samtidigt utv√§rdera resultaten. F√∂r prestandam√•tt, l√•t oss skapa en upps√§ttning m√•tt som kommer att utv√§rdera: `accuracy`, `sensitivity`, `Positive Predicted Value` och `F Measure`.

> `augment()` kommer att l√§gga till kolumn(er) f√∂r f√∂ruts√§gelser till den angivna datan.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### Support Vector Machine

Support Vector Machine (SVM) √§r en vidareutveckling av support vector classifier f√∂r att hantera en icke-linj√§r gr√§ns mellan klasserna. I grund och botten anv√§nder SVMs *kernel-tricket* f√∂r att ut√∂ka funktionsutrymmet och anpassa sig till icke-linj√§ra relationer mellan klasser. En popul√§r och mycket flexibel kernel-funktion som anv√§nds av SVMs √§r *Radial basis function.* L√•t oss se hur den presterar p√• v√•r data.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Mycket b√§ttre ü§©!

> ‚úÖ V√§nligen se:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> f√∂r vidare l√§sning.

### N√§rmaste granne-klassificerare

*K*-n√§rmsta granne (KNN) √§r en algoritm d√§r varje observation f√∂ruts√§gs baserat p√• dess *likhet* med andra observationer.

L√•t oss anpassa en till v√•r data.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Det verkar som att den h√§r modellen inte presterar s√§rskilt bra. F√∂rmodligen kan modellens prestanda f√∂rb√§ttras genom att √§ndra argumenten (se `help("nearest_neighbor")`). Se till att testa detta.

> ‚úÖ V√§nligen se:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> f√∂r att l√§ra dig mer om *K*-N√§rmaste Grannar-klassificerare.

### Ensembleklassificerare

Ensemblealgoritmer fungerar genom att kombinera flera basmodeller f√∂r att skapa en optimal modell antingen genom:

`bagging`: att anv√§nda en *medelv√§rdesfunktion* p√• en samling av basmodeller

`boosting`: att bygga en sekvens av modeller som bygger p√• varandra f√∂r att f√∂rb√§ttra den prediktiva prestandan.

L√•t oss b√∂rja med att testa en Random Forest-modell, som bygger en stor samling beslutstr√§d och sedan anv√§nder en medelv√§rdesfunktion f√∂r att skapa en b√§ttre √∂vergripande modell.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Bra jobbat üëè!

L√•t oss ocks√• experimentera med en Boosted Tree-modell.

Boosted Tree definierar en ensemblemetod som skapar en serie sekventiella beslutstr√§d d√§r varje tr√§d beror p√• resultaten fr√•n tidigare tr√§d i ett f√∂rs√∂k att gradvis minska felet. Den fokuserar p√• vikterna f√∂r felklassificerade objekt och justerar passformen f√∂r n√§sta klassificerare f√∂r att korrigera.

Det finns olika s√§tt att passa denna modell (se `help("boost_tree")`). I detta exempel kommer vi att passa Boosted trees via `xgboost`-motorn.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ V√§nligen se:
>
> -   [Machine Learning f√∂r samh√§llsvetare](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning med R](https://bradleyboehmke.github.io/HOML/)
>
> -   [En introduktion till statistisk inl√§rning med applikationer i R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Utforskar AdaBoost-modellen som √§r ett bra alternativ till xgboost.
>
> f√∂r att l√§ra dig mer om ensembleklassificerare.

## 4. Extra - j√§mf√∂ra flera modeller

Vi har anpassat ganska m√•nga modeller i denna labb üôå. Det kan bli tr√∂ttsamt eller jobbigt att skapa m√•nga arbetsfl√∂den fr√•n olika upps√§ttningar av f√∂rbehandlingsmetoder och/eller modellspecifikationer och sedan ber√§kna prestandam√•tten en efter en.

L√•t oss se om vi kan l√∂sa detta genom att skapa en funktion som anpassar en lista med arbetsfl√∂den p√• tr√§ningsupps√§ttningen och sedan returnerar prestandam√•tten baserat p√• testupps√§ttningen. Vi kommer att anv√§nda `map()` och `map_dfr()` fr√•n paketet [purrr](https://purrr.tidyverse.org/) f√∂r att till√§mpa funktioner p√• varje element i en lista.

> [`map()`](https://purrr.tidyverse.org/reference/map.html)-funktioner l√•ter dig ers√§tta m√•nga for-loopar med kod som b√•de √§r mer kortfattad och l√§ttare att l√§sa. Det b√§sta st√§llet att l√§ra sig om [`map()`](https://purrr.tidyverse.org/reference/map.html)-funktionerna √§r [kapitlet om iteration](http://r4ds.had.co.nz/iteration.html) i R f√∂r data science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


[**workflowset**](https://workflowsets.tidymodels.org/) paketet g√∂r det m√∂jligt f√∂r anv√§ndare att skapa och enkelt anpassa ett stort antal modeller, men √§r fr√§mst utformat f√∂r att fungera med omprovningstekniker som `cross-validation`, en metod vi √§nnu inte har t√§ckt.

## **üöÄUtmaning**

Var och en av dessa tekniker har ett stort antal parametrar som du kan justera, till exempel `cost` i SVMs, `neighbors` i KNN, `mtry` (Slumpm√§ssigt Valda Prediktorer) i Random Forest.

Unders√∂k standardparametrarna f√∂r var och en och fundera p√• vad justering av dessa parametrar skulle inneb√§ra f√∂r modellens kvalitet.

F√∂r att ta reda p√• mer om en specifik modell och dess parametrar, anv√§nd: `help("model")` t.ex. `help("rand_forest")`

> I praktiken brukar vi *estimera* de *b√§sta v√§rdena* f√∂r dessa genom att tr√§na m√•nga modeller p√• en `simulerad datam√§ngd` och m√§ta hur bra alla dessa modeller presterar. Denna process kallas **tuning**.

### [**Quiz efter f√∂rel√§sningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Granskning & Sj√§lvstudier**

Det finns mycket facktermer i dessa lektioner, s√• ta en stund att g√• igenom [denna lista](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) med anv√§ndbar terminologi!

#### TACK TILL:

[`Allison Horst`](https://twitter.com/allison_horst/) f√∂r att ha skapat de fantastiska illustrationerna som g√∂r R mer v√§lkomnande och engagerande. Hitta fler illustrationer i hennes [galleri](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) och [Jen Looper](https://www.twitter.com/jenlooper) f√∂r att ha skapat den ursprungliga Python-versionen av denna modul ‚ô•Ô∏è

Lycka till med l√§randet,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Konstverk av @allison_horst</figcaption>



---

**Ansvarsfriskrivning**:  
Detta dokument har √∂versatts med hj√§lp av AI-√∂vers√§ttningstj√§nsten [Co-op Translator](https://github.com/Azure/co-op-translator). √Ñven om vi str√§var efter noggrannhet, b√∂r det noteras att automatiserade √∂vers√§ttningar kan inneh√•lla fel eller brister. Det ursprungliga dokumentet p√• dess originalspr√•k b√∂r betraktas som den auktoritativa k√§llan. F√∂r kritisk information rekommenderas professionell m√§nsklig √∂vers√§ttning. Vi ansvarar inte f√∂r eventuella missf√∂rst√•nd eller feltolkningar som kan uppst√• vid anv√§ndning av denna √∂vers√§ttning.
