# Rakenna luokittelumalli: Herkulliset aasialaiset ja intialaiset keitti√∂t


## Keitti√∂luokittelijat 2

T√§ss√§ toisessa luokittelutunnissa tutkimme `lis√§tapoja` kategorisen datan luokitteluun. Opimme my√∂s, mit√§ seurauksia on, kun valitsemme yhden luokittelijan toisen sijaan.

### [**Esiluennon kysely**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Edellytykset**

Oletamme, ett√§ olet suorittanut aiemmat oppitunnit, sill√§ jatkamme joitakin aiemmin opittuja k√§sitteit√§.

T√§t√§ oppituntia varten tarvitsemme seuraavat paketit:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) on [R-pakettien kokoelma](https://www.tidyverse.org/packages), joka tekee datatieteest√§ nopeampaa, helpompaa ja hauskempaa!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) -kehys on [pakettien kokoelma](https://www.tidymodels.org/packages/) mallinnukseen ja koneoppimiseen.

-   `themis`: [themis-paketti](https://themis.tidymodels.org/) tarjoaa lis√§reseptivaiheita ep√§tasapainoisen datan k√§sittelyyn.

Voit asentaa ne seuraavasti:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Vaihtoehtoisesti alla oleva skripti tarkistaa, onko sinulla tarvittavat paketit t√§m√§n moduulin suorittamiseen, ja asentaa ne puolestasi, jos ne puuttuvat.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Luokittelukartta**

Edellisess√§ [oppitunnissamme](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1) yritimme vastata kysymykseen: kuinka valitsemme useiden mallien v√§lill√§? Suurelta osin se riippuu datan ominaisuuksista ja ongelman tyypist√§, jonka haluamme ratkaista (esimerkiksi luokittelu tai regressio).

Aiemmin opimme eri vaihtoehdoista, joita sinulla on datan luokittelussa Microsoftin huijauslistan avulla. Pythonin koneoppimisen kehys, Scikit-learn, tarjoaa vastaavan mutta tarkemman huijauslistan, joka voi auttaa kaventamaan valintaa estimointien (toinen termi luokittelijoille) v√§lill√§:

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Vinkki: [katso t√§m√§ kartta verkossa](https://scikit-learn.org/stable/tutorial/machine_learning_map/) ja klikkaa polkua pitkin lukeaksesi dokumentaatiota.  
>  
> [Tidymodels-viitesivusto](https://www.tidymodels.org/find/parsnip/#models) tarjoaa my√∂s erinomaista dokumentaatiota eri mallityypeist√§.

### **Suunnitelma** üó∫Ô∏è

T√§m√§ kartta on eritt√§in hy√∂dyllinen, kun sinulla on selke√§ k√§sitys datastasi, sill√§ voit "kulkea" sen polkuja pitkin p√§√§t√∂kseen:

-   Meill√§ on \>50 n√§ytett√§

-   Haluamme ennustaa kategorian

-   Meill√§ on merkitty√§ dataa

-   Meill√§ on alle 100 000 n√§ytett√§

-   ‚ú® Voimme valita Linear SVC:n

-   Jos se ei toimi, koska meill√§ on numeerista dataa

    -   Voimme kokeilla ‚ú® KNeighbors Classifieria

        -   Jos sek√§√§n ei toimi, kokeile ‚ú® SVC:t√§ ja ‚ú® Ensemble Classifiers -malleja

T√§m√§ on eritt√§in hy√∂dyllinen polku seurattavaksi. Nyt sukelletaan suoraan asiaan k√§ytt√§m√§ll√§ [tidymodels](https://www.tidymodels.org/) -mallinnuskehyst√§: johdonmukainen ja joustava kokoelma R-paketteja, jotka on kehitetty edist√§m√§√§n hyvi√§ tilastollisia k√§yt√§nt√∂j√§ üòä.

## 2. Jaa data ja k√§sittele ep√§tasapainoista aineistoa.

Aiemmista oppitunneistamme opimme, ett√§ keitti√∂iss√§mme oli joukko yhteisi√§ ainesosia. Lis√§ksi keitti√∂iden m√§√§r√§ss√§ oli melko ep√§tasainen jakauma.

K√§sittelemme n√§m√§ seuraavasti:

-   Poistamme yleisimm√§t ainesosat, jotka aiheuttavat sekaannusta eri keitti√∂iden v√§lill√§, k√§ytt√§m√§ll√§ `dplyr::select()`-funktiota.

-   K√§yt√§mme `recipe`-objektia, joka esik√§sittelee datan mallinnusta varten soveltamalla `over-sampling`-algoritmia.

K√§vimme yll√§ olevan jo l√§pi edellisess√§ oppitunnissa, joten t√§m√§n pit√§isi olla helppoa ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### K√§sittele ep√§tasapainoista dataa

Ep√§tasapainoinen data vaikuttaa usein negatiivisesti mallin suorituskykyyn. Monet mallit toimivat parhaiten, kun havaintojen m√§√§r√§ on tasainen, ja siksi ne voivat kohdata haasteita ep√§tasapainoisen datan kanssa.

Ep√§tasapainoisten datajoukkojen k√§sittelyyn on p√§√§asiassa kaksi tapaa:

-   lis√§t√§ havaintoja v√§hemmist√∂luokkaan: `Yliotanta` esimerkiksi k√§ytt√§m√§ll√§ SMOTE-algoritmia, joka synteettisesti luo uusia v√§hemmist√∂luokan esimerkkej√§ n√§iden tapausten l√§himpien naapureiden avulla.

-   poistaa havaintoja enemmist√∂luokasta: `Aliotanta`

Edellisess√§ oppitunnissamme n√§ytimme, kuinka ep√§tasapainoisia datajoukkoja voidaan k√§sitell√§ k√§ytt√§m√§ll√§ `resepti√§`. Resepti√§ voidaan ajatella suunnitelmana, joka kuvaa, mit√§ vaiheita datajoukolle tulisi soveltaa, jotta se olisi valmis data-analyysiin. Meid√§n tapauksessamme haluamme saada tasaisen jakauman keitti√∂tyyppien m√§√§r√§ss√§ `opetusjoukkoamme` varten. Menn√§√§n suoraan asiaan.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Nyt olemme valmiita kouluttamaan malleja üë©‚Äçüíªüë®‚Äçüíª!

## 3. Monitermi-regressiomallien ulkopuolella

Edellisess√§ oppitunnissa tarkastelimme monitermi-regressiomalleja. Tutkitaan nyt joustavampia luokittelumalleja.

### Tukivektorikoneet

Luokittelun yhteydess√§ `Tukivektorikoneet` ovat koneoppimistekniikka, joka pyrkii l√∂yt√§m√§√§n *hyper-tason*, joka "parhaiten" erottaa luokat toisistaan. Katsotaanpa yksinkertaista esimerkki√§:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ ei erota luokkia. H2~ erottaa, mutta vain pienell√§ marginaalilla. H3~ erottaa ne suurimmalla mahdollisella marginaalilla.

#### Lineaarinen tukivektoriluokitin

Tukivektoriklusterointi (SVC) kuuluu tukivektoriautomaattien (Support-Vector Machines) koneoppimistekniikoiden perheeseen. SVC:ss√§ hypertaso valitaan siten, ett√§ se erottaa `suurimman osan` harjoitusaineiston havainnoista oikein, mutta `saattaa luokitella v√§√§rin` joitakin havaintoja. Sallimalla joidenkin pisteiden olla v√§√§r√§ll√§ puolella, SVM:st√§ tulee kest√§v√§mpi poikkeamille ja se yleistyy paremmin uuteen dataan. Parametri, joka s√§√§telee t√§t√§ poikkeamaa, tunnetaan nimell√§ `cost`, jonka oletusarvo on 1 (katso `help("svm_poly")`).

Luodaan lineaarinen SVC asettamalla `degree = 1` polynomiseen SVM-malliin.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Nyt kun olemme tallentaneet esik√§sittelyvaiheet ja mallin m√§√§rittelyn *ty√∂nkulkuun*, voimme jatkaa lineaarisen SVC:n kouluttamista ja samalla arvioida tuloksia. Suorituskykymittareita varten luodaan mittaristo, joka arvioi: `accuracy` (tarkkuus), `sensitivity` (herkkyys), `Positive Predicted Value` (positiivinen ennustearvo) ja `F Measure` (F-mittari).

> `augment()` lis√§√§ sarakkeen/sarakkeita ennusteille annettuun dataan.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### Tukivektorikone

Tukivektorikone (SVM) on tukivektoriluokittelijan laajennus, joka mahdollistaa ep√§lineaarisen rajan luokkien v√§lill√§. Pohjimmiltaan SVM:t k√§ytt√§v√§t *ydintemppua* laajentaakseen piirretilaa, jotta ne voivat mukautua ep√§lineaarisiin suhteisiin luokkien v√§lill√§. Yksi suosittu ja eritt√§in joustava ydinfunktio, jota SVM:t k√§ytt√§v√§t, on *radiaalinen basisfunktio.* Katsotaan, miten se suoriutuu datassamme.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Paljon parempi ü§©!

> ‚úÖ Katso:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> lis√§lukemista varten.

### L√§himm√§n naapurin luokittelijat

*K*-l√§himm√§n naapurin (KNN) algoritmi ennustaa jokaisen havainnon sen *samankaltaisuuden* perusteella muihin havaintoihin.

Sovitetaan yksi algoritmi dataamme.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

N√§ytt√§√§ silt√§, ett√§ t√§m√§ malli ei suoriudu kovin hyvin. Todenn√§k√∂isesti mallin argumenttien muuttaminen (katso `help("nearest_neighbor")`) parantaa mallin suorituskyky√§. Muista kokeilla t√§t√§.

> ‚úÖ Katso:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> saadaksesi lis√§tietoa *K*-l√§himpien naapureiden luokittelijoista.

### Yhdistelm√§luokittelijat

Yhdistelm√§algoritmit toimivat yhdist√§m√§ll√§ useita perusestimaattoreita optimaalisen mallin tuottamiseksi joko:

`bagging`: k√§ytt√§m√§ll√§ *keskiarvoistavaa funktiota* kokoelmaan perusmalleja

`boosting`: rakentamalla mallisarjan, jossa mallit parantavat toistensa ennustustarkkuutta.

Aloitetaan kokeilemalla Random Forest -mallia, joka rakentaa suuren joukon p√§√§t√∂spuita ja k√§ytt√§√§ keskiarvoistavaa funktiota paremman kokonaismallin luomiseksi.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Hyv√§√§ ty√∂t√§ üëè!

Kokeillaan my√∂s Boosted Tree -mallia.

Boosted Tree m√§√§rittelee ensemble-menetelm√§n, joka luo sarjan per√§kk√§isi√§ p√§√§t√∂spuita, joissa jokainen puu perustuu edellisten puiden tuloksiin pyrkien v√§hent√§m√§√§n virhett√§ asteittain. Se keskittyy v√§√§rin luokiteltujen kohteiden painoihin ja s√§√§t√§√§ seuraavan luokittelijan sovitusta korjatakseen virheet.

T√§m√§n mallin sovittamiseen on erilaisia tapoja (katso `help("boost_tree")`). T√§ss√§ esimerkiss√§ sovitamme Boosted Tree -mallin `xgboost`-moottorin avulla.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Katso:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Tutkii AdaBoost-mallia, joka on hyv√§ vaihtoehto xgboostille.
>
> oppiaksesi lis√§√§ Ensemble-luokittelijoista.

## 4. Lis√§osa - useiden mallien vertailu

Olemme sovittaneet melko monta mallia t√§ss√§ laboratoriossa üôå. Useiden ty√∂nkulkujen luominen eri esik√§sittelyjen ja/tai mallim√§√§ritysten pohjalta ja suorituskykymittareiden laskeminen yksi kerrallaan voi k√§yd√§ ty√∂l√§√§ksi.

Katsotaan, voimmeko ratkaista t√§m√§n luomalla funktion, joka sovittaa listan ty√∂nkulkuja harjoitusaineistoon ja palauttaa suorituskykymittarit testiaineiston perusteella. K√§yt√§mme `map()` ja `map_dfr()` -funktioita [purrr](https://purrr.tidyverse.org/) -paketista soveltaaksemme funktioita listan jokaiseen elementtiin.

> [`map()`](https://purrr.tidyverse.org/reference/map.html) -funktiot mahdollistavat monien for-silmukoiden korvaamisen koodilla, joka on sek√§ tiiviimp√§√§ ett√§ helpommin luettavaa. Paras paikka oppia [`map()`](https://purrr.tidyverse.org/reference/map.html) -funktioista on [iteraatio-luku](http://r4ds.had.co.nz/iteration.html) kirjassa R for Data Science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


[**workflowset**](https://workflowsets.tidymodels.org/) -paketti mahdollistaa k√§ytt√§jille suuren m√§√§r√§n mallien luomisen ja helpon sovittamisen, mutta se on p√§√§asiassa suunniteltu toimimaan uudelleenn√§ytteistystekniikoiden, kuten `ristivahvistuksen`, kanssa. T√§t√§ l√§hestymistapaa emme ole viel√§ k√§sitelleet.

## **üöÄHaaste**

Jokaisella n√§ist√§ tekniikoista on suuri m√§√§r√§ parametreja, joita voit s√§√§t√§√§, esimerkiksi `cost` SVM:ss√§, `neighbors` KNN:ss√§, `mtry` (satunnaisesti valitut ennustajat) Random Forestissa.

Tutki kunkin oletusparametreja ja pohdi, mit√§ n√§iden parametrien s√§√§t√§minen tarkoittaisi mallin laadulle.

Lis√§tietoja tietyst√§ mallista ja sen parametreista saat k√§ytt√§m√§ll√§: `help("model")`, esim. `help("rand_forest")`.

> K√§yt√§nn√∂ss√§ *arvioimme* yleens√§ *parhaat arvot* n√§ille kouluttamalla useita malleja `simuloidulla aineistolla` ja mittaamalla, kuinka hyvin n√§m√§ mallit suoriutuvat. T√§t√§ prosessia kutsutaan **viritt√§miseksi**.

### [**Luennon j√§lkeinen kysely**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Kertaus & Itseopiskelu**

N√§iss√§ oppitunneissa on paljon ammattikielt√§, joten k√§yt√§ hetki aikaa tutustuaksesi [t√§h√§n sanastoon](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott), joka sis√§lt√§√§ hy√∂dyllisi√§ termej√§!

#### KIITOS:

[`Allison Horst`](https://twitter.com/allison_horst/) upeista kuvituksista, jotka tekev√§t R:st√§ kutsuvamman ja innostavamman. L√∂yd√§t lis√§√§ kuvituksia h√§nen [galleriastaan](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) ja [Jen Looper](https://www.twitter.com/jenlooper) alkuper√§isen Python-version luomisesta ‚ô•Ô∏è

Mukavia oppimishetki√§,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Taide: @allison_horst</figcaption>



---

**Vastuuvapauslauseke**:  
T√§m√§ asiakirja on k√§√§nnetty k√§ytt√§m√§ll√§ teko√§lypohjaista k√§√§nn√∂spalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Pyrimme tarkkuuteen, mutta huomioithan, ett√§ automaattiset k√§√§nn√∂kset voivat sis√§lt√§√§ virheit√§ tai ep√§tarkkuuksia. Alkuper√§ist√§ asiakirjaa sen alkuper√§isell√§ kielell√§ tulee pit√§√§ ensisijaisena l√§hteen√§. Kriittisen tiedon osalta suositellaan ammattimaista ihmisk√§√§nt√§mist√§. Emme ole vastuussa t√§m√§n k√§√§nn√∂ksen k√§yt√∂st√§ aiheutuvista v√§√§rink√§sityksist√§ tai virhetulkinnoista.
