# Construir um modelo de classifica√ß√£o: Deliciosas Cozinhas Asi√°ticas e Indianas


## Classificadores de culin√°ria 2

Nesta segunda li√ß√£o sobre classifica√ß√£o, vamos explorar `mais formas` de classificar dados categ√≥ricos. Tamb√©m aprenderemos sobre as implica√ß√µes de escolher um classificador em vez de outro.

### [**Question√°rio pr√©-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Pr√©-requisitos**

Assumimos que voc√™ completou as li√ß√µes anteriores, j√° que vamos utilizar alguns conceitos aprendidos anteriormente.

Para esta li√ß√£o, precisaremos dos seguintes pacotes:

-   `tidyverse`: O [tidyverse](https://www.tidyverse.org/) √© uma [cole√ß√£o de pacotes R](https://www.tidyverse.org/packages) projetada para tornar a ci√™ncia de dados mais r√°pida, f√°cil e divertida!

-   `tidymodels`: O [tidymodels](https://www.tidymodels.org/) √© uma [estrutura de pacotes](https://www.tidymodels.org/packages/) para modelagem e aprendizagem de m√°quina.

-   `themis`: O [pacote themis](https://themis.tidymodels.org/) fornece passos extras de receitas para lidar com dados desbalanceados.

Voc√™ pode instal√°-los com o seguinte comando:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativamente, o script abaixo verifica se voc√™ possui os pacotes necess√°rios para completar este m√≥dulo e os instala caso estejam ausentes.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Um mapa de classifica√ß√£o**

Na nossa [li√ß√£o anterior](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1), tent√°mos responder √† pergunta: como escolher entre v√°rios modelos? Em grande parte, isso depende das caracter√≠sticas dos dados e do tipo de problema que queremos resolver (por exemplo, classifica√ß√£o ou regress√£o?).

Anteriormente, aprendemos sobre as v√°rias op√ß√µes dispon√≠veis para classificar dados utilizando o guia da Microsoft. O framework de Machine Learning em Python, Scikit-learn, oferece um guia semelhante, mas mais detalhado, que pode ajudar ainda mais a restringir os seus estimadores (outro termo para classificadores):

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Dica: [visite este mapa online](https://scikit-learn.org/stable/tutorial/machine_learning_map/) e clique ao longo do caminho para ler a documenta√ß√£o.
>
> O [site de refer√™ncia do Tidymodels](https://www.tidymodels.org/find/parsnip/#models) tamb√©m oferece uma excelente documenta√ß√£o sobre diferentes tipos de modelos.

### **O plano** üó∫Ô∏è

Este mapa √© muito √∫til quando se tem uma compreens√£o clara dos seus dados, pois pode 'percorrer' os seus caminhos at√© chegar a uma decis√£o:

-   Temos \>50 amostras

-   Queremos prever uma categoria

-   Temos dados rotulados

-   Temos menos de 100K amostras

-   ‚ú® Podemos escolher um Linear SVC

-   Se isso n√£o funcionar, como temos dados num√©ricos

    -   Podemos tentar um ‚ú® KNeighbors Classifier

        -   Se isso n√£o funcionar, tentar ‚ú® SVC e ‚ú® Ensemble Classifiers

Este √© um caminho muito √∫til para seguir. Agora, vamos direto ao assunto utilizando o framework de modelagem [tidymodels](https://www.tidymodels.org/): uma cole√ß√£o consistente e flex√≠vel de pacotes R desenvolvidos para incentivar boas pr√°ticas estat√≠sticas üòä.

## 2. Dividir os dados e lidar com conjuntos de dados desequilibrados.

Nas nossas li√ß√µes anteriores, aprendemos que havia um conjunto de ingredientes comuns entre as nossas cozinhas. Al√©m disso, havia uma distribui√ß√£o bastante desigual no n√∫mero de cozinhas.

Vamos lidar com isso da seguinte forma:

-   Eliminando os ingredientes mais comuns que criam confus√£o entre cozinhas distintas, usando `dplyr::select()`.

-   Utilizando uma `recipe` que pr√©-processa os dados para prepar√°-los para a modelagem, aplicando um algoritmo de `over-sampling`.

J√° vimos isso na li√ß√£o anterior, ent√£o deve ser tranquilo ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### Lidar com dados desequilibrados

Dados desequilibrados frequentemente t√™m efeitos negativos no desempenho do modelo. Muitos modelos funcionam melhor quando o n√∫mero de observa√ß√µes √© igual e, por isso, tendem a ter dificuldades com dados desequilibrados.

Existem principalmente duas formas de lidar com conjuntos de dados desequilibrados:

-   adicionar observa√ß√µes √† classe minorit√°ria: `Over-sampling`, por exemplo, utilizando um algoritmo SMOTE que gera novos exemplos sint√©ticos da classe minorit√°ria com base nos vizinhos mais pr√≥ximos desses casos.

-   remover observa√ß√µes da classe majorit√°ria: `Under-sampling`

Na nossa li√ß√£o anterior, demonstr√°mos como lidar com conjuntos de dados desequilibrados utilizando uma `recipe`. Uma recipe pode ser vista como um plano que descreve quais passos devem ser aplicados a um conjunto de dados para prepar√°-lo para an√°lise. No nosso caso, queremos ter uma distribui√ß√£o igual no n√∫mero de nossas cozinhas para o nosso `training set`. Vamos come√ßar!


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Agora estamos prontos para treinar modelos üë©‚Äçüíªüë®‚Äçüíª!

## 3. Para al√©m dos modelos de regress√£o multinomial

Na nossa li√ß√£o anterior, analis√°mos os modelos de regress√£o multinomial. Vamos explorar alguns modelos mais flex√≠veis para classifica√ß√£o.

### M√°quinas de Vetores de Suporte

No contexto de classifica√ß√£o, `M√°quinas de Vetores de Suporte` s√£o uma t√©cnica de aprendizagem autom√°tica que tenta encontrar um *hiperplano* que "melhor" separa as classes. Vamos observar um exemplo simples:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ n√£o separa as classes. H2~ separa, mas apenas com uma margem pequena. H3~ separa-as com a margem m√°xima.

#### Classificador Linear de Vetores de Suporte

O clustering de Vetores de Suporte (SVC) √© uma t√©cnica derivada da fam√≠lia de m√°quinas de Vetores de Suporte (SVM) em Aprendizagem Autom√°tica. No SVC, o hiperplano √© escolhido para separar corretamente `a maioria` das observa√ß√µes de treino, mas `pode classificar incorretamente` algumas observa√ß√µes. Ao permitir que alguns pontos fiquem do lado errado, o SVM torna-se mais robusto a outliers, proporcionando assim uma melhor generaliza√ß√£o para novos dados. O par√¢metro que regula esta viola√ß√£o √© chamado de `cost`, que tem um valor padr√£o de 1 (consulte `help("svm_poly")`).

Vamos criar um SVC linear definindo `degree = 1` num modelo SVM polinomial.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Agora que captur√°mos os passos de pr√©-processamento e a especifica√ß√£o do modelo num *workflow*, podemos avan√ßar e treinar o SVC linear, avaliando os resultados ao mesmo tempo. Para m√©tricas de desempenho, vamos criar um conjunto de m√©tricas que avalie: `accuracy`, `sensitivity`, `Positive Predicted Value` e `F Measure`.

> `augment()` ir√° adicionar coluna(s) com as previs√µes aos dados fornecidos.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### M√°quina de Vetores de Suporte

A m√°quina de vetores de suporte (SVM) √© uma extens√£o do classificador de vetores de suporte para acomodar uma fronteira n√£o linear entre as classes. Essencialmente, as SVMs utilizam o *truque do kernel* para ampliar o espa√ßo de caracter√≠sticas e assim se adaptar a rela√ß√µes n√£o lineares entre as classes. Uma fun√ß√£o kernel popular e extremamente flex√≠vel usada pelas SVMs √© a *fun√ß√£o de base radial.* Vamos ver como ela se comporta com os nossos dados.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Muito melhor ü§©!

> ‚úÖ Por favor veja:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> para leitura adicional.

### Classificadores de Vizinhos Mais Pr√≥ximos

O algoritmo *K*-nearest neighbor (KNN) prev√™ cada observa√ß√£o com base na sua *semelhan√ßa* com outras observa√ß√µes.

Vamos ajustar um ao nosso conjunto de dados.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Parece que este modelo n√£o est√° a ter um desempenho muito bom. Provavelmente, alterar os argumentos do modelo (ver `help("nearest_neighbor")`) ir√° melhorar o desempenho do modelo. Certifique-se de experimentar.

> ‚úÖ Por favor veja:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> para aprender mais sobre classificadores *K*-Nearest Neighbors.

### Classificadores em ensemble

Os algoritmos de ensemble funcionam combinando m√∫ltiplos estimadores base para produzir um modelo otimizado, seja atrav√©s de:

`bagging`: aplica√ß√£o de uma *fun√ß√£o de m√©dia* a uma cole√ß√£o de modelos base

`boosting`: constru√ß√£o de uma sequ√™ncia de modelos que se complementam para melhorar o desempenho preditivo.

Vamos come√ßar por experimentar um modelo Random Forest, que constr√≥i uma grande cole√ß√£o de √°rvores de decis√£o e depois aplica uma fun√ß√£o de m√©dia para obter um modelo geral melhor.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Bom trabalho üëè!

Vamos tamb√©m experimentar com um modelo de √Årvore Refor√ßada.

√Årvore Refor√ßada define um m√©todo de conjunto que cria uma s√©rie de √°rvores de decis√£o sequenciais, onde cada √°rvore depende dos resultados das √°rvores anteriores, numa tentativa de reduzir o erro de forma incremental. Este m√©todo foca-se nos pesos dos itens classificados incorretamente e ajusta o modelo do pr√≥ximo classificador para corrigir.

Existem diferentes formas de ajustar este modelo (veja `help("boost_tree")`). Neste exemplo, vamos ajustar √Årvores Refor√ßadas atrav√©s do motor `xgboost`.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Por favor veja:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Explora o modelo AdaBoost, que √© uma boa alternativa ao xgboost.
>
> para aprender mais sobre classificadores Ensemble.

## 4. Extra - comparando m√∫ltiplos modelos

Test√°mos v√°rios modelos neste laborat√≥rio üôå. Pode tornar-se cansativo ou trabalhoso criar muitos fluxos de trabalho a partir de diferentes conjuntos de pr√©-processadores e/ou especifica√ß√µes de modelos e depois calcular as m√©tricas de desempenho uma a uma.

Vamos ver se conseguimos resolver isso criando uma fun√ß√£o que ajusta uma lista de fluxos de trabalho no conjunto de treino e depois retorna as m√©tricas de desempenho com base no conjunto de teste. Vamos usar `map()` e `map_dfr()` do pacote [purrr](https://purrr.tidyverse.org/) para aplicar fun√ß√µes a cada elemento de uma lista.

> As fun√ß√µes [`map()`](https://purrr.tidyverse.org/reference/map.html) permitem substituir muitos ciclos "for" por c√≥digo que √© mais conciso e mais f√°cil de ler. O melhor lugar para aprender sobre as fun√ß√µes [`map()`](https://purrr.tidyverse.org/reference/map.html) √© o [cap√≠tulo de itera√ß√£o](http://r4ds.had.co.nz/iteration.html) em R for Data Science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


O pacote [**workflowset**](https://workflowsets.tidymodels.org/) permite aos utilizadores criar e ajustar facilmente um grande n√∫mero de modelos, mas foi principalmente concebido para funcionar com t√©cnicas de reamostragem, como a `valida√ß√£o cruzada`, uma abordagem que ainda iremos abordar.

## **üöÄDesafio**

Cada uma destas t√©cnicas tem um grande n√∫mero de par√¢metros que podem ser ajustados, como por exemplo `cost` em SVMs, `neighbors` em KNN, `mtry` (Preditores Selecionados Aleatoriamente) em Random Forest.

Pesquise os par√¢metros padr√£o de cada t√©cnica e reflita sobre o que ajustar esses par√¢metros significaria para a qualidade do modelo.

Para saber mais sobre um modelo espec√≠fico e os seus par√¢metros, utilize: `help("model")`, por exemplo, `help("rand_forest")`.

> Na pr√°tica, geralmente *estimamos* os *melhores valores* para estes par√¢metros treinando v√°rios modelos num `conjunto de dados simulado` e medindo o desempenho de todos esses modelos. Este processo √© chamado de **otimiza√ß√£o**.

### [**Question√°rio p√≥s-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Revis√£o & Estudo Individual**

H√° muito jarg√£o nestas li√ß√µes, por isso reserve um momento para rever [esta lista](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) de terminologia √∫til!

#### AGRADECIMENTOS A:

[`Allison Horst`](https://twitter.com/allison_horst/) por criar as ilustra√ß√µes incr√≠veis que tornam o R mais acolhedor e envolvente. Encontre mais ilustra√ß√µes na sua [galeria](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) e [Jen Looper](https://www.twitter.com/jenlooper) por criarem a vers√£o original deste m√≥dulo em Python ‚ô•Ô∏è

Boas aprendizagens,

[Eric](https://twitter.com/ericntay), Embaixador Estudante Gold da Microsoft Learn.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Arte por @allison_horst</figcaption>



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o servi√ßo de tradu√ß√£o por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precis√£o, √© importante ter em conta que tradu√ß√µes autom√°ticas podem conter erros ou imprecis√µes. O documento original na sua l√≠ngua nativa deve ser considerado a fonte autorit√°ria. Para informa√ß√µes cr√≠ticas, recomenda-se a tradu√ß√£o profissional realizada por humanos. N√£o nos responsabilizamos por quaisquer mal-entendidos ou interpreta√ß√µes incorretas decorrentes da utiliza√ß√£o desta tradu√ß√£o.
