# Construir um modelo de classifica√ß√£o: Deliciosas culin√°rias asi√°ticas e indianas


## Classificadores de culin√°ria 2

Nesta segunda li√ß√£o de classifica√ß√£o, exploraremos `mais maneiras` de classificar dados categ√≥ricos. Tamb√©m aprenderemos sobre as implica√ß√µes de escolher um classificador em vez de outro.

### [**Quiz pr√©-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Pr√©-requisitos**

Assumimos que voc√™ completou as li√ß√µes anteriores, j√° que continuaremos com alguns conceitos que aprendemos antes.

Para esta li√ß√£o, precisaremos dos seguintes pacotes:

-   `tidyverse`: O [tidyverse](https://www.tidyverse.org/) √© uma [cole√ß√£o de pacotes R](https://www.tidyverse.org/packages) projetada para tornar a ci√™ncia de dados mais r√°pida, f√°cil e divertida!

-   `tidymodels`: O [tidymodels](https://www.tidymodels.org/) √© um [framework de pacotes](https://www.tidymodels.org/packages/) para modelagem e aprendizado de m√°quina.

-   `themis`: O [pacote themis](https://themis.tidymodels.org/) fornece etapas extras de receitas para lidar com dados desbalanceados.

Voc√™ pode instal√°-los com o seguinte comando:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativamente, o script abaixo verifica se voc√™ possui os pacotes necess√°rios para completar este m√≥dulo e os instala caso estejam ausentes.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Um mapa de classifica√ß√£o**

Na nossa [li√ß√£o anterior](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1), tentamos responder √† pergunta: como escolher entre v√°rios modelos? Em grande parte, isso depende das caracter√≠sticas dos dados e do tipo de problema que queremos resolver (por exemplo, classifica√ß√£o ou regress√£o?).

Anteriormente, aprendemos sobre as v√°rias op√ß√µes dispon√≠veis para classificar dados usando o guia da Microsoft. O framework de Machine Learning do Python, Scikit-learn, oferece um guia semelhante, mas mais detalhado, que pode ajudar ainda mais a restringir seus estimadores (outro termo para classificadores):

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Dica: [visite este mapa online](https://scikit-learn.org/stable/tutorial/machine_learning_map/) e clique ao longo do caminho para ler a documenta√ß√£o.
>
> O [site de refer√™ncia do Tidymodels](https://www.tidymodels.org/find/parsnip/#models) tamb√©m oferece uma excelente documenta√ß√£o sobre diferentes tipos de modelos.

### **O plano** üó∫Ô∏è

Este mapa √© muito √∫til quando voc√™ tem uma compreens√£o clara dos seus dados, pois pode 'caminhar' pelos seus caminhos at√© chegar a uma decis√£o:

-   Temos \>50 amostras

-   Queremos prever uma categoria

-   Temos dados rotulados

-   Temos menos de 100K amostras

-   ‚ú® Podemos escolher um Linear SVC

-   Se isso n√£o funcionar, j√° que temos dados num√©ricos

    -   Podemos tentar um ‚ú® KNeighbors Classifier

        -   Se isso n√£o funcionar, tente ‚ú® SVC e ‚ú® Ensemble Classifiers

Este √© um caminho muito √∫til para seguir. Agora, vamos direto ao ponto usando o framework de modelagem [tidymodels](https://www.tidymodels.org/): uma cole√ß√£o consistente e flex√≠vel de pacotes R desenvolvidos para incentivar boas pr√°ticas estat√≠sticas üòä.

## 2. Divida os dados e lide com o conjunto de dados desequilibrado.

Nas nossas li√ß√µes anteriores, aprendemos que havia um conjunto de ingredientes comuns entre nossas culin√°rias. Al√©m disso, havia uma distribui√ß√£o bastante desigual no n√∫mero de culin√°rias.

Vamos lidar com isso da seguinte forma:

-   Eliminando os ingredientes mais comuns que criam confus√£o entre culin√°rias distintas, usando `dplyr::select()`.

-   Usando uma `recipe` que pr√©-processa os dados para prepar√°-los para modelagem, aplicando um algoritmo de `over-sampling`.

J√° vimos isso na li√ß√£o anterior, ent√£o deve ser tranquilo ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### Lidando com dados desbalanceados

Dados desbalanceados frequentemente t√™m efeitos negativos no desempenho do modelo. Muitos modelos funcionam melhor quando o n√∫mero de observa√ß√µes √© igual e, por isso, tendem a ter dificuldades com dados desbalanceados.

Existem basicamente duas maneiras de lidar com conjuntos de dados desbalanceados:

-   adicionar observa√ß√µes √† classe minorit√°ria: `Over-sampling`, por exemplo, usando um algoritmo SMOTE que gera novos exemplos sint√©ticos da classe minorit√°ria utilizando os vizinhos mais pr√≥ximos desses casos.

-   remover observa√ß√µes da classe majorit√°ria: `Under-sampling`

Na nossa aula anterior, demonstramos como lidar com conjuntos de dados desbalanceados usando um `recipe`. Um recipe pode ser pensado como um plano que descreve quais etapas devem ser aplicadas a um conjunto de dados para prepar√°-lo para an√°lise. No nosso caso, queremos ter uma distribui√ß√£o igual no n√∫mero de nossas culin√°rias para o nosso `training set`. Vamos direto ao ponto.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Agora estamos prontos para treinar modelos üë©‚Äçüíªüë®‚Äçüíª!

## 3. Al√©m dos modelos de regress√£o multinomial

Na nossa aula anterior, exploramos os modelos de regress√£o multinomial. Agora, vamos conhecer alguns modelos mais flex√≠veis para classifica√ß√£o.

### M√°quinas de Vetores de Suporte

No contexto de classifica√ß√£o, `M√°quinas de Vetores de Suporte` √© uma t√©cnica de aprendizado de m√°quina que busca encontrar um *hiperplano* que "melhor" separa as classes. Vamos observar um exemplo simples:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ n√£o separa as classes. H2~ separa, mas apenas com uma margem pequena. H3~ as separa com a margem m√°xima.

#### Classificador Linear de Vetores de Suporte

O agrupamento por Vetores de Suporte (SVC) √© um membro da fam√≠lia de t√©cnicas de aprendizado de m√°quina baseadas em M√°quinas de Vetores de Suporte. No SVC, o hiperplano √© escolhido para separar corretamente `a maioria` das observa√ß√µes de treinamento, mas `pode classificar erroneamente` algumas observa√ß√µes. Ao permitir que alguns pontos fiquem do lado errado, o SVM se torna mais robusto a outliers, o que resulta em uma melhor generaliza√ß√£o para novos dados. O par√¢metro que regula essa viola√ß√£o √© chamado de `cost`, que tem um valor padr√£o de 1 (veja `help("svm_poly")`).

Vamos criar um SVC linear definindo `degree = 1` em um modelo SVM polinomial.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Agora que capturamos as etapas de pr√©-processamento e a especifica√ß√£o do modelo em um *workflow*, podemos prosseguir para treinar o SVC linear e avaliar os resultados ao mesmo tempo. Para as m√©tricas de desempenho, vamos criar um conjunto de m√©tricas que avaliar√°: `accuracy`, `sensitivity`, `Positive Predicted Value` e `F Measure`.

> `augment()` adicionar√° coluna(s) de previs√µes aos dados fornecidos.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### M√°quina de Vetores de Suporte

A m√°quina de vetores de suporte (SVM) √© uma extens√£o do classificador de vetores de suporte para acomodar um limite n√£o linear entre as classes. Essencialmente, as SVMs utilizam o *truque do kernel* para ampliar o espa√ßo de caracter√≠sticas e se adaptar a rela√ß√µes n√£o lineares entre as classes. Uma fun√ß√£o kernel popular e extremamente flex√≠vel usada pelas SVMs √© a *fun√ß√£o de base radial.* Vamos ver como ela se comporta com nossos dados.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Muito melhor ü§©!

> ‚úÖ Por favor, veja:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> para leitura adicional.

### Classificadores de Vizinhos Mais Pr√≥ximos

O algoritmo *K*-nearest neighbor (KNN) prev√™ cada observa√ß√£o com base em sua *semelhan√ßa* com outras observa√ß√µes.

Vamos ajustar um ao nosso conjunto de dados.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Parece que este modelo n√£o est√° apresentando um bom desempenho. Provavelmente, alterar os argumentos do modelo (veja `help("nearest_neighbor")`) pode melhorar o desempenho do modelo. Certifique-se de testar isso.

> ‚úÖ Por favor, veja:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> para aprender mais sobre classificadores *K*-Nearest Neighbors.

### Classificadores de conjunto

Os algoritmos de conjunto funcionam combinando m√∫ltiplos estimadores base para produzir um modelo ideal, seja por:

`bagging`: aplicando uma *fun√ß√£o de m√©dia* a uma cole√ß√£o de modelos base

`boosting`: construindo uma sequ√™ncia de modelos que se baseiam uns nos outros para melhorar o desempenho preditivo.

Vamos come√ßar experimentando um modelo de Random Forest, que constr√≥i uma grande cole√ß√£o de √°rvores de decis√£o e, em seguida, aplica uma fun√ß√£o de m√©dia para obter um modelo geral melhor.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Bom trabalho üëè!

Vamos tamb√©m experimentar com um modelo de √Årvore Refor√ßada.

A √Årvore Refor√ßada define um m√©todo de conjunto que cria uma s√©rie de √°rvores de decis√£o sequenciais, onde cada √°rvore depende dos resultados das √°rvores anteriores, na tentativa de reduzir o erro de forma incremental. Ela foca nos pesos dos itens classificados incorretamente e ajusta o ajuste para o pr√≥ximo classificador corrigir.

Existem diferentes maneiras de ajustar este modelo (veja `help("boost_tree")`). Neste exemplo, ajustaremos √Årvores Refor√ßadas usando o mecanismo `xgboost`.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Por favor, veja:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Explora o modelo AdaBoost, que √© uma boa alternativa ao xgboost.
>
> para aprender mais sobre classificadores Ensemble.

## 4. Extra - comparando m√∫ltiplos modelos

N√≥s ajustamos um bom n√∫mero de modelos neste laborat√≥rio üôå. Pode se tornar cansativo ou trabalhoso criar muitos fluxos de trabalho a partir de diferentes conjuntos de pr√©-processadores e/ou especifica√ß√µes de modelos e, em seguida, calcular as m√©tricas de desempenho uma por uma.

Vamos ver se conseguimos resolver isso criando uma fun√ß√£o que ajusta uma lista de fluxos de trabalho no conjunto de treinamento e, em seguida, retorna as m√©tricas de desempenho com base no conjunto de teste. Vamos usar `map()` e `map_dfr()` do pacote [purrr](https://purrr.tidyverse.org/) para aplicar fun√ß√µes a cada elemento de uma lista.

> As fun√ß√µes [`map()`](https://purrr.tidyverse.org/reference/map.html) permitem substituir muitos loops `for` por um c√≥digo que √© mais conciso e mais f√°cil de ler. O melhor lugar para aprender sobre as fun√ß√µes [`map()`](https://purrr.tidyverse.org/reference/map.html) √© o [cap√≠tulo de itera√ß√£o](http://r4ds.had.co.nz/iteration.html) em R for Data Science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


O pacote [**workflowset**](https://workflowsets.tidymodels.org/) permite que os usu√°rios criem e ajustem facilmente um grande n√∫mero de modelos, mas √© principalmente projetado para funcionar com t√©cnicas de reamostragem, como `cross-validation` (valida√ß√£o cruzada), uma abordagem que ainda vamos abordar.

## **üöÄDesafio**

Cada uma dessas t√©cnicas possui um grande n√∫mero de par√¢metros que voc√™ pode ajustar, como, por exemplo, `cost` em SVMs, `neighbors` em KNN, `mtry` (Preditores Selecionados Aleatoriamente) em Random Forest.

Pesquise os par√¢metros padr√£o de cada uma e reflita sobre o que ajustar esses par√¢metros significaria para a qualidade do modelo.

Para saber mais sobre um modelo espec√≠fico e seus par√¢metros, use: `help("model")`, por exemplo, `help("rand_forest")`.

> Na pr√°tica, geralmente *estimamos* os *melhores valores* para esses par√¢metros treinando muitos modelos em um `conjunto de dados simulado` e medindo o desempenho de todos esses modelos. Esse processo √© chamado de **tuning** (ajuste fino).

### [**Quiz p√≥s-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Revis√£o e Autoestudo**

H√° muitos termos t√©cnicos nessas li√ß√µes, ent√£o reserve um momento para revisar [esta lista](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) de terminologia √∫til!

#### AGRADECIMENTOS A:

[`Allison Horst`](https://twitter.com/allison_horst/) por criar as ilustra√ß√µes incr√≠veis que tornam o R mais acolhedor e envolvente. Encontre mais ilustra√ß√µes na sua [galeria](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) e [Jen Looper](https://www.twitter.com/jenlooper) por criarem a vers√£o original deste m√≥dulo em Python ‚ô•Ô∏è

Bons estudos,

[Eric](https://twitter.com/ericntay), Embaixador Estudante Gold da Microsoft Learn.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Arte por @allison_horst</figcaption>



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o servi√ßo de tradu√ß√£o por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precis√£o, esteja ciente de que tradu√ß√µes automatizadas podem conter erros ou imprecis√µes. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informa√ß√µes cr√≠ticas, recomenda-se a tradu√ß√£o profissional realizada por humanos. N√£o nos responsabilizamos por quaisquer mal-entendidos ou interpreta√ß√µes equivocadas decorrentes do uso desta tradu√ß√£o.
