# Construir um modelo de classifica√ß√£o: Deliciosas culin√°rias asi√°ticas e indianas


## Introdu√ß√£o √† classifica√ß√£o: Limpe, prepare e visualize seus dados

Nestes quatro m√≥dulos, voc√™ explorar√° um dos focos fundamentais do aprendizado de m√°quina cl√°ssico - *classifica√ß√£o*. Vamos explorar o uso de v√°rios algoritmos de classifica√ß√£o com um conjunto de dados sobre as brilhantes culin√°rias da √Åsia e da √çndia. Espero que voc√™ esteja com fome!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Comemore as culin√°rias pan-asi√°ticas nestas li√ß√µes! Imagem de Jen Looper</figcaption>


<!--![Comemore as culin√°rias pan-asi√°ticas nestas li√ß√µes! Imagem de Jen Looper](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.br.png)-->

Classifica√ß√£o √© uma forma de [aprendizado supervisionado](https://wikipedia.org/wiki/Supervised_learning) que tem muito em comum com t√©cnicas de regress√£o. Na classifica√ß√£o, voc√™ treina um modelo para prever a qual `categoria` um item pertence. Se o aprendizado de m√°quina √© sobre prever valores ou nomes para coisas usando conjuntos de dados, ent√£o a classifica√ß√£o geralmente se divide em dois grupos: *classifica√ß√£o bin√°ria* e *classifica√ß√£o multiclasses*.

Lembre-se:

-   **Regress√£o linear** ajudou voc√™ a prever rela√ß√µes entre vari√°veis e fazer previs√µes precisas sobre onde um novo ponto de dados se encaixaria em rela√ß√£o a essa linha. Por exemplo, voc√™ poderia prever valores num√©ricos como *qual seria o pre√ßo de uma ab√≥bora em setembro vs. dezembro*.

-   **Regress√£o log√≠stica** ajudou voc√™ a descobrir "categorias bin√°rias": neste ponto de pre√ßo, *essa ab√≥bora √© laranja ou n√£o-laranja*?

A classifica√ß√£o utiliza v√°rios algoritmos para determinar outras formas de identificar o r√≥tulo ou a classe de um ponto de dados. Vamos trabalhar com esses dados de culin√°ria para ver se, ao observar um grupo de ingredientes, conseguimos determinar sua origem culin√°ria.

### [**Question√°rio pr√©-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introdu√ß√£o**

A classifica√ß√£o √© uma das atividades fundamentais do pesquisador de aprendizado de m√°quina e do cientista de dados. Desde a classifica√ß√£o b√°sica de um valor bin√°rio ("este e-mail √© spam ou n√£o?") at√© a classifica√ß√£o e segmenta√ß√£o complexa de imagens usando vis√£o computacional, √© sempre √∫til ser capaz de organizar dados em classes e fazer perguntas sobre eles.

Para descrever o processo de forma mais cient√≠fica, seu m√©todo de classifica√ß√£o cria um modelo preditivo que permite mapear a rela√ß√£o entre vari√°veis de entrada e vari√°veis de sa√≠da.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Problemas bin√°rios vs. multiclasses para algoritmos de classifica√ß√£o. Infogr√°fico por Jen Looper</figcaption>



Antes de come√ßar o processo de limpeza dos dados, visualiz√°-los e prepar√°-los para nossas tarefas de aprendizado de m√°quina, vamos aprender um pouco sobre as v√°rias maneiras pelas quais o aprendizado de m√°quina pode ser usado para classificar dados.

Derivada da [estat√≠stica](https://wikipedia.org/wiki/Statistical_classification), a classifica√ß√£o usando aprendizado de m√°quina cl√°ssico utiliza caracter√≠sticas, como `fumante`, `peso` e `idade`, para determinar a *probabilidade de desenvolver X doen√ßa*. Como uma t√©cnica de aprendizado supervisionado semelhante aos exerc√≠cios de regress√£o que voc√™ realizou anteriormente, seus dados s√£o rotulados e os algoritmos de aprendizado de m√°quina usam esses r√≥tulos para classificar e prever classes (ou 'caracter√≠sticas') de um conjunto de dados e atribu√≠-las a um grupo ou resultado.

‚úÖ Tire um momento para imaginar um conjunto de dados sobre culin√°rias. O que um modelo multiclasses seria capaz de responder? O que um modelo bin√°rio seria capaz de responder? E se voc√™ quisesse determinar se uma determinada culin√°ria provavelmente usa feno-grego? E se voc√™ quisesse ver se, dado um presente de uma sacola de compras cheia de anis-estrelado, alcachofras, couve-flor e raiz-forte, voc√™ poderia criar um prato t√≠pico indiano?

### **Ol√° 'classificador'**

A pergunta que queremos fazer sobre este conjunto de dados de culin√°ria √©, na verdade, uma quest√£o **multiclasses**, j√° que temos v√°rias poss√≠veis culin√°rias nacionais para trabalhar. Dado um lote de ingredientes, a qual dessas muitas classes os dados se encaixam?

O Tidymodels oferece v√°rios algoritmos diferentes para classificar dados, dependendo do tipo de problema que voc√™ deseja resolver. Nas pr√≥ximas duas li√ß√µes, voc√™ aprender√° sobre alguns desses algoritmos.

#### **Pr√©-requisito**

Para esta li√ß√£o, precisaremos dos seguintes pacotes para limpar, preparar e visualizar nossos dados:

-   `tidyverse`: O [tidyverse](https://www.tidyverse.org/) √© uma [cole√ß√£o de pacotes R](https://www.tidyverse.org/packages) projetada para tornar a ci√™ncia de dados mais r√°pida, f√°cil e divertida!

-   `tidymodels`: O [tidymodels](https://www.tidymodels.org/) √© uma [cole√ß√£o de pacotes](https://www.tidymodels.org/packages/) para modelagem e aprendizado de m√°quina.

-   `DataExplorer`: O [pacote DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) foi criado para simplificar e automatizar o processo de an√°lise explorat√≥ria de dados (EDA) e a gera√ß√£o de relat√≥rios.

-   `themis`: O [pacote themis](https://themis.tidymodels.org/) fornece etapas extras de receitas para lidar com dados desbalanceados.

Voc√™ pode instal√°-los com:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativamente, o script abaixo verifica se voc√™ possui os pacotes necess√°rios para completar este m√≥dulo e os instala para voc√™ caso estejam ausentes.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Vamos carregar esses pacotes incr√≠veis mais tarde e torn√°-los dispon√≠veis na nossa sess√£o atual do R. (Isso √© apenas para ilustra√ß√£o, `pacman::p_load()` j√° fez isso por voc√™)


## Exerc√≠cio - limpar e balancear seus dados

A primeira tarefa, antes de come√ßar este projeto, √© limpar e **balancear** seus dados para obter melhores resultados.

Vamos conhecer os dados! üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Interessante! Pelo que parece, a primeira coluna √© um tipo de coluna `id`. Vamos obter um pouco mais de informa√ß√µes sobre os dados.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

A partir do resultado, podemos ver imediatamente que temos `2448` linhas, `385` colunas e `0` valores ausentes. Tamb√©m temos 1 coluna discreta, *cuisine*.

## Exerc√≠cio - aprendendo sobre culin√°rias

Agora o trabalho come√ßa a ficar mais interessante. Vamos descobrir a distribui√ß√£o dos dados por tipo de culin√°ria.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Existem um n√∫mero finito de culin√°rias, mas a distribui√ß√£o dos dados √© desigual. Voc√™ pode corrigir isso! Antes de fazer isso, explore um pouco mais.

Em seguida, vamos atribuir cada culin√°ria ao seu pr√≥prio tibble e descobrir quantos dados est√£o dispon√≠veis (linhas, colunas) por culin√°ria.

> Um [tibble](https://tibble.tidyverse.org/) √© uma vers√£o moderna de um data frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustra√ß√£o por @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Exerc√≠cio - Descobrindo os principais ingredientes por culin√°ria usando dplyr**

Agora voc√™ pode explorar mais profundamente os dados e descobrir quais s√£o os ingredientes t√≠picos de cada culin√°ria. √â importante limpar dados recorrentes que criam confus√£o entre as culin√°rias, ent√£o vamos aprender sobre esse problema.

Crie uma fun√ß√£o `create_ingredient()` em R que retorne um dataframe de ingredientes. Essa fun√ß√£o come√ßar√° eliminando uma coluna pouco √∫til e organizar√° os ingredientes por sua contagem.

A estrutura b√°sica de uma fun√ß√£o em R √©:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Uma introdu√ß√£o pr√°tica √†s fun√ß√µes em R pode ser encontrada [aqui](https://skirmer.github.io/presentations/functions_with_r.html#1).

Vamos direto ao ponto! Faremos uso dos [verbos do dplyr](https://dplyr.tidyverse.org/) que aprendemos em nossas li√ß√µes anteriores. Para relembrar:

-   `dplyr::select()`: ajuda voc√™ a escolher quais **colunas** manter ou excluir.

-   `dplyr::pivot_longer()`: ajuda a "alongar" os dados, aumentando o n√∫mero de linhas e diminuindo o n√∫mero de colunas.

-   `dplyr::group_by()` e `dplyr::summarise()`: ajudam voc√™ a encontrar estat√≠sticas resumidas para diferentes grupos e coloc√°-las em uma tabela organizada.

-   `dplyr::filter()`: cria um subconjunto dos dados contendo apenas as linhas que satisfazem suas condi√ß√µes.

-   `dplyr::mutate()`: ajuda voc√™ a criar ou modificar colunas.

Confira este [tutorial *art√≠stico* do learnr](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) de Allison Horst, que apresenta algumas fun√ß√µes √∫teis de manipula√ß√£o de dados no dplyr *(parte do Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Agora podemos usar a fun√ß√£o para ter uma ideia dos dez ingredientes mais populares por culin√°ria. Vamos test√°-la com `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Na se√ß√£o anterior, usamos `geom_col()`, vamos ver como voc√™ pode usar `geom_bar` tamb√©m, para criar gr√°ficos de barras. Use `?geom_bar` para leitura adicional.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


E quanto √†s culin√°rias chinesas?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

A partir das visualiza√ß√µes de dados, agora podemos remover os ingredientes mais comuns que geram confus√£o entre diferentes culin√°rias, usando `dplyr::select()`.

Todo mundo adora arroz, alho e gengibre!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Pr√©-processamento de dados usando recipes üë©‚Äçüç≥üë®‚Äçüç≥ - Lidando com dados desbalanceados ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Arte por @allison_horst</figcaption>

Dado que esta li√ß√£o √© sobre culin√°rias, precisamos colocar `recipes` em contexto.

Tidymodels oferece mais um pacote interessante: `recipes` - um pacote para pr√©-processamento de dados.


Vamos dar uma olhada novamente na distribui√ß√£o das nossas culin√°rias.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Como voc√™ pode ver, h√° uma distribui√ß√£o bastante desigual no n√∫mero de culin√°rias. Culin√°rias coreanas s√£o quase 3 vezes mais numerosas que as culin√°rias tailandesas. Dados desequilibrados frequentemente t√™m efeitos negativos no desempenho do modelo. Pense em uma classifica√ß√£o bin√°ria. Se a maior parte dos seus dados pertence a uma classe, um modelo de aprendizado de m√°quina vai prever essa classe com mais frequ√™ncia, simplesmente porque h√° mais dados para ela. Balancear os dados corrige qualquer desequil√≠brio e ajuda a remover essa disparidade. Muitos modelos apresentam melhor desempenho quando o n√∫mero de observa√ß√µes √© igual e, por isso, tendem a ter dificuldades com dados desequilibrados.

Existem basicamente duas maneiras de lidar com conjuntos de dados desequilibrados:

-   adicionar observa√ß√µes √† classe minorit√°ria: `Over-sampling`, por exemplo, usando um algoritmo SMOTE

-   remover observa√ß√µes da classe majorit√°ria: `Under-sampling`

Agora vamos demonstrar como lidar com conjuntos de dados desequilibrados usando uma `receita`. Uma receita pode ser vista como um plano que descreve quais etapas devem ser aplicadas a um conjunto de dados para prepar√°-lo para an√°lise.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Vamos detalhar nossas etapas de pr√©-processamento.

-   A chamada para `recipe()` com uma f√≥rmula informa √† receita os *pap√©is* das vari√°veis usando os dados de `df_select` como refer√™ncia. Por exemplo, a coluna `cuisine` foi atribu√≠da ao papel de `outcome`, enquanto o restante das colunas foi atribu√≠do ao papel de `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) cria uma *especifica√ß√£o* de uma etapa da receita que gera sinteticamente novos exemplos da classe minorit√°ria usando os vizinhos mais pr√≥ximos desses casos.

Agora, se quisermos ver os dados pr√©-processados, precisamos [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) e [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) nossa receita.

`prep()`: estima os par√¢metros necess√°rios a partir de um conjunto de treinamento que podem ser aplicados posteriormente a outros conjuntos de dados.

`bake()`: aplica uma receita preparada √†s opera√ß√µes em qualquer conjunto de dados.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Vamos agora verificar a distribui√ß√£o de nossas culin√°rias e compar√°-las com os dados desequilibrados.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! Os dados est√£o limpos, balanceados e muito deliciosos üòã!

> Normalmente, uma receita √© usada como um pr√©-processador para modelagem, onde define quais etapas devem ser aplicadas a um conjunto de dados para prepar√°-lo para a modelagem. Nesse caso, um `workflow()` √© tipicamente usado (como j√° vimos em nossas aulas anteriores) em vez de estimar manualmente uma receita.
>
> Assim, voc√™ geralmente n√£o precisa usar **`prep()`** e **`bake()`** em receitas quando utiliza o tidymodels, mas essas s√£o fun√ß√µes √∫teis para ter em sua caixa de ferramentas para confirmar que as receitas est√£o fazendo o que voc√™ espera, como no nosso caso.
>
> Quando voc√™ usa **`bake()`** em uma receita preparada com **`new_data = NULL`**, voc√™ obt√©m de volta os dados que forneceu ao definir a receita, mas j√° processados pelas etapas de pr√©-processamento.

Agora vamos salvar uma c√≥pia desses dados para uso em aulas futuras:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Este novo CSV agora pode ser encontrado na pasta raiz de dados.

**üöÄDesafio**

Este curr√≠culo cont√©m v√°rios conjuntos de dados interessantes. Explore as pastas `data` e veja se alguma cont√©m conjuntos de dados que seriam apropriados para classifica√ß√£o bin√°ria ou multi-classes. Que perguntas voc√™ faria sobre este conjunto de dados?

## [**Quiz p√≥s-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Revis√£o e Autoestudo**

-   Confira o [pacote themis](https://github.com/tidymodels/themis). Quais outras t√©cnicas poder√≠amos usar para lidar com dados desbalanceados?

-   Site de refer√™ncia dos modelos Tidy: [Tidy models](https://www.tidymodels.org/start/).

-   H. Wickham e G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### AGRADECIMENTOS A:

[`Allison Horst`](https://twitter.com/allison_horst/) por criar as ilustra√ß√µes incr√≠veis que tornam o R mais acolhedor e envolvente. Encontre mais ilustra√ß√µes na sua [galeria](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) e [Jen Looper](https://www.twitter.com/jenlooper) por criarem a vers√£o original em Python deste m√≥dulo ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Arte por @allison_horst</figcaption>



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o servi√ßo de tradu√ß√£o por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precis√£o, esteja ciente de que tradu√ß√µes automatizadas podem conter erros ou imprecis√µes. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informa√ß√µes cr√≠ticas, recomenda-se a tradu√ß√£o profissional realizada por humanos. N√£o nos responsabilizamos por quaisquer mal-entendidos ou interpreta√ß√µes equivocadas decorrentes do uso desta tradu√ß√£o.
