# Construir un modelo de clasificaci√≥n: Deliciosas cocinas asi√°ticas e indias


## Introducci√≥n a la clasificaci√≥n: Limpia, prepara y visualiza tus datos

En estas cuatro lecciones, explorar√°s un enfoque fundamental del aprendizaje autom√°tico cl√°sico: la *clasificaci√≥n*. Recorreremos el uso de varios algoritmos de clasificaci√≥n con un conjunto de datos sobre las brillantes cocinas de Asia e India. ¬°Espero que tengas hambre!

<p>
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>¬°Celebra las cocinas panasi√°ticas en estas lecciones! Imagen de Jen Looper</figcaption>


<!--![Celebra las cocinas panasi√°ticas en estas lecciones! Imagen de Jen Looper](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.es.png)-->

La clasificaci√≥n es una forma de [aprendizaje supervisado](https://wikipedia.org/wiki/Supervised_learning) que tiene mucho en com√∫n con las t√©cnicas de regresi√≥n. En la clasificaci√≥n, entrenas un modelo para predecir a qu√© `categor√≠a` pertenece un elemento. Si el aprendizaje autom√°tico se trata de predecir valores o nombres de cosas utilizando conjuntos de datos, entonces la clasificaci√≥n generalmente se divide en dos grupos: *clasificaci√≥n binaria* y *clasificaci√≥n multiclase*.

Recuerda:

-   **Regresi√≥n lineal** te ayud√≥ a predecir relaciones entre variables y hacer predicciones precisas sobre d√≥nde caer√≠a un nuevo punto de datos en relaci√≥n con esa l√≠nea. Por ejemplo, podr√≠as predecir valores num√©ricos como *el precio de una calabaza en septiembre frente a diciembre*.

-   **Regresi√≥n log√≠stica** te ayud√≥ a descubrir "categor√≠as binarias": a este precio, *¬øes esta calabaza naranja o no naranja*?

La clasificaci√≥n utiliza varios algoritmos para determinar otras formas de identificar la etiqueta o clase de un punto de datos. Trabajemos con estos datos de cocina para ver si, al observar un grupo de ingredientes, podemos determinar su cocina de origen.

### [**Cuestionario previo a la lecci√≥n**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introducci√≥n**

La clasificaci√≥n es una de las actividades fundamentales del investigador de aprendizaje autom√°tico y del cient√≠fico de datos. Desde la clasificaci√≥n b√°sica de un valor binario ("¬øes este correo electr√≥nico spam o no?"), hasta la clasificaci√≥n y segmentaci√≥n compleja de im√°genes utilizando visi√≥n por computadora, siempre es √∫til poder clasificar datos en categor√≠as y hacer preguntas sobre ellos.

Para expresar el proceso de una manera m√°s cient√≠fica, tu m√©todo de clasificaci√≥n crea un modelo predictivo que te permite mapear la relaci√≥n entre las variables de entrada y las variables de salida.

<p>
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Problemas binarios vs. multiclase para que los algoritmos de clasificaci√≥n manejen. Infograf√≠a de Jen Looper</figcaption>



Antes de comenzar el proceso de limpiar nuestros datos, visualizarlos y prepararlos para nuestras tareas de aprendizaje autom√°tico, aprendamos un poco sobre las diversas formas en que el aprendizaje autom√°tico puede ser utilizado para clasificar datos.

Derivada de la [estad√≠stica](https://wikipedia.org/wiki/Statistical_classification), la clasificaci√≥n utilizando aprendizaje autom√°tico cl√°sico emplea caracter√≠sticas como `fumador`, `peso` y `edad` para determinar la *probabilidad de desarrollar X enfermedad*. Como t√©cnica de aprendizaje supervisado similar a los ejercicios de regresi√≥n que realizaste anteriormente, tus datos est√°n etiquetados y los algoritmos de aprendizaje autom√°tico utilizan esas etiquetas para clasificar y predecir clases (o 'caracter√≠sticas') de un conjunto de datos y asignarlas a un grupo o resultado.

‚úÖ T√≥mate un momento para imaginar un conjunto de datos sobre cocinas. ¬øQu√© podr√≠a responder un modelo multiclase? ¬øQu√© podr√≠a responder un modelo binario? ¬øQu√© pasar√≠a si quisieras determinar si una cocina dada es probable que use fenogreco? ¬øY si quisieras ver si, dado un regalo de una bolsa de supermercado llena de an√≠s estrellado, alcachofas, coliflor y r√°bano picante, podr√≠as crear un plato t√≠pico indio?

### **Hola 'clasificador'**

La pregunta que queremos hacerle a este conjunto de datos de cocina es en realidad una **pregunta multiclase**, ya que tenemos varias cocinas nacionales potenciales con las que trabajar. Dado un lote de ingredientes, ¬øa cu√°l de estas muchas clases se ajustar√°n los datos?

Tidymodels ofrece varios algoritmos diferentes para clasificar datos, dependiendo del tipo de problema que quieras resolver. En las pr√≥ximas dos lecciones, aprender√°s sobre varios de estos algoritmos.

#### **Requisitos previos**

Para esta lecci√≥n, necesitaremos los siguientes paquetes para limpiar, preparar y visualizar nuestros datos:

-   `tidyverse`: El [tidyverse](https://www.tidyverse.org/) es una [colecci√≥n de paquetes de R](https://www.tidyverse.org/packages) dise√±ada para hacer la ciencia de datos m√°s r√°pida, f√°cil y divertida.

-   `tidymodels`: El marco [tidymodels](https://www.tidymodels.org/) es una [colecci√≥n de paquetes](https://www.tidymodels.org/packages/) para modelado y aprendizaje autom√°tico.

-   `DataExplorer`: El paquete [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) est√° dise√±ado para simplificar y automatizar el proceso de EDA y la generaci√≥n de informes.

-   `themis`: El paquete [themis](https://themis.tidymodels.org/) proporciona pasos adicionales de recetas para tratar con datos desbalanceados.

Puedes instalarlos con:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativamente, el siguiente script verifica si tienes los paquetes necesarios para completar este m√≥dulo y los instala por ti en caso de que falten.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Luego cargaremos estos paquetes incre√≠bles y los pondremos a disposici√≥n en nuestra sesi√≥n actual de R. (Esto es solo para ilustraci√≥n, `pacman::p_load()` ya hizo eso por ti)


## Ejercicio - limpia y equilibra tus datos

La primera tarea, antes de comenzar este proyecto, es limpiar y **equilibrar** tus datos para obtener mejores resultados.

¬°Conozcamos los datos! üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


¬°Interesante! Por lo que parece, la primera columna es una especie de columna de `id`. Vamos a obtener un poco m√°s de informaci√≥n sobre los datos.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

A partir del resultado, podemos ver inmediatamente que tenemos `2448` filas y `385` columnas y `0` valores faltantes. Tambi√©n tenemos 1 columna discreta, *cuisine*.

## Ejercicio - aprendiendo sobre las cocinas

Ahora el trabajo comienza a ponerse m√°s interesante. Vamos a descubrir la distribuci√≥n de los datos, por tipo de cocina.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Hay un n√∫mero finito de cocinas, pero la distribuci√≥n de los datos es desigual. ¬°Puedes arreglar eso! Antes de hacerlo, explora un poco m√°s.

A continuaci√≥n, asignemos cada cocina a su propio tibble y averig√ºemos cu√°ntos datos est√°n disponibles (filas, columnas) por cocina.

> Un [tibble](https://tibble.tidyverse.org/) es un marco de datos moderno.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustraci√≥n por @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Ejercicio - Descubriendo los ingredientes principales por cocina usando dplyr**

Ahora puedes profundizar en los datos y aprender cu√°les son los ingredientes t√≠picos de cada cocina. Deber√≠as eliminar datos recurrentes que generan confusi√≥n entre las cocinas, as√≠ que vamos a aprender sobre este problema.

Crea una funci√≥n `create_ingredient()` en R que devuelva un dataframe de ingredientes. Esta funci√≥n comenzar√° eliminando una columna poco √∫til y clasificar√° los ingredientes seg√∫n su frecuencia.

La estructura b√°sica de una funci√≥n en R es:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Una introducci√≥n ordenada a las funciones en R se puede encontrar [aqu√≠](https://skirmer.github.io/presentations/functions_with_r.html#1).

¬°Vamos directo al grano! Usaremos los [verbos de dplyr](https://dplyr.tidyverse.org/) que hemos estado aprendiendo en nuestras lecciones anteriores. Como recordatorio:

-   `dplyr::select()`: te ayuda a elegir qu√© **columnas** mantener o excluir.

-   `dplyr::pivot_longer()`: te ayuda a "alargar" los datos, aumentando el n√∫mero de filas y disminuyendo el n√∫mero de columnas.

-   `dplyr::group_by()` y `dplyr::summarise()`: te ayudan a encontrar estad√≠sticas resumidas para diferentes grupos y a colocarlas en una tabla ordenada.

-   `dplyr::filter()`: crea un subconjunto de los datos que solo contiene las filas que cumplen tus condiciones.

-   `dplyr::mutate()`: te ayuda a crear o modificar columnas.

Consulta este [tutorial interactivo lleno de *arte*](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) de Allison Horst, que introduce algunas funciones √∫tiles para manipulaci√≥n de datos en dplyr *(parte del Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Ahora podemos usar la funci√≥n para hacernos una idea de los diez ingredientes m√°s populares por cocina. Prob√©mosla con `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

En la secci√≥n anterior, utilizamos `geom_col()`, veamos c√≥mo tambi√©n puedes usar `geom_bar` para crear gr√°ficos de barras. Usa `?geom_bar` para leer m√°s.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


¬øQu√© hay de las cocinas chinas?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Finalmente, grafica los ingredientes coreanos.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

A partir de las visualizaciones de datos, ahora podemos eliminar los ingredientes m√°s comunes que generan confusi√≥n entre cocinas distintas, utilizando `dplyr::select()`.

¬°A todos les encantan el arroz, el ajo y el jengibre!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Preprocesando datos usando recetas üë©‚Äçüç≥üë®‚Äçüç≥ - Tratando con datos desbalanceados ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ilustraci√≥n por @allison_horst</figcaption>

Dado que esta lecci√≥n trata sobre gastronom√≠a, tenemos que poner las `recetas` en contexto.

Tidymodels ofrece otro paquete interesante: `recipes`, un paquete para preprocesar datos.


Echemos un vistazo nuevamente a la distribuci√≥n de nuestras cocinas.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Como puedes ver, hay una distribuci√≥n bastante desigual en el n√∫mero de cocinas. Las cocinas coreanas son casi 3 veces m√°s que las tailandesas. Los datos desequilibrados a menudo tienen efectos negativos en el rendimiento del modelo. Piensa en una clasificaci√≥n binaria. Si la mayor parte de tus datos pertenece a una clase, un modelo de ML va a predecir esa clase con m√°s frecuencia, simplemente porque hay m√°s datos de esa clase. Balancear los datos corrige cualquier sesgo y ayuda a eliminar este desequilibrio. Muchos modelos funcionan mejor cuando el n√∫mero de observaciones es igual y, por lo tanto, tienden a tener dificultades con datos desequilibrados.

Existen principalmente dos formas de manejar conjuntos de datos desequilibrados:

-   agregar observaciones a la clase minoritaria: `Over-sampling`, por ejemplo, usando un algoritmo SMOTE

-   eliminar observaciones de la clase mayoritaria: `Under-sampling`

Ahora vamos a demostrar c√≥mo manejar conjuntos de datos desequilibrados usando una `recipe`. Una recipe puede considerarse como un plano que describe qu√© pasos deben aplicarse a un conjunto de datos para prepararlo para el an√°lisis de datos.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Desglosamos los pasos de preprocesamiento.

-   La llamada a `recipe()` con una f√≥rmula indica a la receta los *roles* de las variables utilizando los datos de `df_select` como referencia. Por ejemplo, la columna `cuisine` ha sido asignada con un rol de `outcome`, mientras que el resto de las columnas han sido asignadas con un rol de `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) crea una *especificaci√≥n* de un paso de receta que genera sint√©ticamente nuevos ejemplos de la clase minoritaria utilizando los vecinos m√°s cercanos de estos casos.

Ahora, si quisi√©ramos ver los datos preprocesados, tendr√≠amos que [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) y [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) nuestra receta.

`prep()`: estima los par√°metros necesarios a partir de un conjunto de entrenamiento que luego pueden aplicarse a otros conjuntos de datos.

`bake()`: toma una receta preparada y aplica las operaciones a cualquier conjunto de datos.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Ahora revisemos la distribuci√≥n de nuestras cocinas y comparemos con los datos desequilibrados.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

¬°Yum! Los datos est√°n limpios, equilibrados y muy deliciosos üòã!

> Normalmente, una receta se utiliza como un preprocesador para el modelado, donde define qu√© pasos deben aplicarse a un conjunto de datos para prepararlo para el modelado. En ese caso, t√≠picamente se usa un `workflow()` (como ya hemos visto en nuestras lecciones anteriores) en lugar de estimar manualmente una receta.
>
> Por lo tanto, normalmente no necesitas **`prep()`** y **`bake()`** recetas cuando usas tidymodels, pero son funciones √∫tiles para tener en tu kit de herramientas y confirmar que las recetas est√°n haciendo lo que esperas, como en nuestro caso.
>
> Cuando usas **`bake()`** en una receta preparada con **`new_data = NULL`**, obtienes de vuelta los datos que proporcionaste al definir la receta, pero habiendo pasado por los pasos de preprocesamiento.

Ahora guardemos una copia de estos datos para usar en futuras lecciones:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Este nuevo archivo CSV ahora se encuentra en la carpeta ra√≠z de datos.

**üöÄDesaf√≠o**

Este plan de estudios contiene varios conjuntos de datos interesantes. Explora las carpetas `data` y verifica si alguna contiene conjuntos de datos que sean apropiados para clasificaci√≥n binaria o multiclase. ¬øQu√© preguntas har√≠as sobre este conjunto de datos?

## [**Cuestionario posterior a la lecci√≥n**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Revisi√≥n y Autoestudio**

-   Revisa [el paquete themis](https://github.com/tidymodels/themis). ¬øQu√© otras t√©cnicas podr√≠amos usar para manejar datos desbalanceados?

-   Sitio de referencia de modelos Tidy: [Tidy models](https://www.tidymodels.org/start/).

-   H. Wickham y G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### GRACIAS A:

[`Allison Horst`](https://twitter.com/allison_horst/) por crear las incre√≠bles ilustraciones que hacen que R sea m√°s accesible y atractivo. Encuentra m√°s ilustraciones en su [galer√≠a](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) y [Jen Looper](https://www.twitter.com/jenlooper) por crear la versi√≥n original en Python de este m√≥dulo ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ilustraci√≥n por @allison_horst</figcaption>



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducci√≥n autom√°tica [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisi√≥n, tenga en cuenta que las traducciones autom√°ticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para informaci√≥n cr√≠tica, se recomienda una traducci√≥n profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones err√≥neas que puedan surgir del uso de esta traducci√≥n.
