# Construir un modelo de clasificaci√≥n: Deliciosas cocinas asi√°ticas e indias


## Clasificadores de cocina 2

En esta segunda lecci√≥n sobre clasificaci√≥n, exploraremos `m√°s formas` de clasificar datos categ√≥ricos. Tambi√©n aprenderemos sobre las implicaciones de elegir un clasificador sobre otro.

### [**Cuestionario previo a la lecci√≥n**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Requisito previo**

Asumimos que has completado las lecciones anteriores, ya que retomaremos algunos conceptos que aprendimos antes.

Para esta lecci√≥n, necesitaremos los siguientes paquetes:

-   `tidyverse`: El [tidyverse](https://www.tidyverse.org/) es una [colecci√≥n de paquetes de R](https://www.tidyverse.org/packages) dise√±ada para hacer la ciencia de datos m√°s r√°pida, f√°cil y divertida.

-   `tidymodels`: El marco de trabajo [tidymodels](https://www.tidymodels.org/) es una [colecci√≥n de paquetes](https://www.tidymodels.org/packages/) para modelado y aprendizaje autom√°tico.

-   `themis`: El paquete [themis](https://themis.tidymodels.org/) proporciona pasos adicionales de recetas para tratar con datos desbalanceados.

Puedes instalarlos con el siguiente comando:

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Alternativamente, el siguiente script verifica si tienes los paquetes necesarios para completar este m√≥dulo y los instala por ti en caso de que falten.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Un mapa de clasificaci√≥n**

En nuestra [lecci√≥n anterior](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1), intentamos abordar la pregunta: ¬øc√≥mo elegimos entre m√∫ltiples modelos? En gran medida, depende de las caracter√≠sticas de los datos y del tipo de problema que queremos resolver (por ejemplo, ¬øclasificaci√≥n o regresi√≥n?).

Anteriormente, aprendimos sobre las diversas opciones que tienes al clasificar datos utilizando la hoja de referencia de Microsoft. El marco de aprendizaje autom√°tico de Python, Scikit-learn, ofrece una hoja de referencia similar pero m√°s detallada que puede ayudarte a√∫n m√°s a reducir tus estimadores (otro t√©rmino para clasificadores):

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Consejo: [visita este mapa en l√≠nea](https://scikit-learn.org/stable/tutorial/machine_learning_map/) y haz clic a lo largo del camino para leer la documentaci√≥n.  
>  
> El [sitio de referencia de Tidymodels](https://www.tidymodels.org/find/parsnip/#models) tambi√©n ofrece una excelente documentaci√≥n sobre los diferentes tipos de modelos.

### **El plan** üó∫Ô∏è

Este mapa es muy √∫til una vez que tienes un entendimiento claro de tus datos, ya que puedes 'caminar' por sus caminos hacia una decisi√≥n:

-   Tenemos \>50 muestras

-   Queremos predecir una categor√≠a

-   Tenemos datos etiquetados

-   Tenemos menos de 100K muestras

-   ‚ú® Podemos elegir un Linear SVC

-   Si eso no funciona, dado que tenemos datos num√©ricos

    -   Podemos intentar un ‚ú® KNeighbors Classifier

        -   Si eso tampoco funciona, probar ‚ú® SVC y ‚ú® Ensemble Classifiers

Este es un camino muy √∫til a seguir. Ahora, vamos a sumergirnos directamente utilizando el marco de modelado [tidymodels](https://www.tidymodels.org/): una colecci√≥n consistente y flexible de paquetes de R desarrollada para fomentar buenas pr√°cticas estad√≠sticas üòä.

## 2. Dividir los datos y manejar un conjunto de datos desequilibrado.

En nuestras lecciones anteriores, aprendimos que hab√≠a un conjunto de ingredientes comunes entre nuestras cocinas. Adem√°s, hab√≠a una distribuci√≥n bastante desigual en el n√∫mero de cocinas.

Abordaremos esto de la siguiente manera:

-   Eliminando los ingredientes m√°s comunes que generan confusi√≥n entre cocinas distintas, usando `dplyr::select()`.

-   Usando una `recipe` que preprocesa los datos para prepararlos para el modelado aplicando un algoritmo de `over-sampling`.

Ya vimos lo anterior en la lecci√≥n pasada, ¬°as√≠ que esto ser√° pan comido ü•≥!


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### C√≥mo manejar datos desbalanceados

Los datos desbalanceados a menudo tienen efectos negativos en el rendimiento del modelo. Muchos modelos funcionan mejor cuando el n√∫mero de observaciones es igual y, por lo tanto, tienden a tener dificultades con datos desbalanceados.

Existen principalmente dos formas de abordar conjuntos de datos desbalanceados:

-   agregar observaciones a la clase minoritaria: `Sobre-muestreo`, por ejemplo, utilizando un algoritmo SMOTE que genera de manera sint√©tica nuevos ejemplos de la clase minoritaria utilizando los vecinos m√°s cercanos de estos casos.

-   eliminar observaciones de la clase mayoritaria: `Sub-muestreo`

En nuestra lecci√≥n anterior, demostramos c√≥mo manejar conjuntos de datos desbalanceados utilizando una `receta`. Una receta puede considerarse como un plan que describe qu√© pasos deben aplicarse a un conjunto de datos para prepararlo para el an√°lisis. En nuestro caso, queremos tener una distribuci√≥n equitativa en el n√∫mero de nuestras categor√≠as de cocina para nuestro `conjunto de entrenamiento`. Vamos a ello.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

¬°Ahora estamos listos para entrenar modelos üë©‚Äçüíªüë®‚Äçüíª!

## 3. M√°s all√° de los modelos de regresi√≥n multinomial

En nuestra lecci√≥n anterior, vimos los modelos de regresi√≥n multinomial. Ahora exploremos algunos modelos m√°s flexibles para clasificaci√≥n.

### M√°quinas de Vectores de Soporte

En el contexto de la clasificaci√≥n, las `M√°quinas de Vectores de Soporte` son una t√©cnica de aprendizaje autom√°tico que intenta encontrar un *hiperplano* que "mejor" separe las clases. Veamos un ejemplo sencillo:

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ no separa las clases. H2~ s√≠ lo hace, pero solo con un peque√±o margen. H3~ las separa con el margen m√°ximo.

#### Clasificador Lineal de Vectores de Soporte

El clustering de vectores de soporte (SVC) es una t√©cnica derivada de la familia de m√°quinas de vectores de soporte (SVM) en el aprendizaje autom√°tico. En SVC, el hiperplano se elige para separar correctamente a `la mayor√≠a` de las observaciones de entrenamiento, pero `puede clasificar err√≥neamente` algunas observaciones. Al permitir que algunos puntos est√©n en el lado incorrecto, el SVM se vuelve m√°s robusto frente a valores at√≠picos, lo que mejora su capacidad de generalizaci√≥n a nuevos datos. El par√°metro que regula esta violaci√≥n se denomina `coste`, y tiene un valor predeterminado de 1 (consulta `help("svm_poly")`).

Vamos a crear un SVC lineal configurando `degree = 1` en un modelo SVM polin√≥mico.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Ahora que hemos capturado los pasos de preprocesamiento y la especificaci√≥n del modelo en un *workflow*, podemos proceder a entrenar el SVC lineal y evaluar los resultados al mismo tiempo. Para las m√©tricas de rendimiento, vamos a crear un conjunto de m√©tricas que eval√∫e: `accuracy`, `sensitivity`, `Positive Predicted Value` y `F Measure`.

> `augment()` a√±adir√° columna(s) con las predicciones a los datos proporcionados.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### M√°quina de Vectores de Soporte

La m√°quina de vectores de soporte (SVM, por sus siglas en ingl√©s) es una extensi√≥n del clasificador de vectores de soporte dise√±ada para manejar l√≠mites no lineales entre las clases. En esencia, las SVM utilizan el *truco del kernel* para ampliar el espacio de caracter√≠sticas y adaptarse a relaciones no lineales entre las clases. Una funci√≥n kernel popular y extremadamente flexible que utilizan las SVM es la *funci√≥n de base radial.* Veamos c√≥mo se desempe√±a con nuestros datos.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

¬°Mucho mejor ü§©!

> ‚úÖ Por favor consulta:
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning with R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> para m√°s informaci√≥n.

### Clasificadores de Vecinos M√°s Cercanos

El algoritmo de *K*-vecinos m√°s cercanos (KNN) predice cada observaci√≥n bas√°ndose en su *similitud* con otras observaciones.

Vamos a ajustarlo a nuestros datos.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Parece que este modelo no est√° funcionando tan bien. Probablemente cambiar los argumentos del modelo (consulta `help("nearest_neighbor")`) mejorar√° el rendimiento del modelo. Aseg√∫rate de probarlo.

> ‚úÖ Por favor consulta:
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> para aprender m√°s sobre los clasificadores *K*-Nearest Neighbors.

### Clasificadores en conjunto

Los algoritmos en conjunto funcionan combinando m√∫ltiples estimadores base para producir un modelo √≥ptimo, ya sea mediante:

`bagging`: aplicando una *funci√≥n de promediado* a una colecci√≥n de modelos base

`boosting`: construyendo una secuencia de modelos que se basan unos en otros para mejorar el rendimiento predictivo.

Comencemos probando un modelo de Random Forest, que construye una gran colecci√≥n de √°rboles de decisi√≥n y luego aplica una funci√≥n de promediado para obtener un modelo general mejorado.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

¬°Buen trabajo üëè!

Vamos a experimentar tambi√©n con un modelo de √Årbol Potenciado.

El √Årbol Potenciado define un m√©todo de conjunto que crea una serie de √°rboles de decisi√≥n secuenciales, donde cada √°rbol depende de los resultados de los √°rboles anteriores en un intento de reducir el error de manera incremental. Se enfoca en los pesos de los elementos clasificados incorrectamente y ajusta el modelo del siguiente clasificador para corregirlos.

Existen diferentes formas de ajustar este modelo (consulta `help("boost_tree")`). En este ejemplo, ajustaremos √Årboles Potenciados utilizando el motor `xgboost`.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Por favor consulta:
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Explora el modelo AdaBoost, que es una buena alternativa a xgboost.
>
> para aprender m√°s sobre clasificadores Ensemble.

## 4. Extra - comparando m√∫ltiples modelos

Hemos ajustado bastantes modelos en este laboratorio üôå. Puede volverse tedioso o complicado crear muchos flujos de trabajo a partir de diferentes conjuntos de preprocesadores y/o especificaciones de modelos y luego calcular las m√©tricas de rendimiento una por una.

Veamos si podemos abordar esto creando una funci√≥n que ajuste una lista de flujos de trabajo en el conjunto de entrenamiento y luego devuelva las m√©tricas de rendimiento basadas en el conjunto de prueba. Usaremos `map()` y `map_dfr()` del paquete [purrr](https://purrr.tidyverse.org/) para aplicar funciones a cada elemento de una lista.

> Las funciones [`map()`](https://purrr.tidyverse.org/reference/map.html) te permiten reemplazar muchos bucles for con un c√≥digo que es m√°s conciso y f√°cil de leer. El mejor lugar para aprender sobre las funciones [`map()`](https://purrr.tidyverse.org/reference/map.html) es el [cap√≠tulo de iteraci√≥n](http://r4ds.had.co.nz/iteration.html) en R for Data Science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


El paquete [**workflowset**](https://workflowsets.tidymodels.org/) permite a los usuarios crear y ajustar f√°cilmente una gran cantidad de modelos, pero est√° dise√±ado principalmente para trabajar con t√©cnicas de remuestreo como `cross-validation`, un enfoque que a√∫n no hemos cubierto.

## **üöÄDesaf√≠o**

Cada una de estas t√©cnicas tiene una gran cantidad de par√°metros que puedes ajustar, por ejemplo, `cost` en SVMs, `neighbors` en KNN, `mtry` (Predictores Seleccionados Aleatoriamente) en Random Forest.

Investiga los par√°metros predeterminados de cada uno y piensa en lo que significar√≠a ajustar estos par√°metros para la calidad del modelo.

Para obtener m√°s informaci√≥n sobre un modelo en particular y sus par√°metros, utiliza: `help("model")`, por ejemplo, `help("rand_forest")`.

> En la pr√°ctica, usualmente *estimamos* los *mejores valores* para estos entrenando muchos modelos en un `conjunto de datos simulado` y midiendo qu√© tan bien funcionan todos estos modelos. Este proceso se llama **ajuste**.

### [**Cuestionario post-clase**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **Revisi√≥n y Estudio Personal**

Hay mucho vocabulario t√©cnico en estas lecciones, as√≠ que t√≥mate un momento para revisar [esta lista](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) de terminolog√≠a √∫til.

#### GRACIAS A:

[`Allison Horst`](https://twitter.com/allison_horst/) por crear las incre√≠bles ilustraciones que hacen que R sea m√°s acogedor y atractivo. Encuentra m√°s ilustraciones en su [galer√≠a](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) y [Jen Looper](https://www.twitter.com/jenlooper) por crear la versi√≥n original en Python de este m√≥dulo ‚ô•Ô∏è

Feliz aprendizaje,

[Eric](https://twitter.com/ericntay), Embajador Estudiantil de Microsoft Learn Gold.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Arte por @allison_horst</figcaption>



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducci√≥n autom√°tica [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisi√≥n, tenga en cuenta que las traducciones autom√°ticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para informaci√≥n cr√≠tica, se recomienda una traducci√≥n profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones err√≥neas que puedan surgir del uso de esta traducci√≥n.
