## Explora la agrupaci√≥n K-Means usando R y los principios de datos ordenados.

### [**Cuestionario previo a la lecci√≥n**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/29/)

En esta lecci√≥n, aprender√°s c√≥mo crear grupos utilizando el paquete Tidymodels y otros paquetes del ecosistema de R (los llamaremos amigos üßë‚Äçü§ù‚Äçüßë), y el conjunto de datos de m√∫sica nigeriana que importaste anteriormente. Cubriremos los conceptos b√°sicos de K-Means para la agrupaci√≥n. Ten en cuenta que, como aprendiste en la lecci√≥n anterior, hay muchas formas de trabajar con agrupaciones y el m√©todo que utilices depende de tus datos. Intentaremos K-Means ya que es la t√©cnica de agrupaci√≥n m√°s com√∫n. ¬°Comencemos!

T√©rminos que aprender√°s:

-   Puntuaci√≥n de silueta

-   M√©todo del codo

-   Inercia

-   Varianza

### **Introducci√≥n**

[La agrupaci√≥n K-Means](https://wikipedia.org/wiki/K-means_clustering) es un m√©todo derivado del dominio del procesamiento de se√±ales. Se utiliza para dividir y particionar grupos de datos en `k grupos` basados en similitudes en sus caracter√≠sticas.

Los grupos pueden visualizarse como [diagramas de Voronoi](https://wikipedia.org/wiki/Voronoi_diagram), que incluyen un punto (o 'semilla') y su regi√≥n correspondiente.

<p >
   <img src="../../images/voronoi.png"
   width="500"/>
   <figcaption>Infograf√≠a por Jen Looper</figcaption>


La agrupaci√≥n K-Means tiene los siguientes pasos:

1.  El cient√≠fico de datos comienza especificando el n√∫mero deseado de grupos a crear.

2.  Luego, el algoritmo selecciona aleatoriamente K observaciones del conjunto de datos para servir como los centros iniciales de los grupos (es decir, los centroides).

3.  A continuaci√≥n, cada una de las observaciones restantes se asigna a su centroide m√°s cercano.

4.  Despu√©s, se calcula el nuevo promedio de cada grupo y el centroide se mueve al promedio.

5.  Ahora que los centros han sido recalculados, cada observaci√≥n se verifica nuevamente para ver si podr√≠a estar m√°s cerca de un grupo diferente. Todos los objetos se reasignan nuevamente utilizando los promedios actualizados de los grupos. Los pasos de asignaci√≥n de grupos y actualizaci√≥n de centroides se repiten iterativamente hasta que las asignaciones de grupos dejan de cambiar (es decir, cuando se logra la convergencia). Por lo general, el algoritmo termina cuando cada nueva iteraci√≥n resulta en un movimiento insignificante de los centroides y los grupos se vuelven est√°ticos.

<div>

> Ten en cuenta que debido a la aleatoriedad de las observaciones iniciales k utilizadas como centroides iniciales, podemos obtener resultados ligeramente diferentes cada vez que aplicamos el procedimiento. Por esta raz√≥n, la mayor√≠a de los algoritmos utilizan varios *inicios aleatorios* y eligen la iteraci√≥n con el menor WCSS. Por lo tanto, se recomienda encarecidamente ejecutar K-Means con varios valores de *nstart* para evitar un *√≥ptimo local no deseado.*

</div>

Esta breve animaci√≥n utilizando la [obra](https://github.com/allisonhorst/stats-illustrations) de Allison Horst explica el proceso de agrupaci√≥n:

<p >
   <img src="../../images/kmeans.gif"
   width="550"/>
   <figcaption>Obra de @allison_horst</figcaption>



Una pregunta fundamental que surge en la agrupaci√≥n es esta: ¬øc√≥mo sabes cu√°ntos grupos separar en tus datos? Una desventaja de usar K-Means incluye el hecho de que necesitar√°s establecer `k`, es decir, el n√∫mero de `centroides`. Afortunadamente, el `m√©todo del codo` ayuda a estimar un buen valor inicial para `k`. Lo probar√°s en un momento.

### 

**Requisito previo**

Continuaremos justo desde donde lo dejamos en la [lecci√≥n anterior](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb), donde analizamos el conjunto de datos, hicimos muchas visualizaciones y filtramos el conjunto de datos a observaciones de inter√©s. ¬°Aseg√∫rate de revisarlo!

Necesitaremos algunos paquetes para completar este m√≥dulo. Puedes instalarlos como: `install.packages(c('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork'))`

Alternativamente, el script a continuaci√≥n verifica si tienes los paquetes necesarios para completar este m√≥dulo y los instala por ti en caso de que falten algunos.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork')


¬°Vamos a ponernos en marcha!

## 1. Un baile con los datos: Reduce a los 3 g√©neros musicales m√°s populares

Este es un repaso de lo que hicimos en la lecci√≥n anterior. ¬°Vamos a analizar y desglosar algunos datos!


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv", show_col_types = FALSE)

# Narrow down to top 3 popular genres
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres using bar plots
theme_set(theme_light())
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


ü§© ¬°Eso sali√≥ bien!

## 2. M√°s exploraci√≥n de datos.

¬øQu√© tan limpios est√°n estos datos? Vamos a verificar la presencia de valores at√≠picos utilizando diagramas de caja. Nos concentraremos en las columnas num√©ricas con menos valores at√≠picos (aunque podr√≠as limpiar los valores at√≠picos). Los diagramas de caja pueden mostrar el rango de los datos y ayudar a elegir qu√© columnas usar. Nota: los diagramas de caja no muestran la varianza, un elemento importante para datos que se puedan agrupar bien. Por favor, consulta [esta discusi√≥n](https://stats.stackexchange.com/questions/91536/deduce-variance-from-boxplot) para m√°s informaci√≥n.

Los [diagramas de caja](https://es.wikipedia.org/wiki/Diagrama_de_caja) se utilizan para representar gr√°ficamente la distribuci√≥n de datos `num√©ricos`, as√≠ que comencemos *seleccionando* todas las columnas num√©ricas junto con los g√©neros musicales populares.


In [None]:
# Select top genre column and all other numeric columns
df_numeric <- nigerian_songs %>% 
  select(artist_top_genre, where(is.numeric)) 

# Display the data
df_numeric %>% 
  slice_head(n = 5)


¬øVes c√≥mo el selector `where` facilita esto üíÅ? Explora otras funciones similares [aqu√≠](https://tidyselect.r-lib.org/).

Como vamos a crear un diagrama de caja para cada caracter√≠stica num√©rica y queremos evitar usar bucles, reformateemos nuestros datos a un formato *m√°s largo* que nos permita aprovechar los `facets`, es decir, subgr√°ficos que muestran un subconjunto de los datos cada uno.


In [None]:
# Pivot data from wide to long
df_numeric_long <- df_numeric %>% 
  pivot_longer(!artist_top_genre, names_to = "feature_names", values_to = "values") 

# Print out data
df_numeric_long %>% 
  slice_head(n = 15)


¬°Mucho m√°s largo! ¬°Ahora es momento de algunos `ggplots`! Entonces, ¬øqu√© `geom` usaremos?


In [None]:
# Make a box plot
df_numeric_long %>% 
  ggplot(mapping = aes(x = feature_names, y = values, fill = feature_names)) +
  geom_boxplot() +
  facet_wrap(~ feature_names, ncol = 4, scales = "free") +
  theme(legend.position = "none")


¬°F√°cil-gg!

Ahora podemos ver que estos datos est√°n un poco desordenados: al observar cada columna como un diagrama de caja, puedes notar valores at√≠picos. Podr√≠as revisar el conjunto de datos y eliminar estos valores at√≠picos, pero eso har√≠a que los datos fueran bastante m√≠nimos.

Por ahora, elijamos qu√© columnas utilizaremos para nuestro ejercicio de agrupamiento. Seleccionemos las columnas num√©ricas con rangos similares. Podr√≠amos codificar `artist_top_genre` como num√©rico, pero por ahora lo descartaremos.


In [None]:
# Select variables with similar ranges
df_numeric_select <- df_numeric %>% 
  select(popularity, danceability, acousticness, loudness, energy) 

# Normalize data
# df_numeric_select <- scale(df_numeric_select)


## 3. C√°lculo de agrupamiento k-means en R

Podemos calcular k-means en R utilizando la funci√≥n incorporada `kmeans`. Consulta `help("kmeans()")`. La funci√≥n `kmeans()` acepta un marco de datos con todas las columnas num√©ricas como su argumento principal.

El primer paso al usar el agrupamiento k-means es especificar el n√∫mero de cl√∫steres (k) que se generar√°n en la soluci√≥n final. Sabemos que hay 3 g√©neros musicales que extrajimos del conjunto de datos, as√≠ que probemos con 3:


In [None]:
set.seed(2056)
# Kmeans clustering for 3 clusters
kclust <- kmeans(
  df_numeric_select,
  # Specify the number of clusters
  centers = 3,
  # How many random initial configurations
  nstart = 25
)

# Display clustering object
kclust


El objeto kmeans contiene varios elementos de informaci√≥n que est√°n bien explicados en `help("kmeans()")`. Por ahora, enfoqu√©monos en algunos. Vemos que los datos se han agrupado en 3 clusters de tama√±os 65, 110, 111. El resultado tambi√©n incluye los centros de los clusters (medias) para los 3 grupos a trav√©s de las 5 variables.

El vector de agrupamiento es la asignaci√≥n de cluster para cada observaci√≥n. Usemos la funci√≥n `augment` para agregar la asignaci√≥n de cluster al conjunto de datos original.


In [None]:
# Add predicted cluster assignment to data set
augment(kclust, df_numeric_select) %>% 
  relocate(.cluster) %>% 
  slice_head(n = 10)


Perfecto, hemos dividido nuestro conjunto de datos en un conjunto de 3 grupos. Entonces, ¬øqu√© tan bueno es nuestro agrupamiento ü§∑? Echemos un vistazo al `Silhouette score`.

### **Silhouette score**

El [an√°lisis de Silhouette](https://en.wikipedia.org/wiki/Silhouette_(clustering)) se puede utilizar para estudiar la distancia de separaci√≥n entre los cl√∫steres resultantes. Este puntaje var√≠a de -1 a 1, y si el puntaje est√° cerca de 1, el cl√∫ster es denso y est√° bien separado de otros cl√∫steres. Un valor cercano a 0 representa cl√∫steres superpuestos con muestras muy cercanas al l√≠mite de decisi√≥n de los cl√∫steres vecinos. [fuente](https://dzone.com/articles/kmeans-silhouette-score-explained-with-python-exam).

El m√©todo de Silhouette promedio calcula el promedio de Silhouette de las observaciones para diferentes valores de *k*. Un puntaje promedio de Silhouette alto indica un buen agrupamiento.

La funci√≥n `silhouette` en el paquete de cl√∫ster se utiliza para calcular el ancho promedio de Silhouette.

> El Silhouette se puede calcular con cualquier [m√©trica de distancia](https://en.wikipedia.org/wiki/Distance "Distance"), como la [distancia euclidiana](https://en.wikipedia.org/wiki/Euclidean_distance "Euclidean distance") o la [distancia Manhattan](https://en.wikipedia.org/wiki/Manhattan_distance "Manhattan distance") que discutimos en la [lecci√≥n anterior](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb).


In [None]:
# Load cluster package
library(cluster)

# Compute average silhouette score
ss <- silhouette(kclust$cluster,
                 # Compute euclidean distance
                 dist = dist(df_numeric_select))
mean(ss[, 3])


Nuestro puntaje es **.549**, lo que nos coloca justo en el medio. Esto indica que nuestros datos no est√°n particularmente bien adaptados a este tipo de agrupamiento. Veamos si podemos confirmar esta sospecha de manera visual. El [paquete factoextra](https://rpkgs.datanovia.com/factoextra/index.html) proporciona funciones (`fviz_cluster()`) para visualizar agrupamientos.


In [None]:
library(factoextra)

# Visualize clustering results
fviz_cluster(kclust, df_numeric_select)


El solapamiento en los cl√∫steres indica que nuestros datos no son particularmente adecuados para este tipo de agrupamiento, pero sigamos adelante.

## 4. Determinando el n√∫mero √≥ptimo de cl√∫steres

Una pregunta fundamental que surge a menudo en el agrupamiento K-Means es esta: sin etiquetas de clase conocidas, ¬øc√≥mo sabes en cu√°ntos cl√∫steres separar tus datos?

Una forma de intentar averiguarlo es usar una muestra de datos para `crear una serie de modelos de agrupamiento` con un n√∫mero creciente de cl√∫steres (por ejemplo, de 1 a 10) y evaluar m√©tricas de agrupamiento como el **√≠ndice de Silhouette.**

Determinemos el n√∫mero √≥ptimo de cl√∫steres calculando el algoritmo de agrupamiento para diferentes valores de *k* y evaluando el **Suma de Cuadrados Dentro del Cl√∫ster** (WCSS, por sus siglas en ingl√©s). La suma total de cuadrados dentro del cl√∫ster (WCSS) mide la compacidad del agrupamiento, y queremos que sea lo m√°s peque√±a posible, ya que valores m√°s bajos significan que los puntos de datos est√°n m√°s cerca entre s√≠.

Exploremos el efecto de diferentes elecciones de `k`, desde 1 hasta 10, en este agrupamiento.


In [None]:
# Create a series of clustering models
kclusts <- tibble(k = 1:10) %>% 
  # Perform kmeans clustering for 1,2,3 ... ,10 clusters
  mutate(model = map(k, ~ kmeans(df_numeric_select, centers = .x, nstart = 25)),
  # Farm out clustering metrics eg WCSS
         glanced = map(model, ~ glance(.x))) %>% 
  unnest(cols = glanced)
  

# View clustering rsulsts
kclusts


Ahora que tenemos la suma total de cuadrados dentro del grupo (tot.withinss) para cada algoritmo de agrupamiento con centro *k*, utilizamos el [m√©todo del codo](https://en.wikipedia.org/wiki/Elbow_method_(clustering)) para encontrar el n√∫mero √≥ptimo de grupos. El m√©todo consiste en graficar la WCSS como una funci√≥n del n√∫mero de grupos y elegir el [codo de la curva](https://en.wikipedia.org/wiki/Elbow_of_the_curve "Elbow of the curve") como el n√∫mero de grupos a utilizar.


In [None]:
set.seed(2056)
# Use elbow method to determine optimum number of clusters
kclusts %>% 
  ggplot(mapping = aes(x = k, y = tot.withinss)) +
  geom_line(size = 1.2, alpha = 0.8, color = "#FF7F0EFF") +
  geom_point(size = 2, color = "#FF7F0EFF")


El gr√°fico muestra una gran reducci√≥n en WCSS (lo que indica una mayor *cohesi√≥n*) a medida que el n√∫mero de cl√∫steres aumenta de uno a dos, y una reducci√≥n adicional notable de dos a tres cl√∫steres. Despu√©s de eso, la reducci√≥n es menos pronunciada, lo que da lugar a un `codo` üí™ en el gr√°fico alrededor de tres cl√∫steres. Esto es una buena indicaci√≥n de que hay dos o tres cl√∫steres de puntos de datos razonablemente bien separados.

Ahora podemos proceder a extraer el modelo de clustering donde `k = 3`:

> `pull()`: se utiliza para extraer una sola columna  
>  
> `pluck()`: se utiliza para indexar estructuras de datos como listas  


In [None]:
# Extract k = 3 clustering
final_kmeans <- kclusts %>% 
  filter(k == 3) %>% 
  pull(model) %>% 
  pluck(1)


final_kmeans


¬°Genial! Vamos a visualizar los cl√∫steres obtenidos. ¬øTe interesa algo de interactividad usando `plotly`?


In [None]:
# Add predicted cluster assignment to data set
results <-  augment(final_kmeans, df_numeric_select) %>% 
  bind_cols(df_numeric %>% select(artist_top_genre)) 

# Plot cluster assignments
clust_plt <- results %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = .cluster, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("ggthemes::Tableau_10")

ggplotly(clust_plt)


Quiz√°s hubi√©ramos esperado que cada cl√∫ster (representado por diferentes colores) tuviera g√©neros distintos (representados por diferentes formas).

Echemos un vistazo a la precisi√≥n del modelo.


In [None]:
# Assign genres to predefined integers
label_count <- results %>% 
  group_by(artist_top_genre) %>% 
  mutate(id = cur_group_id()) %>% 
  ungroup() %>% 
  summarise(correct_labels = sum(.cluster == id))


# Print results  
cat("Result:", label_count$correct_labels, "out of", nrow(results), "samples were correctly labeled.")

cat("\nAccuracy score:", label_count$correct_labels/nrow(results))


La precisi√≥n de este modelo no est√° mal, pero tampoco es excelente. Puede ser que los datos no se presten bien para el uso de K-Means Clustering. Estos datos est√°n demasiado desequilibrados, tienen poca correlaci√≥n y existe demasiada variabilidad entre los valores de las columnas como para agruparlos de manera efectiva. De hecho, los cl√∫steres que se forman probablemente est√°n muy influenciados o sesgados por las tres categor√≠as de g√©neros que definimos anteriormente.

¬°Aun as√≠, fue un proceso de aprendizaje interesante!

En la documentaci√≥n de Scikit-learn, puedes ver que un modelo como este, con cl√∫steres no muy bien definidos, tiene un problema de 'varianza':

<p >
   <img src="../../images/problems.png"
   width="500"/>
   <figcaption>Infograf√≠a de Scikit-learn</figcaption>



## **Varianza**

La varianza se define como "el promedio de las diferencias al cuadrado respecto a la media" [fuente](https://www.mathsisfun.com/data/standard-deviation.html). En el contexto de este problema de clustering, se refiere a que los n√∫meros de nuestro conjunto de datos tienden a divergir demasiado de la media.

‚úÖ Este es un gran momento para pensar en todas las formas en que podr√≠as corregir este problema. ¬øAjustar un poco m√°s los datos? ¬øUsar diferentes columnas? ¬øProbar con un algoritmo distinto? Pista: Intenta [escalar tus datos](https://www.mygreatlearning.com/blog/learning-data-science-with-k-means-clustering/) para normalizarlos y prueba con otras columnas.

> Prueba este '[calculador de varianza](https://www.calculatorsoup.com/calculators/statistics/variance-calculator.php)' para entender un poco m√°s el concepto.

------------------------------------------------------------------------

## **üöÄDesaf√≠o**

Dedica algo de tiempo a este notebook ajustando par√°metros. ¬øPuedes mejorar la precisi√≥n del modelo limpiando m√°s los datos (eliminando valores at√≠picos, por ejemplo)? Puedes usar pesos para dar m√°s importancia a ciertas muestras de datos. ¬øQu√© m√°s podr√≠as hacer para crear mejores cl√∫steres?

Pista: Intenta escalar tus datos. Hay c√≥digo comentado en el notebook que agrega escalado est√°ndar para hacer que las columnas de datos se parezcan m√°s entre s√≠ en t√©rminos de rango. Descubrir√°s que, aunque el puntaje de silueta disminuye, el 'codo' en el gr√°fico de codo se suaviza. Esto se debe a que dejar los datos sin escalar permite que los datos con menos varianza tengan m√°s peso. Lee un poco m√°s sobre este problema [aqu√≠](https://stats.stackexchange.com/questions/21222/are-mean-normalization-and-feature-scaling-needed-for-k-means-clustering/21226#21226).

## [**Cuestionario posterior a la lecci√≥n**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/30/)

## **Revisi√≥n y Autoestudio**

-   Echa un vistazo a un simulador de K-Means [como este](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/). Puedes usar esta herramienta para visualizar puntos de datos de muestra y determinar sus centroides. Puedes editar la aleatoriedad de los datos, el n√∫mero de cl√∫steres y el n√∫mero de centroides. ¬øTe ayuda esto a tener una idea de c√≥mo se pueden agrupar los datos?

-   Tambi√©n, revisa [este documento sobre K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) de Stanford.

¬øQuieres probar tus reci√©n adquiridas habilidades de clustering en conjuntos de datos que se presten bien para K-Means clustering? Consulta:

-   [Entrenar y Evaluar Modelos de Clustering](https://rpubs.com/eR_ic/clustering) usando Tidymodels y amigos

-   [An√°lisis de Cl√∫steres K-Means](https://uc-r.github.io/kmeans_clustering), Gu√≠a de Programaci√≥n en R para An√°lisis de Negocios de UC

- [Clustering K-Means con principios de datos ordenados](https://www.tidymodels.org/learn/statistics/k-means/)

## **Tarea**

[Prueba diferentes m√©todos de clustering](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/2-K-Means/assignment.md)

## AGRADECIMIENTOS A:

[Jen Looper](https://www.twitter.com/jenlooper) por crear la versi√≥n original en Python de este m√≥dulo ‚ô•Ô∏è

[`Allison Horst`](https://twitter.com/allison_horst/) por crear las incre√≠bles ilustraciones que hacen que R sea m√°s accesible y atractivo. Encuentra m√°s ilustraciones en su [galer√≠a](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

Feliz aprendizaje,

[Eric](https://twitter.com/ericntay), Embajador Estudiantil Gold de Microsoft Learn.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="500"/>
   <figcaption>Arte de @allison_horst</figcaption>



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducci√≥n autom√°tica [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisi√≥n, tenga en cuenta que las traducciones autom√°ticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para informaci√≥n cr√≠tica, se recomienda una traducci√≥n profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones err√≥neas que puedan surgir del uso de esta traducci√≥n.
