## Utforska K-Means-klustring med R och principer f√∂r Tidy-data.

### [**Quiz f√∂re f√∂rel√§sningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/29/)

I den h√§r lektionen kommer du att l√§ra dig hur man skapar kluster med hj√§lp av Tidymodels-paketet och andra paket i R-ekosystemet (vi kallar dem v√§nner üßë‚Äçü§ù‚Äçüßë) samt den nigerianska musikdatam√§ngden som du importerade tidigare. Vi kommer att g√• igenom grunderna i K-Means f√∂r klustring. Kom ih√•g att, som du l√§rde dig i den tidigare lektionen, finns det m√•nga s√§tt att arbeta med kluster, och metoden du anv√§nder beror p√• din data. Vi kommer att prova K-Means eftersom det √§r den vanligaste klustringstekniken. Nu k√∂r vi!

Begrepp du kommer att l√§ra dig om:

-   Silhuettv√§rdering

-   Armb√•gmetoden

-   Tr√∂ghet

-   Varians

### **Introduktion**

[K-Means-klustring](https://wikipedia.org/wiki/K-means_clustering) √§r en metod som h√§rstammar fr√•n signalbehandlingsomr√•det. Den anv√§nds f√∂r att dela upp och gruppera data i `k kluster` baserat p√• likheter i deras egenskaper.

Klustrerna kan visualiseras som [Voronoi-diagram](https://wikipedia.org/wiki/Voronoi_diagram), som inkluderar en punkt (eller 'fr√∂') och dess motsvarande omr√•de.

<p >
   <img src="../../images/voronoi.png"
   width="500"/>
   <figcaption>Infografik av Jen Looper</figcaption>


K-Means-klustring har f√∂ljande steg:

1.  Dataanalytikern b√∂rjar med att specificera det √∂nskade antalet kluster som ska skapas.

2.  D√§refter v√§ljer algoritmen slumpm√§ssigt K observationer fr√•n datam√§ngden som ska fungera som de initiala centren f√∂r klustren (dvs. centroiderna).

3.  Sedan tilldelas varje √•terst√•ende observation till sin n√§rmaste centroid.

4.  D√§refter ber√§knas de nya medelv√§rdena f√∂r varje kluster och centroiden flyttas till medelv√§rdet.

5.  Nu n√§r centren har r√§knats om kontrolleras varje observation igen f√∂r att se om den kanske √§r n√§rmare ett annat kluster. Alla objekt tilldelas p√• nytt med hj√§lp av de uppdaterade klustermedlen. Stegen f√∂r klustertilldelning och centroiduppdatering upprepas iterativt tills klustertilldelningarna slutar f√∂r√§ndras (dvs. n√§r konvergens uppn√•s). Vanligtvis avslutas algoritmen n√§r varje ny iteration resulterar i f√∂rsumbar r√∂relse av centroiderna och klustren blir statiska.

<div>

> Observera att p√• grund av slumpm√§ssigheten i de initiala k observationerna som anv√§nds som startcentroider kan vi f√• n√•got olika resultat varje g√•ng vi till√§mpar proceduren. Av denna anledning anv√§nder de flesta algoritmer flera *slumpm√§ssiga starter* och v√§ljer iterationen med l√§gst WCSS. D√§rf√∂r rekommenderas det starkt att alltid k√∂ra K-Means med flera v√§rden p√• *nstart* f√∂r att undvika ett *o√∂nskat lokalt optimum.*

</div>

Den h√§r korta animationen med [illustrationer](https://github.com/allisonhorst/stats-illustrations) av Allison Horst f√∂rklarar klustringsprocessen:

<p >
   <img src="../../images/kmeans.gif"
   width="550"/>
   <figcaption>Illustration av @allison_horst</figcaption>



En grundl√§ggande fr√•ga som uppst√•r vid klustring √§r denna: hur vet du hur m√•nga kluster du ska dela upp din data i? En nackdel med att anv√§nda K-Means √§r att du m√•ste fastst√§lla `k`, det vill s√§ga antalet `centroider`. Lyckligtvis hj√§lper `armb√•gmetoden` till att uppskatta ett bra startv√§rde f√∂r `k`. Du kommer att prova det om en stund.

### 

**F√∂rkunskaper**

Vi forts√§tter precis d√§r vi slutade i [f√∂reg√•ende lektion](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb), d√§r vi analyserade datam√§ngden, skapade m√•nga visualiseringar och filtrerade datam√§ngden till intressanta observationer. Se till att kolla in den!

Vi kommer att beh√∂va n√•gra paket f√∂r att klara av den h√§r modulen. Du kan installera dem med: `install.packages(c('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork'))`

Alternativt kontrollerar skriptet nedan om du har de paket som kr√§vs f√∂r att slutf√∂ra den h√§r modulen och installerar dem √•t dig om n√•gra saknas.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork')


## 1. En dans med data: Begr√§nsa till de 3 mest popul√§ra musikgenrerna

Det h√§r √§r en sammanfattning av vad vi gjorde i f√∂reg√•ende lektion. L√•t oss analysera och bearbeta lite data!


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv", show_col_types = FALSE)

# Narrow down to top 3 popular genres
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres using bar plots
theme_set(theme_light())
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


ü§© Det gick bra!

## 2. Mer datautforskning.

Hur ren √§r denna data? L√•t oss kontrollera f√∂r avvikare med hj√§lp av l√•ddiagram. Vi kommer att fokusera p√• numeriska kolumner med f√§rre avvikare (√§ven om du skulle kunna rensa bort avvikarna). L√•ddiagram kan visa datans intervall och hj√§lpa till att v√§lja vilka kolumner som ska anv√§ndas. Observera att l√•ddiagram inte visar varians, en viktig aspekt av bra data som kan klustras. Se g√§rna [denna diskussion](https://stats.stackexchange.com/questions/91536/deduce-variance-from-boxplot) f√∂r mer information.

[L√•ddiagram](https://en.wikipedia.org/wiki/Box_plot) anv√§nds f√∂r att grafiskt visa f√∂rdelningen av `numerisk` data, s√• l√•t oss b√∂rja med att *v√§lja* alla numeriska kolumner tillsammans med de popul√§ra musikgenrerna.


In [None]:
# Select top genre column and all other numeric columns
df_numeric <- nigerian_songs %>% 
  select(artist_top_genre, where(is.numeric)) 

# Display the data
df_numeric %>% 
  slice_head(n = 5)


Se hur urvalshj√§lparen `where` g√∂r detta enkelt üíÅ? Utforska fler s√•dana funktioner [h√§r](https://tidyselect.r-lib.org/).

Eftersom vi ska skapa ett l√•dagram f√∂r varje numerisk egenskap och vill undvika att anv√§nda loopar, l√•t oss omformatera v√•ra data till ett *l√§ngre* format som g√∂r det m√∂jligt f√∂r oss att dra nytta av `facets` - delgrafer som var och en visar en delm√§ngd av data.


In [None]:
# Pivot data from wide to long
df_numeric_long <- df_numeric %>% 
  pivot_longer(!artist_top_genre, names_to = "feature_names", values_to = "values") 

# Print out data
df_numeric_long %>% 
  slice_head(n = 15)


Mycket l√§ngre! Nu √§r det dags f√∂r n√•gra `ggplots`! S√• vilken `geom` ska vi anv√§nda?


In [None]:
# Make a box plot
df_numeric_long %>% 
  ggplot(mapping = aes(x = feature_names, y = values, fill = feature_names)) +
  geom_boxplot() +
  facet_wrap(~ feature_names, ncol = 4, scales = "free") +
  theme(legend.position = "none")


Easy-gg!

Nu kan vi se att dessa data √§r lite brusiga: genom att observera varje kolumn som ett l√•ddiagram kan du se avvikare. Du skulle kunna g√• igenom datasetet och ta bort dessa avvikare, men det skulle g√∂ra datan ganska minimal.

F√∂r tillf√§llet, l√•t oss v√§lja vilka kolumner vi ska anv√§nda f√∂r v√•r kluster√∂vning. L√•t oss v√§lja de numeriska kolumnerna med liknande intervall. Vi skulle kunna koda `artist_top_genre` som numerisk, men vi hoppar √∂ver det f√∂r tillf√§llet.


In [None]:
# Select variables with similar ranges
df_numeric_select <- df_numeric %>% 
  select(popularity, danceability, acousticness, loudness, energy) 

# Normalize data
# df_numeric_select <- scale(df_numeric_select)


## 3. Ber√§kning av k-means-klustring i R

Vi kan ber√§kna k-means i R med den inbyggda funktionen `kmeans`, se `help("kmeans()")`. Funktionen `kmeans()` accepterar en data frame med enbart numeriska kolumner som sitt prim√§ra argument.

Det f√∂rsta steget n√§r man anv√§nder k-means-klustring √§r att ange antalet kluster (k) som ska genereras i den slutliga l√∂sningen. Vi vet att det finns 3 musikgenrer som vi har identifierat fr√•n datasetet, s√• l√•t oss prova med 3:


In [None]:
set.seed(2056)
# Kmeans clustering for 3 clusters
kclust <- kmeans(
  df_numeric_select,
  # Specify the number of clusters
  centers = 3,
  # How many random initial configurations
  nstart = 25
)

# Display clustering object
kclust


Kmeans-objektet inneh√•ller flera delar av information som f√∂rklaras v√§l i `help("kmeans()")`. F√∂r tillf√§llet fokuserar vi p√• n√•gra f√•. Vi ser att data har delats in i 3 kluster med storlekarna 65, 110, 111. Utdata inneh√•ller ocks√• klustercentra (medelv√§rden) f√∂r de 3 grupperna √∂ver de 5 variablerna.

Klustervektorn √§r klustertilldelningen f√∂r varje observation. L√•t oss anv√§nda funktionen `augment` f√∂r att l√§gga till klustertilldelningen till den ursprungliga datam√§ngden.


In [None]:
# Add predicted cluster assignment to data set
augment(kclust, df_numeric_select) %>% 
  relocate(.cluster) %>% 
  slice_head(n = 10)


Perfekt, vi har precis delat upp v√•r dataset i en upps√§ttning av 3 grupper. S√•, hur bra √§r v√•r klustring ü§∑? L√•t oss ta en titt p√• `Silhouette score`.

### **Silhouette score**

[Silhouette-analys](https://en.wikipedia.org/wiki/Silhouette_(clustering)) kan anv√§ndas f√∂r att studera separationsavst√•ndet mellan de resulterande klustren. Denna po√§ng varierar fr√•n -1 till 1, och om po√§ngen √§r n√§ra 1 √§r klustret t√§tt och v√§l separerat fr√•n andra kluster. Ett v√§rde n√§ra 0 representerar √∂verlappande kluster med prover som ligger mycket n√§ra beslutsgr√§nsen f√∂r de n√§rliggande klustren. [k√§lla](https://dzone.com/articles/kmeans-silhouette-score-explained-with-python-exam).

Metoden f√∂r genomsnittlig silhouette ber√§knar den genomsnittliga silhouette f√∂r observationer f√∂r olika v√§rden av *k*. En h√∂g genomsnittlig silhouette-po√§ng indikerar en bra klustring.

Funktionen `silhouette` i klusterpaketet anv√§nds f√∂r att ber√§kna den genomsnittliga silhouette-bredden.

> Silhouetten kan ber√§knas med vilken [avst√•ndsmetrik](https://en.wikipedia.org/wiki/Distance "Distance") som helst, s√•som [Euklidiskt avst√•nd](https://en.wikipedia.org/wiki/Euclidean_distance "Euclidean distance") eller [Manhattan-avst√•nd](https://en.wikipedia.org/wiki/Manhattan_distance "Manhattan distance") som vi diskuterade i [f√∂reg√•ende lektion](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb).


In [None]:
# Load cluster package
library(cluster)

# Compute average silhouette score
ss <- silhouette(kclust$cluster,
                 # Compute euclidean distance
                 dist = dist(df_numeric_select))
mean(ss[, 3])


V√•rt resultat √§r **0,549**, allts√• precis i mitten. Detta tyder p√• att v√•ra data inte √§r s√§rskilt v√§l l√§mpade f√∂r den h√§r typen av klustring. L√•t oss se om vi kan bekr√§fta denna misstanke visuellt. Paketet [factoextra](https://rpkgs.datanovia.com/factoextra/index.html) erbjuder funktioner (`fviz_cluster()`) f√∂r att visualisera klustring.


In [None]:
library(factoextra)

# Visualize clustering results
fviz_cluster(kclust, df_numeric_select)


√ñverlappningen i kluster indikerar att v√•r data inte √§r s√§rskilt v√§l l√§mpad f√∂r denna typ av klustring, men l√•t oss forts√§tta.

## 4. Best√§mma optimalt antal kluster

En grundl√§ggande fr√•ga som ofta uppst√•r vid K-Means-klustring √§r denna - utan k√§nda klassetiketter, hur vet du hur m√•nga kluster du ska dela upp din data i?

Ett s√§tt att f√∂rs√∂ka ta reda p√• det √§r att anv√§nda ett dataprovs f√∂r att `skapa en serie klustringsmodeller` med ett √∂kande antal kluster (t.ex. fr√•n 1-10) och utv√§rdera klustringsm√•tt som **Silhouette-po√§ngen.**

L√•t oss best√§mma det optimala antalet kluster genom att ber√§kna klustringsalgoritmen f√∂r olika v√§rden av *k* och utv√§rdera **Within Cluster Sum of Squares** (WCSS). Den totala inom-kluster-summan av kvadrater (WCSS) m√§ter klustringens kompakthet, och vi vill att den ska vara s√• liten som m√∂jligt, d√§r l√§gre v√§rden inneb√§r att datapunkterna √§r n√§rmare varandra.

L√•t oss unders√∂ka effekten av olika val av `k`, fr√•n 1 till 10, p√• denna klustring.


In [None]:
# Create a series of clustering models
kclusts <- tibble(k = 1:10) %>% 
  # Perform kmeans clustering for 1,2,3 ... ,10 clusters
  mutate(model = map(k, ~ kmeans(df_numeric_select, centers = .x, nstart = 25)),
  # Farm out clustering metrics eg WCSS
         glanced = map(model, ~ glance(.x))) %>% 
  unnest(cols = glanced)
  

# View clustering rsulsts
kclusts


Nu n√§r vi har den totala inomklustersumman av kvadrater (tot.withinss) f√∂r varje klustringsalgoritm med centrum *k*, anv√§nder vi [elbow-metoden](https://en.wikipedia.org/wiki/Elbow_method_(clustering)) f√∂r att hitta det optimala antalet kluster. Metoden inneb√§r att man plottar WCSS som en funktion av antalet kluster och v√§ljer [kurvans "armb√•ge"](https://en.wikipedia.org/wiki/Elbow_of_the_curve "Elbow of the curve") som det antal kluster som ska anv√§ndas.


In [None]:
set.seed(2056)
# Use elbow method to determine optimum number of clusters
kclusts %>% 
  ggplot(mapping = aes(x = k, y = tot.withinss)) +
  geom_line(size = 1.2, alpha = 0.8, color = "#FF7F0EFF") +
  geom_point(size = 2, color = "#FF7F0EFF")


Diagrammet visar en stor minskning i WCSS (allts√• st√∂rre *sammanh√•llning*) n√§r antalet kluster √∂kar fr√•n ett till tv√•, och ytterligare en m√§rkbar minskning fr√•n tv√• till tre kluster. D√§refter blir minskningen mindre framtr√§dande, vilket resulterar i en `armb√•ge` üí™ i diagrammet vid ungef√§r tre kluster. Detta √§r en bra indikation p√• att det finns tv√• till tre rimligt v√§l separerade kluster av datapunkter.

Vi kan nu g√• vidare och extrahera klustermodellen d√§r `k = 3`:

> `pull()`: anv√§nds f√∂r att extrahera en enskild kolumn
>
> `pluck()`: anv√§nds f√∂r att indexera datastrukturer s√•som listor


In [None]:
# Extract k = 3 clustering
final_kmeans <- kclusts %>% 
  filter(k == 3) %>% 
  pull(model) %>% 
  pluck(1)


final_kmeans


Bra! L√•t oss visualisera de kluster vi f√•tt fram. √Ñr du sugen p√• lite interaktivitet med hj√§lp av `plotly`?


In [None]:
# Add predicted cluster assignment to data set
results <-  augment(final_kmeans, df_numeric_select) %>% 
  bind_cols(df_numeric %>% select(artist_top_genre)) 

# Plot cluster assignments
clust_plt <- results %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = .cluster, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("ggthemes::Tableau_10")

ggplotly(clust_plt)


Kanske hade vi f√∂rv√§ntat oss att varje kluster (representerat av olika f√§rger) skulle ha distinkta genrer (representerat av olika former).

L√•t oss ta en titt p√• modellens noggrannhet.


In [None]:
# Assign genres to predefined integers
label_count <- results %>% 
  group_by(artist_top_genre) %>% 
  mutate(id = cur_group_id()) %>% 
  ungroup() %>% 
  summarise(correct_labels = sum(.cluster == id))


# Print results  
cat("Result:", label_count$correct_labels, "out of", nrow(results), "samples were correctly labeled.")

cat("\nAccuracy score:", label_count$correct_labels/nrow(results))


Den h√§r modellens noggrannhet √§r inte d√•lig, men inte heller fantastisk. Det kan vara s√• att datan inte l√§mpar sig s√§rskilt v√§l f√∂r K-Means-klustring. Datan √§r f√∂r obalanserad, har f√∂r l√•g korrelation och det finns f√∂r mycket variation mellan kolumnv√§rdena f√∂r att klustringen ska fungera bra. Faktum √§r att de kluster som bildas troligen √§r starkt p√•verkade eller snedvridna av de tre genrekategorier vi definierade ovan.

Trots det var det en l√§rorik process!

I Scikit-learns dokumentation kan du se att en modell som denna, med kluster som inte √§r s√§rskilt v√§l avgr√§nsade, har ett "varians"-problem:

<p >
   <img src="../../images/problems.png"
   width="500"/>
   <figcaption>Infografik fr√•n Scikit-learn</figcaption>



## **Varians**

Varians definieras som "medelv√§rdet av de kvadrerade avvikelserna fr√•n medelv√§rdet" [k√§lla](https://www.mathsisfun.com/data/standard-deviation.html). I kontexten av detta klustringsproblem syftar det p√• att siffrorna i v√•r dataset tenderar att avvika lite f√∂r mycket fr√•n medelv√§rdet.

‚úÖ Det h√§r √§r ett bra tillf√§lle att fundera √∂ver alla s√§tt du kan l√∂sa detta problem. Justera datan lite mer? Anv√§nda andra kolumner? Testa en annan algoritm? Tips: Prova att [skala din data](https://www.mygreatlearning.com/blog/learning-data-science-with-k-means-clustering/) f√∂r att normalisera den och testa andra kolumner.

> Prova denna '[varianskalkylator](https://www.calculatorsoup.com/calculators/statistics/variance-calculator.php)' f√∂r att f√∂rst√• konceptet lite b√§ttre.

------------------------------------------------------------------------

## **üöÄUtmaning**

Tillbringa lite tid med denna notebook och justera parametrarna. Kan du f√∂rb√§ttra modellens noggrannhet genom att rensa datan mer (till exempel ta bort outliers)? Du kan anv√§nda vikter f√∂r att ge st√∂rre vikt √•t vissa dataprover. Vad mer kan du g√∂ra f√∂r att skapa b√§ttre kluster?

Tips: F√∂rs√∂k att skala din data. Det finns kommenterad kod i notebooken som l√§gger till standardisering f√∂r att f√• datakolumnerna att likna varandra mer i termer av intervall. Du kommer att m√§rka att √§ven om silhuettpo√§ngen sjunker, s√• j√§mnas "kn√§et" i armb√•gsgrafen ut. Detta beror p√• att om datan l√§mnas oskalad, f√•r data med mindre varians st√∂rre vikt. L√§s mer om detta problem [h√§r](https://stats.stackexchange.com/questions/21222/are-mean-normalization-and-feature-scaling-needed-for-k-means-clustering/21226#21226).

## [**Efterf√∂rel√§sningsquiz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/30/)

## **Granskning & Sj√§lvstudier**

-   Ta en titt p√• en K-Means-simulator [som denna](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/). Du kan anv√§nda detta verktyg f√∂r att visualisera exempeldata och best√§mma dess centroid. Du kan redigera datans slumpm√§ssighet, antal kluster och antal centroid. Hj√§lper detta dig att f√• en b√§ttre f√∂rst√•else f√∂r hur datan kan grupperas?

-   Ta ocks√• en titt p√• [detta handout om K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) fr√•n Stanford.

Vill du testa dina nyf√∂rv√§rvade klustringskunskaper p√• dataset som l√§mpar sig v√§l f√∂r K-Means-klustring? Se:

-   [Tr√§na och utv√§rdera klustringsmodeller](https://rpubs.com/eR_ic/clustering) med hj√§lp av Tidymodels och v√§nner

-   [K-means Cluster Analysis](https://uc-r.github.io/kmeans_clustering), UC Business Analytics R Programming Guide

- [K-means-klustring med principer f√∂r "tidy data"](https://www.tidymodels.org/learn/statistics/k-means/)

## **Uppgift**

[Prova olika klustringsmetoder](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/2-K-Means/assignment.md)

## TACK TILL:

[Jen Looper](https://www.twitter.com/jenlooper) f√∂r att ha skapat den ursprungliga Python-versionen av denna modul ‚ô•Ô∏è

[`Allison Horst`](https://twitter.com/allison_horst/) f√∂r att ha skapat de fantastiska illustrationerna som g√∂r R mer v√§lkomnande och engagerande. Hitta fler illustrationer i hennes [galleri](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

Lycka till med l√§randet,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="500"/>
   <figcaption>Konstverk av @allison_horst</figcaption>



---

**Ansvarsfriskrivning**:  
Detta dokument har √∂versatts med hj√§lp av AI-√∂vers√§ttningstj√§nsten [Co-op Translator](https://github.com/Azure/co-op-translator). √Ñven om vi str√§var efter noggrannhet, v√§nligen notera att automatiska √∂vers√§ttningar kan inneh√•lla fel eller felaktigheter. Det ursprungliga dokumentet p√• dess originalspr√•k b√∂r betraktas som den auktoritativa k√§llan. F√∂r kritisk information rekommenderas professionell m√§nsklig √∂vers√§ttning. Vi ansvarar inte f√∂r eventuella missf√∂rst√•nd eller feltolkningar som uppst√•r vid anv√§ndning av denna √∂vers√§ttning.
