## Udforsk K-Means clustering med R og principperne for Tidy data.

### [**Quiz f√∏r lektionen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/29/)

I denne lektion vil du l√¶re, hvordan man opretter klynger ved hj√¶lp af Tidymodels-pakken og andre pakker i R-√∏kosystemet (vi kalder dem venner üßë‚Äçü§ù‚Äçüßë) samt det nigerianske musikdatas√¶t, du importerede tidligere. Vi vil d√¶kke det grundl√¶ggende i K-Means til clustering. Husk, som du l√¶rte i den tidligere lektion, at der er mange m√•der at arbejde med klynger p√•, og metoden afh√¶nger af dine data. Vi vil pr√∏ve K-Means, da det er den mest almindelige clustering-teknik. Lad os komme i gang!

Begreber, du vil l√¶re om:

-   Silhouettescore

-   Elbow-metoden

-   Inerti

-   Varians

### **Introduktion**

[K-Means Clustering](https://wikipedia.org/wiki/K-means_clustering) er en metode, der stammer fra signalbehandling. Den bruges til at opdele og gruppere data i `k klynger` baseret p√• ligheder i deres egenskaber.

Klyngerne kan visualiseres som [Voronoi-diagrammer](https://wikipedia.org/wiki/Voronoi_diagram), som inkluderer et punkt (eller 'fr√∏') og dets tilsvarende omr√•de.

<p >
   <img src="../../images/voronoi.png"
   width="500"/>
   <figcaption>Infografik af Jen Looper</figcaption>


K-Means clustering har f√∏lgende trin:

1.  Dataforskeren starter med at specificere det √∏nskede antal klynger, der skal oprettes.

2.  Derefter v√¶lger algoritmen tilf√¶ldigt K observationer fra datas√¶ttet som de oprindelige centre for klyngerne (dvs. centroid).

3.  Herefter tildeles hver af de resterende observationer til det n√¶rmeste centroid.

4.  Derefter beregnes de nye gennemsnit for hver klynge, og centroid flyttes til gennemsnittet.

5.  N√•r centrene er blevet genberegnet, kontrolleres hver observation igen for at se, om den m√•ske er t√¶ttere p√• en anden klynge. Alle objekter tildeles igen ved hj√¶lp af de opdaterede klyngegennemsnit. Trinnene med klyngetildeling og opdatering af centroid gentages iterativt, indtil klyngetildelingerne stopper med at √¶ndre sig (dvs. n√•r konvergens er opn√•et). Typisk afsluttes algoritmen, n√•r hver ny iteration resulterer i ubetydelig bev√¶gelse af centroids, og klyngerne bliver statiske.

<div>

> Bem√¶rk, at p√• grund af tilf√¶ldigheden i valget af de oprindelige k observationer, der bruges som startcentroids, kan vi f√• lidt forskellige resultater hver gang vi anvender proceduren. Af denne grund bruger de fleste algoritmer flere *tilf√¶ldige starter* og v√¶lger iterationen med den laveste WCSS. Derfor anbefales det st√¶rkt altid at k√∏re K-Means med flere v√¶rdier af *nstart* for at undg√• et *u√∏nsket lokalt optimum.*

</div>

Denne korte animation, der bruger [illustrationer](https://github.com/allisonhorst/stats-illustrations) af Allison Horst, forklarer clustering-processen:

<p >
   <img src="../../images/kmeans.gif"
   width="550"/>
   <figcaption>Illustration af @allison_horst</figcaption>



Et grundl√¶ggende sp√∏rgsm√•l, der opst√•r i clustering, er dette: Hvordan ved du, hvor mange klynger dine data skal opdeles i? En ulempe ved at bruge K-Means er, at du skal fastl√¶gge `k`, det vil sige antallet af `centroids`. Heldigvis hj√¶lper `elbow-metoden` med at estimere en god startv√¶rdi for `k`. Du vil pr√∏ve det om lidt.

### 

**Foruds√¶tning**

Vi forts√¶tter lige der, hvor vi slap i [den forrige lektion](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb), hvor vi analyserede datas√¶ttet, lavede en masse visualiseringer og filtrerede datas√¶ttet til interessante observationer. S√∏rg for at tjekke det ud!

Vi skal bruge nogle pakker for at komme i gang med dette modul. Du kan installere dem som: `install.packages(c('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork'))`

Alternativt kan scriptet nedenfor tjekke, om du har de n√∏dvendige pakker til at gennemf√∏re dette modul, og installere dem for dig, hvis nogle mangler.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork')


Lad os komme i gang!

## 1. En dans med data: Indsn√¶vr til de 3 mest popul√¶re musikgenrer

Dette er en opsummering af, hvad vi gjorde i den forrige lektion. Lad os analysere nogle data!


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv", show_col_types = FALSE)

# Narrow down to top 3 popular genres
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres using bar plots
theme_set(theme_light())
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


ü§© Det gik godt!

## 2. Mere dataudforskning.

Hvor ren er denne data? Lad os tjekke for outliers ved hj√¶lp af boksplot. Vi vil fokusere p√• numeriske kolonner med f√¶rre outliers (selvom du kunne fjerne outliers). Boksplot kan vise dataens r√¶kkevidde og hj√¶lpe med at v√¶lge, hvilke kolonner der skal bruges. Bem√¶rk, at boksplot ikke viser varians, som er et vigtigt element for god data, der kan grupperes. Se venligst [denne diskussion](https://stats.stackexchange.com/questions/91536/deduce-variance-from-boxplot) for yderligere l√¶sning.

[Boksplot](https://en.wikipedia.org/wiki/Box_plot) bruges til grafisk at afbilde fordelingen af `numerisk` data, s√• lad os starte med at *v√¶lge* alle numeriske kolonner sammen med de popul√¶re musikgenrer.


In [None]:
# Select top genre column and all other numeric columns
df_numeric <- nigerian_songs %>% 
  select(artist_top_genre, where(is.numeric)) 

# Display the data
df_numeric %>% 
  slice_head(n = 5)


Se hvordan udv√¶lgelseshj√¶lperen `where` g√∏r dette nemt üíÅ? Udforsk andre lignende funktioner [her](https://tidyselect.r-lib.org/).

Da vi skal lave et boksplot for hver numerisk egenskab og √∏nsker at undg√• at bruge loops, lad os omformatere vores data til et *l√¶ngere* format, der giver os mulighed for at udnytte `facets` - underplots, der hver viser et delm√¶ngde af dataene.


In [None]:
# Pivot data from wide to long
df_numeric_long <- df_numeric %>% 
  pivot_longer(!artist_top_genre, names_to = "feature_names", values_to = "values") 

# Print out data
df_numeric_long %>% 
  slice_head(n = 15)


Meget l√¶ngere! Nu er det tid til nogle `ggplots`! S√• hvilken `geom` vil vi bruge?


In [None]:
# Make a box plot
df_numeric_long %>% 
  ggplot(mapping = aes(x = feature_names, y = values, fill = feature_names)) +
  geom_boxplot() +
  facet_wrap(~ feature_names, ncol = 4, scales = "free") +
  theme(legend.position = "none")


Easy-gg!

Nu kan vi se, at disse data er lidt st√∏jende: ved at observere hver kolonne som et boxplot kan du se outliers. Du kunne gennemg√• datas√¶ttet og fjerne disse outliers, men det ville g√∏re dataene ret minimale.

Lad os for nu v√¶lge, hvilke kolonner vi vil bruge til vores klynge√∏velse. Lad os v√¶lge de numeriske kolonner med lignende intervaller. Vi kunne kode `artist_top_genre` som numerisk, men vi dropper den for nu.


In [None]:
# Select variables with similar ranges
df_numeric_select <- df_numeric %>% 
  select(popularity, danceability, acousticness, loudness, energy) 

# Normalize data
# df_numeric_select <- scale(df_numeric_select)


## 3. Beregning af k-means clustering i R

Vi kan beregne k-means i R ved hj√¶lp af den indbyggede `kmeans`-funktion, se `help("kmeans()")`. `kmeans()`-funktionen accepterer en data frame med alle numeriske kolonner som dens prim√¶re argument.

Det f√∏rste trin, n√•r man bruger k-means clustering, er at angive antallet af klynger (k), der vil blive genereret i den endelige l√∏sning. Vi ved, at der er 3 musikgenrer, som vi har udtrukket fra datas√¶ttet, s√• lad os pr√∏ve med 3:


In [None]:
set.seed(2056)
# Kmeans clustering for 3 clusters
kclust <- kmeans(
  df_numeric_select,
  # Specify the number of clusters
  centers = 3,
  # How many random initial configurations
  nstart = 25
)

# Display clustering object
kclust


kmeans-objektet indeholder flere oplysninger, som er godt forklaret i `help("kmeans()")`. For nu vil vi fokusere p√• nogle f√•. Vi ser, at dataene er blevet grupperet i 3 klynger med st√∏rrelserne 65, 110, 111. Outputtet indeholder ogs√• klyngecentrene (gennemsnit) for de 3 grupper p√• tv√¶rs af de 5 variabler.

Klyngevektoren er klyngetildelingen for hver observation. Lad os bruge `augment`-funktionen til at tilf√∏je klyngetildelingen til det oprindelige datas√¶t.


In [None]:
# Add predicted cluster assignment to data set
augment(kclust, df_numeric_select) %>% 
  relocate(.cluster) %>% 
  slice_head(n = 10)


Perfekt, vi har netop opdelt vores datas√¶t i 3 grupper. S√•, hvor god er vores klyngedannelse ü§∑? Lad os tage et kig p√• `Silhouette score`.

### **Silhouette score**

[Silhouette-analyse](https://en.wikipedia.org/wiki/Silhouette_(clustering)) kan bruges til at unders√∏ge afstanden mellem de resulterende klynger. Denne score varierer fra -1 til 1, og hvis scoren er t√¶t p√• 1, er klyngen t√¶t og godt adskilt fra andre klynger. En v√¶rdi t√¶t p√• 0 repr√¶senterer overlappende klynger med pr√∏ver, der ligger meget t√¶t p√• beslutningsgr√¶nsen for de n√¶rliggende klynger. [kilde](https://dzone.com/articles/kmeans-silhouette-score-explained-with-python-exam).

Den gennemsnitlige silhouette-metode beregner den gennemsnitlige silhouette for observationer ved forskellige v√¶rdier af *k*. En h√∏j gennemsnitlig silhouette-score indikerer en god klyngedannelse.

Funktionen `silhouette` i cluster-pakken bruges til at beregne den gennemsnitlige silhouette-bredde.

> Silhouetten kan beregnes med enhver [distance](https://en.wikipedia.org/wiki/Distance "Distance")-metrik, s√•som [Euklidisk distance](https://en.wikipedia.org/wiki/Euclidean_distance "Euclidean distance") eller [Manhattan distance](https://en.wikipedia.org/wiki/Manhattan_distance "Manhattan distance"), som vi diskuterede i [den forrige lektion](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb).


In [None]:
# Load cluster package
library(cluster)

# Compute average silhouette score
ss <- silhouette(kclust$cluster,
                 # Compute euclidean distance
                 dist = dist(df_numeric_select))
mean(ss[, 3])


Vores score er **0,549**, alts√• lige midt imellem. Dette indikerer, at vores data ikke er specielt velegnede til denne type klyngedannelse. Lad os se, om vi kan bekr√¶fte denne mistanke visuelt. [factoextra-pakken](https://rpkgs.datanovia.com/factoextra/index.html) tilbyder funktioner (`fviz_cluster()`) til at visualisere klyngedannelse.


In [None]:
library(factoextra)

# Visualize clustering results
fviz_cluster(kclust, df_numeric_select)


Overlap i klynger indikerer, at vores data ikke er s√¶rligt velegnede til denne type klyngedannelse, men lad os forts√¶tte.

## 4. Bestemmelse af optimale klynger

Et grundl√¶ggende sp√∏rgsm√•l, der ofte opst√•r i K-Means klyngedannelse, er dette - uden kendte klasselabels, hvordan ved du, hvor mange klynger du skal opdele dine data i?

En m√•de, vi kan fors√∏ge at finde ud af det p√•, er at bruge en datasample til at `oprette en r√¶kke klyngemodeller` med et stigende antal klynger (f.eks. fra 1-10) og evaluere klyngem√•linger s√•som **Silhouette-scoren.**

Lad os bestemme det optimale antal klynger ved at beregne klyngealgoritmen for forskellige v√¶rdier af *k* og evaluere **Within Cluster Sum of Squares** (WCSS). Den samlede within-cluster sum of square (WCSS) m√•ler klyngens kompakthed, og vi √∏nsker, at den skal v√¶re s√• lille som muligt, hvor lavere v√¶rdier betyder, at datapunkterne er t√¶ttere p√• hinanden.

Lad os unders√∏ge effekten af forskellige valg af `k`, fra 1 til 10, p√• denne klyngedannelse.


In [None]:
# Create a series of clustering models
kclusts <- tibble(k = 1:10) %>% 
  # Perform kmeans clustering for 1,2,3 ... ,10 clusters
  mutate(model = map(k, ~ kmeans(df_numeric_select, centers = .x, nstart = 25)),
  # Farm out clustering metrics eg WCSS
         glanced = map(model, ~ glance(.x))) %>% 
  unnest(cols = glanced)
  

# View clustering rsulsts
kclusts


Nu hvor vi har den samlede within-cluster sum-of-squares (tot.withinss) for hver klyngedannelsesalgoritme med center *k*, bruger vi [albue-metoden](https://en.wikipedia.org/wiki/Elbow_method_(clustering)) til at finde det optimale antal klynger. Metoden best√•r i at plotte WCSS som en funktion af antallet af klynger og v√¶lge [kurvens albue](https://en.wikipedia.org/wiki/Elbow_of_the_curve "Albue p√• kurven") som det antal klynger, der skal bruges.


In [None]:
set.seed(2056)
# Use elbow method to determine optimum number of clusters
kclusts %>% 
  ggplot(mapping = aes(x = k, y = tot.withinss)) +
  geom_line(size = 1.2, alpha = 0.8, color = "#FF7F0EFF") +
  geom_point(size = 2, color = "#FF7F0EFF")


Plottet viser en markant reduktion i WCSS (alts√• st√∏rre *t√¶thed*), n√•r antallet af klynger stiger fra √©n til to, og en yderligere m√¶rkbar reduktion fra to til tre klynger. Herefter bliver reduktionen mindre markant, hvilket resulterer i en `kn√¶kpunkt` üí™ i diagrammet omkring tre klynger. Dette er en god indikation p√•, at der er to til tre rimeligt veladskilte klynger af datapunkter.

Vi kan nu g√• videre og udtr√¶kke klynge-modellen, hvor `k = 3`:

> `pull()`: bruges til at udtr√¶kke en enkelt kolonne
>
> `pluck()`: bruges til at indeksere datastrukturer som lister


In [None]:
# Extract k = 3 clustering
final_kmeans <- kclusts %>% 
  filter(k == 3) %>% 
  pull(model) %>% 
  pluck(1)


final_kmeans


Fantastisk! Lad os g√• videre og visualisere de opn√•ede klynger. Har du lyst til lidt interaktivitet med `plotly`?


In [None]:
# Add predicted cluster assignment to data set
results <-  augment(final_kmeans, df_numeric_select) %>% 
  bind_cols(df_numeric %>% select(artist_top_genre)) 

# Plot cluster assignments
clust_plt <- results %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = .cluster, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("ggthemes::Tableau_10")

ggplotly(clust_plt)


M√•ske ville vi have forventet, at hver klynge (repr√¶senteret ved forskellige farver) ville have tydelige genrer (repr√¶senteret ved forskellige former).

Lad os tage et kig p√• modellens n√∏jagtighed.


In [None]:
# Assign genres to predefined integers
label_count <- results %>% 
  group_by(artist_top_genre) %>% 
  mutate(id = cur_group_id()) %>% 
  ungroup() %>% 
  summarise(correct_labels = sum(.cluster == id))


# Print results  
cat("Result:", label_count$correct_labels, "out of", nrow(results), "samples were correctly labeled.")

cat("\nAccuracy score:", label_count$correct_labels/nrow(results))


Denne models n√∏jagtighed er ikke d√•rlig, men heller ikke fantastisk. Det kan skyldes, at dataene ikke egner sig s√¶rlig godt til K-Means Clustering. Disse data er for ubalancerede, har for lidt korrelation, og der er for stor variation mellem kolonnev√¶rdierne til at danne gode klynger. Faktisk er de klynger, der dannes, sandsynligvis st√¶rkt p√•virket eller sk√¶vvredet af de tre genrekategorier, vi definerede ovenfor.

Ikke desto mindre var det en l√¶rerig proces!

I Scikit-learns dokumentation kan du se, at en model som denne, hvor klyngerne ikke er s√¶rlig veldefinerede, har et 'varians'-problem:

<p >
   <img src="../../images/problems.png"
   width="500"/>
   <figcaption>Infografik fra Scikit-learn</figcaption>



## **Varians**

Varians defineres som "gennemsnittet af de kvadrerede afvigelser fra gennemsnittet" [kilde](https://www.mathsisfun.com/data/standard-deviation.html). I konteksten af dette klyngeproblem refererer det til data, hvor v√¶rdierne i vores datas√¶t har en tendens til at afvige lidt for meget fra gennemsnittet.

‚úÖ Dette er et godt tidspunkt til at overveje alle de m√•der, du kunne l√∏se dette problem p√•. Justere dataene lidt mere? Bruge andre kolonner? Bruge en anden algoritme? Tip: Pr√∏v at [skalere dine data](https://www.mygreatlearning.com/blog/learning-data-science-with-k-means-clustering/) for at normalisere dem og teste andre kolonner.

> Pr√∏v denne '[variansberegner](https://www.calculatorsoup.com/calculators/statistics/variance-calculator.php)' for at forst√• konceptet lidt bedre.

------------------------------------------------------------------------

## **üöÄUdfordring**

Brug noget tid p√• denne notebook og juster parametrene. Kan du forbedre modellens n√∏jagtighed ved at rense dataene mere (for eksempel fjerne outliers)? Du kan bruge v√¶gte til at give mere v√¶gt til bestemte datasamples. Hvad kan du ellers g√∏re for at skabe bedre klynger?

Tip: Pr√∏v at skalere dine data. Der er kommenteret kode i notebooken, der tilf√∏jer standard skalering for at f√• datakolonnerne til at ligne hinanden mere i forhold til r√¶kkevidde. Du vil opdage, at selvom silhuetscoren falder, udglattes 'kn√¶kket' i albuegrafen. Dette skyldes, at hvis dataene ikke skaleres, f√•r data med mindre varians mere v√¶gt. L√¶s lidt mere om dette problem [her](https://stats.stackexchange.com/questions/21222/are-mean-normalization-and-feature-scaling-needed-for-k-means-clustering/21226#21226).

## [**Quiz efter forel√¶sning**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/30/)

## **Gennemgang & Selvstudie**

-   Tag et kig p√• en K-Means Simulator [som denne](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/). Du kan bruge dette v√¶rkt√∏j til at visualisere eksempler p√• datapunkter og bestemme deres centroid. Du kan redigere dataenes tilf√¶ldighed, antal klynger og antal centroid. Hj√¶lper dette dig med at f√• en id√© om, hvordan dataene kan grupperes?

-   Tag ogs√• et kig p√• [dette handout om K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) fra Stanford.

Vil du pr√∏ve dine nyerhvervede klyngef√¶rdigheder p√• datas√¶t, der egner sig godt til K-Means clustering? Se venligst:

-   [Tr√¶n og evaluer klyngemodeller](https://rpubs.com/eR_ic/clustering) ved hj√¶lp af Tidymodels og lignende

-   [K-means Cluster Analysis](https://uc-r.github.io/kmeans_clustering), UC Business Analytics R Programming Guide

- [K-means clustering med tidy data-principper](https://www.tidymodels.org/learn/statistics/k-means/)

## **Opgave**

[Pr√∏v forskellige klynge-metoder](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/2-K-Means/assignment.md)

## TAK TIL:

[Jen Looper](https://www.twitter.com/jenlooper) for at skabe den originale Python-version af dette modul ‚ô•Ô∏è

[`Allison Horst`](https://twitter.com/allison_horst/) for at skabe de fantastiske illustrationer, der g√∏r R mere im√∏dekommende og engagerende. Find flere illustrationer i hendes [galleri](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

God l√¶ring,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="500"/>
   <figcaption>Kunstv√¶rk af @allison_horst</figcaption>



---

**Ansvarsfraskrivelse**:  
Dette dokument er blevet oversat ved hj√¶lp af AI-overs√¶ttelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestr√¶ber os p√• n√∏jagtighed, skal du v√¶re opm√¶rksom p√•, at automatiserede overs√¶ttelser kan indeholde fejl eller un√∏jagtigheder. Det originale dokument p√• dets oprindelige sprog b√∏r betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig overs√¶ttelse. Vi p√•tager os intet ansvar for misforst√•elser eller fejltolkninger, der m√•tte opst√• som f√∏lge af brugen af denne overs√¶ttelse.
