## Chunguza K-Means clustering kwa kutumia R na kanuni za data safi.

### [**Jaribio la kabla ya somo**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/29/)

Katika somo hili, utajifunza jinsi ya kuunda makundi kwa kutumia kifurushi cha Tidymodels na vifurushi vingine katika mfumo wa R (tutaviita marafiki üßë‚Äçü§ù‚Äçüßë), pamoja na seti ya data ya muziki wa Nigeria uliyoingiza awali. Tutashughulikia misingi ya K-Means kwa Clustering. Kumbuka kwamba, kama ulivyojifunza katika somo la awali, kuna njia nyingi za kufanya kazi na makundi, na mbinu unayotumia inategemea data yako. Tutajaribu K-Means kwa kuwa ni mbinu ya kawaida zaidi ya clustering. Twende kazi!

Maneno utakayojifunza:

-   Alama ya Silhouette

-   Njia ya Elbow

-   Inertia

-   Variance

### **Utangulizi**

[K-Means Clustering](https://wikipedia.org/wiki/K-means_clustering) ni mbinu inayotokana na uwanja wa usindikaji wa ishara. Inatumika kugawanya na kupanga vikundi vya data katika `k clusters` kulingana na kufanana kwa sifa zao.

Makundi yanaweza kuonyeshwa kama [Voronoi diagrams](https://wikipedia.org/wiki/Voronoi_diagram), ambayo yanajumuisha nukta (au 'mbegu') na eneo lake linalohusiana.

<p >
   <img src="../../images/voronoi.png"
   width="500"/>
   <figcaption>Infographic na Jen Looper</figcaption>


Hatua za K-Means clustering ni kama ifuatavyo:

1.  Mwanasayansi wa data huanza kwa kutaja idadi ya makundi yanayotakiwa kuundwa.

2.  Kisha, algoriti huchagua kwa nasibu K uchunguzi kutoka seti ya data ili kutumika kama vituo vya awali vya makundi (yaani, centroids).

3.  Kisha, kila uchunguzi uliobaki unagawiwa kwa centroid yake ya karibu zaidi.

4.  Kisha, wastani mpya wa kila kundi unahesabiwa na centroid inahamishwa hadi wastani huo.

5.  Sasa kwamba vituo vimehesabiwa upya, kila uchunguzi unakaguliwa tena ili kuona kama unaweza kuwa karibu na kundi tofauti. Vitu vyote vinagawiwa tena kwa kutumia wastani wa makundi uliosasishwa. Hatua za kugawa makundi na kusasisha centroid hurudiwa mara kwa mara hadi mgawanyo wa makundi usibadilike tena (yaani, wakati mchakato unafikia muafaka). Kwa kawaida, algoriti hukoma wakati kila mzunguko mpya husababisha harakati ndogo za centroids na makundi yanakuwa thabiti.

<div>

> Kumbuka kwamba kutokana na nasibu ya uchunguzi wa awali wa k uliotumika kama centroids za kuanzia, tunaweza kupata matokeo tofauti kidogo kila tunapotekeleza utaratibu. Kwa sababu hii, algoriti nyingi hutumia *mianzo ya nasibu* kadhaa na kuchagua mzunguko wenye WCSS ya chini zaidi. Kwa hivyo, inashauriwa sana kila mara kuendesha K-Means na thamani kadhaa za *nstart* ili kuepuka *muafaka usiofaa wa ndani.*

</div>

Uhuishaji huu mfupi ukitumia [mchoro](https://github.com/allisonhorst/stats-illustrations) wa Allison Horst unaelezea mchakato wa clustering:

<p >
   <img src="../../images/kmeans.gif"
   width="550"/>
   <figcaption>Mchoro na @allison_horst</figcaption>



Swali la msingi linalojitokeza katika clustering ni hili: unajuaje ni makundi mangapi ya kugawanya data yako? Changamoto moja ya kutumia K-Means ni kwamba utahitaji kuanzisha `k`, yaani idadi ya `centroids`. Kwa bahati nzuri, `njia ya elbow` husaidia kukadiria thamani nzuri ya kuanzia kwa `k`. Utajaribu muda si mrefu.

### 

**Mahitaji ya awali**

Tutaanza moja kwa moja kutoka pale tulipoishia katika [somo la awali](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb), ambapo tulichambua seti ya data, tukafanya visualizations nyingi na kuchuja seti ya data kwa uchunguzi wa kuvutia. Hakikisha umeangalia!

Tutahitaji vifurushi kadhaa ili kukamilisha moduli hii. Unaweza kuviweka kwa: `install.packages(c('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork'))`

Vinginevyo, script hapa chini hukagua kama una vifurushi vinavyohitajika kukamilisha moduli hii na kuvifunga kwako endapo vingine vinakosekana.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'cluster', 'summarytools', 'plotly', 'paletteer', 'factoextra', 'patchwork')


Tuanzie kazi mara moja!

## 1. Mdundo na data: Punguza hadi aina 3 maarufu zaidi za muziki

Hii ni muhtasari wa kile tulichofanya katika somo lililopita. Hebu tukate na kuchambua data!


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv", show_col_types = FALSE)

# Narrow down to top 3 popular genres
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres using bar plots
theme_set(theme_light())
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


ü§© Hilo lilifanikiwa vizuri!

## 2. Uchunguzi zaidi wa data.

Je, data hii ni safi kiasi gani? Hebu tuangalie data zisizo za kawaida kwa kutumia grafu za sanduku (box plots). Tutazingatia safu za nambari zenye data chache zisizo za kawaida (ingawa unaweza kusafisha data zisizo za kawaida). Grafu za sanduku zinaweza kuonyesha wigo wa data na zitasaidia kuchagua ni safu zipi za kutumia. Kumbuka, grafu za sanduku hazionyeshi tofauti (variance), kipengele muhimu cha data nzuri inayoweza kugawanyika katika makundi. Tafadhali angalia [mjadala huu](https://stats.stackexchange.com/questions/91536/deduce-variance-from-boxplot) kwa maelezo zaidi.

[Grafu za sanduku](https://en.wikipedia.org/wiki/Box_plot) hutumika kuonyesha kwa picha usambazaji wa data ya `nambari`, kwa hivyo hebu tuanze kwa *kuchagua* safu zote za nambari pamoja na aina maarufu za muziki.


In [None]:
# Select top genre column and all other numeric columns
df_numeric <- nigerian_songs %>% 
  select(artist_top_genre, where(is.numeric)) 

# Display the data
df_numeric %>% 
  slice_head(n = 5)


Tazama jinsi msaidizi wa kuchagua `where` unavyorahisisha hili üíÅ? Chunguza kazi nyingine kama hizi [hapa](https://tidyselect.r-lib.org/).

Kwa kuwa tutakuwa tunatengeneza boxplot kwa kila kipengele cha nambari na tunataka kuepuka kutumia loops, hebu tuweke data yetu katika muundo *mrefu zaidi* ambao utatuwezesha kutumia `facets` - chati ndogo ambazo kila moja inaonyesha sehemu moja ya data.


In [None]:
# Pivot data from wide to long
df_numeric_long <- df_numeric %>% 
  pivot_longer(!artist_top_genre, names_to = "feature_names", values_to = "values") 

# Print out data
df_numeric_long %>% 
  slice_head(n = 15)


Sasa ni muda wa `ggplots` zaidi! Kwa hivyo tutatumia `geom` gani?


In [None]:
# Make a box plot
df_numeric_long %>% 
  ggplot(mapping = aes(x = feature_names, y = values, fill = feature_names)) +
  geom_boxplot() +
  facet_wrap(~ feature_names, ncol = 4, scales = "free") +
  theme(legend.position = "none")


Rahisi-gg!

Sasa tunaweza kuona kuwa data hii ina kelele kidogo: kwa kuchunguza kila safu kama boxplot, unaweza kuona data zilizotengwa (outliers). Unaweza kupitia seti ya data na kuondoa data hizi zilizotengwa, lakini kufanya hivyo kutafanya data kuwa ndogo sana.

Kwa sasa, hebu tuchague safu ambazo tutatumia kwa zoezi letu la kugawanya makundi. Hebu tuchague safu za nambari zenye viwango vinavyofanana. Tunaweza kubadilisha `artist_top_genre` kuwa nambari lakini kwa sasa tutaiacha.


In [None]:
# Select variables with similar ranges
df_numeric_select <- df_numeric %>% 
  select(popularity, danceability, acousticness, loudness, energy) 

# Normalize data
# df_numeric_select <- scale(df_numeric_select)


## 3. Kuhesabu k-means clustering katika R

Tunaweza kuhesabu k-means katika R kwa kutumia kazi ya ndani `kmeans`, angalia `help("kmeans()")`. Kazi ya `kmeans()` inakubali fremu ya data yenye safu zote za nambari kama hoja yake kuu.

Hatua ya kwanza wakati wa kutumia k-means clustering ni kubainisha idadi ya makundi (k) ambayo yatatengenezwa katika suluhisho la mwisho. Tunajua kuna aina 3 za muziki ambazo tumechambua kutoka kwenye seti ya data, kwa hivyo hebu tujaribu 3:


In [None]:
set.seed(2056)
# Kmeans clustering for 3 clusters
kclust <- kmeans(
  df_numeric_select,
  # Specify the number of clusters
  centers = 3,
  # How many random initial configurations
  nstart = 25
)

# Display clustering object
kclust


Kitu cha kmeans kina taarifa kadhaa ambazo zimeelezewa vizuri katika `help("kmeans()")`. Kwa sasa, hebu tuzingatie chache. Tunaona kwamba data imegawanywa katika makundi 3 yenye ukubwa wa 65, 110, 111. Matokeo pia yanajumuisha vituo vya makundi (wastani) kwa makundi 3 katika vigezo 5.

Vector ya clustering ni mgawanyo wa kundi kwa kila uchunguzi. Hebu tutumie kazi ya `augment` kuongeza mgawanyo wa kundi kwenye seti ya data ya awali.


In [None]:
# Add predicted cluster assignment to data set
augment(kclust, df_numeric_select) %>% 
  relocate(.cluster) %>% 
  slice_head(n = 10)


Perfect, tumegawanya seti yetu ya data katika vikundi 3. Sasa, je, makundi yetu ni mazuri kiasi gani ü§∑? Hebu tuangalie `Silhouette score`

### **Silhouette score**

[Uchambuzi wa Silhouette](https://en.wikipedia.org/wiki/Silhouette_(clustering)) unaweza kutumika kuchunguza umbali wa kutenganisha kati ya makundi yaliyopatikana. Alama hii inatofautiana kutoka -1 hadi 1, na ikiwa alama iko karibu na 1, kundi ni lenye msongamano na limetenganishwa vizuri na makundi mengine. Thamani karibu na 0 inaonyesha makundi yanayofungamana na sampuli zikiwa karibu sana na mpaka wa maamuzi wa makundi jirani. [chanzo](https://dzone.com/articles/kmeans-silhouette-score-explained-with-python-exam).

Njia ya wastani ya silhouette inahesabu wastani wa silhouette wa uchunguzi kwa thamani tofauti za *k*. Alama ya wastani ya silhouette ya juu inaonyesha upangaji mzuri wa makundi.

`silhouette` ni kazi katika kifurushi cha cluster inayotumika kuhesabu upana wa wastani wa silhouette.

> Silhouette inaweza kuhesabiwa kwa kutumia kipimo chochote cha [umbali](https://en.wikipedia.org/wiki/Distance "Distance"), kama vile [umbali wa Euclidean](https://en.wikipedia.org/wiki/Euclidean_distance "Euclidean distance") au [umbali wa Manhattan](https://en.wikipedia.org/wiki/Manhattan_distance "Manhattan distance") ambao tulijadili katika [somo lililopita](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb).


In [None]:
# Load cluster package
library(cluster)

# Compute average silhouette score
ss <- silhouette(kclust$cluster,
                 # Compute euclidean distance
                 dist = dist(df_numeric_select))
mean(ss[, 3])


Alama yetu ni **.549**, kwa hivyo iko katikati. Hii inaonyesha kuwa data yetu haifai sana kwa aina hii ya ugawanyaji. Hebu tuone kama tunaweza kuthibitisha hisia hii kwa njia ya kuona. [Kifurushi cha factoextra](https://rpkgs.datanovia.com/factoextra/index.html) kinatoa kazi (`fviz_cluster()`) za kuonyesha ugawanyaji.


In [None]:
library(factoextra)

# Visualize clustering results
fviz_cluster(kclust, df_numeric_select)


Kuwepo kwa mwingiliano katika makundi kunaonyesha kuwa data yetu haifai sana kwa aina hii ya ugawaji, lakini tuendelee.

## 4. Kuamua idadi bora ya makundi

Swali la msingi ambalo mara nyingi hujitokeza katika ugawaji wa K-Means ni hili - bila lebo za darasa zinazojulikana, unajuaje ni makundi mangapi ya kugawa data yako?

Njia moja ya kujaribu kujua ni kutumia sampuli ya data `kuunda mfululizo wa mifano ya ugawaji` na idadi inayoongezeka ya makundi (kwa mfano kutoka 1-10), na kutathmini vipimo vya ugawaji kama vile **Silhouette score.**

Hebu tuamue idadi bora ya makundi kwa kuhesabu algoriti ya ugawaji kwa thamani tofauti za *k* na kutathmini **Within Cluster Sum of Squares** (WCSS). Jumla ya WCSS inapima ukaribu wa ugawaji, na tunataka iwe ndogo iwezekanavyo, ambapo thamani za chini zinaonyesha kuwa vidokezo vya data viko karibu zaidi.

Hebu tuchunguze athari za chaguo tofauti za `k`, kutoka 1 hadi 10, kwenye ugawaji huu.


In [None]:
# Create a series of clustering models
kclusts <- tibble(k = 1:10) %>% 
  # Perform kmeans clustering for 1,2,3 ... ,10 clusters
  mutate(model = map(k, ~ kmeans(df_numeric_select, centers = .x, nstart = 25)),
  # Farm out clustering metrics eg WCSS
         glanced = map(model, ~ glance(.x))) %>% 
  unnest(cols = glanced)
  

# View clustering rsulsts
kclusts


Sasa kwa kuwa tuna jumla ya ndani ya mraba wa makundi (tot.withinss) kwa kila algoriti ya kugawanya na kituo *k*, tunatumia [mbinu ya kiwiko](https://en.wikipedia.org/wiki/Elbow_method_(clustering)) kutafuta idadi bora ya makundi. Mbinu hii inahusisha kuchora WCSS kama kazi ya idadi ya makundi, na kuchagua [kiwiko cha mchepuko](https://en.wikipedia.org/wiki/Elbow_of_the_curve "Elbow of the curve") kama idadi ya makundi ya kutumia.


In [None]:
set.seed(2056)
# Use elbow method to determine optimum number of clusters
kclusts %>% 
  ggplot(mapping = aes(x = k, y = tot.withinss)) +
  geom_line(size = 1.2, alpha = 0.8, color = "#FF7F0EFF") +
  geom_point(size = 2, color = "#FF7F0EFF")


Grafu inaonyesha kupungua kubwa kwa WCSS (kwa hivyo *ukamilifu zaidi*) kadri idadi ya makundi inavyoongezeka kutoka moja hadi mawili, na kupungua zaidi kunakoonekana kutoka makundi mawili hadi matatu. Baada ya hapo, kupungua hakutambuliki sana, na kusababisha `kiwiko` üí™ kwenye grafu karibu na makundi matatu. Hii ni ishara nzuri kwamba kuna makundi mawili hadi matatu ya alama za data ambazo zimetenganishwa vyema.

Sasa tunaweza kuendelea na kutoa modeli ya makundi ambapo `k = 3`:

> `pull()`: hutumika kutoa safu moja
>
> `pluck()`: hutumika kuorodhesha miundo ya data kama vile orodha


In [None]:
# Extract k = 3 clustering
final_kmeans <- kclusts %>% 
  filter(k == 3) %>% 
  pull(model) %>% 
  pluck(1)


final_kmeans


Hebu tuendelee na tuone makundi tuliyopata. Unapenda kuwa na mwingiliano kwa kutumia `plotly`?


In [None]:
# Add predicted cluster assignment to data set
results <-  augment(final_kmeans, df_numeric_select) %>% 
  bind_cols(df_numeric %>% select(artist_top_genre)) 

# Plot cluster assignments
clust_plt <- results %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = .cluster, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("ggthemes::Tableau_10")

ggplotly(clust_plt)


Labda tungetarajia kwamba kila kundi (linalowakilishwa na rangi tofauti) lingekuwa na aina tofauti za muziki (zinazowakilishwa na maumbo tofauti).

Hebu tuangalie usahihi wa mfano.


In [None]:
# Assign genres to predefined integers
label_count <- results %>% 
  group_by(artist_top_genre) %>% 
  mutate(id = cur_group_id()) %>% 
  ungroup() %>% 
  summarise(correct_labels = sum(.cluster == id))


# Print results  
cat("Result:", label_count$correct_labels, "out of", nrow(results), "samples were correctly labeled.")

cat("\nAccuracy score:", label_count$correct_labels/nrow(results))


Usahihi wa modeli hii si mbaya, lakini si mzuri sana. Inawezekana kuwa data haifai vizuri kwa K-Means Clustering. Data hii haina uwiano mzuri, haina uhusiano wa kutosha, na kuna tofauti kubwa sana kati ya thamani za safu ili kuunda makundi vizuri. Kwa kweli, makundi yanayoundwa huenda yameathiriwa sana au kupotoshwa na zile kategoria tatu za muziki tulizotaja hapo juu.

Hata hivyo, hilo lilikuwa somo la kujifunza!

Katika nyaraka za Scikit-learn, unaweza kuona kuwa modeli kama hii, yenye makundi yasiyo na mipaka dhahiri, ina tatizo la 'tofauti':

<p >
   <img src="../../images/problems.png"
   width="500"/>
   <figcaption>Picha kutoka Scikit-learn</figcaption>



## **Tofauti**

Tofauti inafafanuliwa kama "wastani wa tofauti za mraba kutoka kwa wastani" [chanzo](https://www.mathsisfun.com/data/standard-deviation.html). Katika muktadha wa tatizo hili la clustering, inahusu data ambapo namba za seti yetu ya data zina mwelekeo wa kutofautiana sana kutoka kwa wastani.

‚úÖ Huu ni wakati mzuri wa kufikiria njia zote unazoweza kutumia kurekebisha tatizo hili. Je, urekebishe data kidogo zaidi? Utumie safu tofauti? Utumie algorithimu tofauti? Kidokezo: Jaribu [kupanua data yako](https://www.mygreatlearning.com/blog/learning-data-science-with-k-means-clustering/) ili kuifanya iwe ya kawaida na ujaribu safu nyingine.

> Jaribu '[kikokotoo cha tofauti](https://www.calculatorsoup.com/calculators/statistics/variance-calculator.php)' ili kuelewa dhana hii zaidi.

------------------------------------------------------------------------

## **üöÄChangamoto**

Tumia muda na daftari hili, ukibadilisha vigezo. Je, unaweza kuboresha usahihi wa modeli kwa kusafisha data zaidi (kwa mfano, kuondoa data zisizo za kawaida)? Unaweza kutumia uzito ili kutoa uzito zaidi kwa sampuli fulani za data. Je, ni nini kingine unaweza kufanya ili kuunda makundi bora?

Kidokezo: Jaribu kupanua data yako. Kuna msimbo uliotolewa maoni katika daftari unaoongeza upanuzi wa kawaida ili kufanya safu za data zifanane zaidi kwa karibu katika suala la masafa. Utagundua kuwa ingawa alama ya silhouette inashuka, 'kink' katika grafu ya kiwiko inakuwa laini. Hii ni kwa sababu kuacha data bila kupanuliwa kunaruhusu data yenye tofauti ndogo kuwa na uzito zaidi. Soma zaidi kuhusu tatizo hili [hapa](https://stats.stackexchange.com/questions/21222/are-mean-normalization-and-feature-scaling-needed-for-k-means-clustering/21226#21226).

## [**Maswali ya baada ya somo**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/30/)

## **Mapitio na Kujisomea**

-   Angalia Simulator ya K-Means [kama hii](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/). Unaweza kutumia zana hii kuona alama za data za sampuli na kubaini centroids zake. Unaweza kuhariri nasibu ya data, idadi ya makundi na idadi ya centroids. Je, hii inakusaidia kupata wazo la jinsi data inaweza kugawanywa?

-   Pia, angalia [karatasi hii kuhusu K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) kutoka Stanford.

Unataka kujaribu ujuzi wako mpya wa clustering kwenye seti za data zinazofaa kwa K-Means clustering? Tafadhali angalia:

-   [Fanya mafunzo na tathmini modeli za clustering](https://rpubs.com/eR_ic/clustering) ukitumia Tidymodels na marafiki

-   [Uchambuzi wa K-Means Cluster](https://uc-r.github.io/kmeans_clustering), Mwongozo wa Programu ya R ya UC Business Analytics

- [K-Means clustering kwa kanuni za data iliyopangwa](https://www.tidymodels.org/learn/statistics/k-means/)

## **Kazi**

[Jaribu mbinu tofauti za clustering](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/2-K-Means/assignment.md)

## ASANTE KWA:

[Jen Looper](https://www.twitter.com/jenlooper) kwa kuunda toleo la awali la Python la moduli hii ‚ô•Ô∏è

[`Allison Horst`](https://twitter.com/allison_horst/) kwa kuunda michoro ya kushangaza inayofanya R kuwa ya kuvutia na ya kupendeza zaidi. Pata michoro zaidi kwenye [galeria yake](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

Jifunze kwa furaha,

[Eric](https://twitter.com/ericntay), Balozi wa Wanafunzi wa Microsoft Learn wa Dhahabu.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="500"/>
   <figcaption>Sanaa na @allison_horst</figcaption>



---

**Kanusho**:  
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia huduma ya tafsiri ya kitaalamu ya binadamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.
