|
|
|
@ -1,10 +1,13 @@
|
|
|
|
|
# 介绍聚类
|
|
|
|
|
|
|
|
|
|
聚类是一种无监督学习,它假定数据集未标记或其输入与预定义的输出不匹配。它使用各种算法对未标记的数据进行排序,并根据它在数据中识别的模式提供分组。
|
|
|
|
|
|
|
|
|
|
[](https://youtu.be/ty2advRiWJM "No One Like You by PSquare")
|
|
|
|
|
|
|
|
|
|
> 🎥 点击上面的图片观看视频。当您通过聚类学习机器学习时,请欣赏一些尼日利亚舞厅曲目 - 这是 2014 年 PSquare上高度评价的歌曲。
|
|
|
|
|
>
|
|
|
|
|
## [课前测验](https://white-water-09ec41f0f.azurestaticapps.net/quiz/27/)
|
|
|
|
|
|
|
|
|
|
### 介绍
|
|
|
|
|
|
|
|
|
|
[聚类](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)对于数据探索非常有用。让我们看看它是否有助于发现尼日利亚观众消费音乐的趋势和模式。
|
|
|
|
@ -247,7 +250,7 @@
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
1. 到目前为止,前三大流派主导了这个数据集。让我们专注于`afro dancehall`, `afropop`, 和`nigerian pop`,另外过滤数据集以删除任何具有 0 流行度值的内容(这意味着它在数据集中没有被归类为流行度并且可以被视为我们的目的的噪音):
|
|
|
|
|
1. 到目前为止,前三大流派主导了这个数据集。让我们专注于 `afro dancehall`,`afropop` 和 `nigerian pop`,另外过滤数据集以删除任何具有 0 流行度值的内容(这意味着它在数据集中没有被归类为流行度并且可以被视为我们的目的的噪音):
|
|
|
|
|
|
|
|
|
|
```python
|
|
|
|
|
df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')]
|
|
|
|
|