* Update README.zh-cn.md

* Update README.zh-cn.md

* Update assignment.zh-cn.md

* Update README.zh-cn.md

* Update README.zh-cn.md

* Update README.ru.md

* Update README.it.md

* Update README.ko.md

* Update README.ko.md

* Update README.md

* Update README.zh-cn.md

* Update README.ko.md

* Update README.it.md

* Update README.md

* Update README.zh-cn.md
pull/351/head
Flex Zhong 4 years ago committed by GitHub
parent 5c181f3ddf
commit f0eabb316e
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -1,10 +1,13 @@
# 介绍聚类
聚类是一种无监督学习,它假定数据集未标记或其输入与预定义的输出不匹配。它使用各种算法对未标记的数据进行排序,并根据它在数据中识别的模式提供分组。
[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare")
> 🎥 点击上面的图片观看视频。当您通过聚类学习机器学习时,请欣赏一些尼日利亚舞厅曲目 - 这是2014 年PSquare上高度评价的歌曲。
> 🎥 点击上面的图片观看视频。当您通过聚类学习机器学习时,请欣赏一些尼日利亚舞厅曲目 - 这是 2014 年 PSquare 上高度评价的歌曲。
## [课前测验](https://white-water-09ec41f0f.azurestaticapps.net/quiz/27/)
### 介绍
[聚类](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)对于数据探索非常有用。让我们看看它是否有助于发现尼日利亚观众消费音乐的趋势和模式。
@ -29,7 +32,7 @@
## 聚类入门
[Scikit-learn ](https://scikit-learn.org/stable/modules/clustering.html)提供了大量的方法来执行聚类。您选择的类型将取决于您的用例。根据文档,每种方法都有不同的好处。以下是 Scikit-learn 支持的方法及其适当用例的简化表:
[Scikit-learn](https://scikit-learn.org/stable/modules/clustering.html) 提供了大量的方法来执行聚类。您选择的类型将取决于您的用例。根据文档,每种方法都有不同的好处。以下是 Scikit-learn 支持的方法及其适当用例的简化表:
| 方法名称 | 用例 |
| ---------------------------- | -------------------------------------------------- |
@ -83,13 +86,13 @@
![Hierarchical clustering Infographic](../images/hierarchical.png)
> [Dasani Madipalli ](https://twitter.com/dasani_decoded)作图
> [Dasani Madipalli](https://twitter.com/dasani_decoded) 作图
- **质心聚类**。这种流行的算法需要选择“k”或要形成的聚类数量然后算法确定聚类的中心点并围绕该点收集数据。[K-means 聚类](https://wikipedia.org/wiki/K-means_clustering)是质心聚类的流行版本。中心由最近的平均值确定,因此叫做质心。与聚类的平方距离被最小化。
![Centroid clustering Infographic](../images/centroid.png)
> [Dasani Madipalli](https://twitter.com/dasani_decoded)作图
> [Dasani Madipalli](https://twitter.com/dasani_decoded) 作图
- **基于分布的聚类**。基于统计建模,基于分布的聚类中心确定一个数据点属于一个聚类的概率,并相应地分配它。高斯混合方法属于这种类型。
@ -103,15 +106,15 @@
适当的可视化对聚类作为一种技术有很大帮助,所以让我们从可视化我们的音乐数据开始。这个练习将帮助我们决定我们应该最有效地使用哪种聚类方法来处理这些数据的性质。
1. 打开此文件夹中的*notebook.ipynb*文件。
1. 打开此文件夹中的 *notebook.ipynb* 文件。
1. 导入`Seaborn`包以获得良好的数据可视化。
1. 导入 `Seaborn` 包以获得良好的数据可视化。
```python
!pip install seaborn
```
1. 附加来自*nigerian-songs.csv*的歌曲数据。加载包含有关歌曲的一些数据的数据帧。准备好通过导入库和转储数据来探索这些数据:
1. 附加来自 *nigerian-songs.csv* 的歌曲数据。加载包含有关歌曲的一些数据的数据帧。准备好通过导入库和转储数据来探索这些数据:
```python
import matplotlib.pyplot as plt
@ -131,7 +134,7 @@
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
1. 获取有关数据帧的一些信息,调用`info()`
1. 获取有关数据帧的一些信息,调用 `info()`
```python
df.info()
@ -165,7 +168,7 @@
memory usage: 66.4+ KB
```
1. 通过调用`isnull()`和验证总和为 0 来仔细检查空值:
1. 通过调用 `isnull()` 和验证总和为 0 来仔细检查空值:
```python
df.isnull().sum()
@ -243,11 +246,11 @@
plt.title('Top genres',color = 'blue')
```
现在重新检查genres
现在重新检查 genres
![most popular](../images/all-genres.png)
1. 到目前为止,前三大流派主导了这个数据集。让我们专注于`afro dancehall`, `afropop`, 和`nigerian pop`,另外过滤数据集以删除任何具有 0 流行度值的内容(这意味着它在数据集中没有被归类为流行度并且可以被视为我们的目的的噪音):
1. 到目前为止,前三大流派主导了这个数据集。让我们专注于 `afro dancehall``afropop` 和 `nigerian pop`,另外过滤数据集以删除任何具有 0 流行度值的内容(这意味着它在数据集中没有被归类为流行度并且可以被视为我们的目的的噪音):
```python
df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')]
@ -269,13 +272,13 @@
![correlations](../images/correlation.png)
> 唯一强相关性是`energy`和之间`loudness`,这并不奇怪,因为嘈杂的音乐通常非常有活力。否则,相关性相对较弱。看看聚类算法可以如何处理这些数据会很有趣。
> 唯一强相关性是 `energy` 和之间 `loudness`,这并不奇怪,因为嘈杂的音乐通常非常有活力。否则,相关性相对较弱。看看聚类算法可以如何处理这些数据会很有趣。
>
> > 🎓请注意,相关性并不意味着因果关系!我们有相关性的证据,但没有因果关系的证据。一个[有趣的网站](https://tylervigen.com/spurious-correlations)有一些强调这一点的视觉效果。
这个数据集是否围绕歌曲的流行度和可舞性有任何收敛FacetGrid 显示无论流派如何,都有同心圆排列。对于这种类型,尼日利亚人的口味是否会在某种程度的可舞性上趋于一致?
✅尝试不同的数据点(能量、响度、语音)和更多或不同的音乐类型。你能发现什么?查看`df.describe()`表格以了解数据点的一般分布。
尝试不同的数据点(能量、响度、语音)和更多或不同的音乐类型。你能发现什么?查看 `df.describe()` 表格以了解数据点的一般分布。
### 练习 - 数据分布

@ -2,12 +2,12 @@
## 说明
在本节课中您使用了一些可视化技术来掌握绘制数据图为聚类数据做准备。散点图在寻找一组对象时尤其有用。研究不同的方法和不同的库来创建散点图并在notebook上记录你的工作。你可以使用这节课的数据其他课的数据或者你自己的数据(但是请把它的来源记在你的notebook上)。用散点图绘制一些数据,并解释你的发现。
在本节课中,您使用了一些可视化技术来掌握绘制数据图,为聚类数据做准备。散点图在寻找一组对象时尤其有用。研究不同的方法和不同的库来创建散点图,并在 notebook 上记录你的工作。你可以使用这节课的数据,其他课的数据,或者你自己的数据(但是,请把它的来源记在你的 notebook 上)。用散点图绘制一些数据,并解释你的发现。
## 评判规则
| 评判标准 | 优秀 | 中规中矩 | 仍需努力 |
| -------- | -------------------------------- | ----------------------------------------------- | -------------------- |
| | notebook上有五个详细文档的散点图 | notebook上的散点图少于5个而且文档写得不太详细 | 一个不完整的notebook |
| | notebook 上有五个详细文档的散点图 | notebook 上的散点图少于 5 个,而且文档写得不太详细 | 一个不完整的 notebook |

@ -244,7 +244,7 @@ Hint: Try to scale your data. There's commented code in the notebook that adds s
Take a look at a K-Means Simulator [such as this one](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/). You can use this tool to visualize sample data points and determine its centroids. You can edit the data's randomness, numbers of clusters and numbers of centroids. Does this help you get an idea of how the data can be grouped?
Also, take a look at [this handout on k-means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) from Stanford.
Also, take a look at [this handout on K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) from Stanford.
## Assignment

@ -244,7 +244,7 @@ Suggerimento: provare a ridimensionare i dati. C'è un codice commentato nel not
Dare un'occhiata a un simulatore di K-Means [tipo questo](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/). È possibile utilizzare questo strumento per visualizzare i punti dati di esempio e determinarne i centroidi. Questo aiuta a farsi un'idea di come i dati possono essere raggruppati?
Inoltre, dare un'occhiata a [questa dispensa sui k-means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) di Stanford.
Inoltre, dare un'occhiata a [questa dispensa sui K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) di Stanford.
## Compito

@ -244,7 +244,7 @@ Variance는 "the average of the squared differences from the Mean."으로 정의
[such as this one](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/)같은 K-Means 시뮬레이터를 찾아봅니다. 이 도구로 샘플 데이터 포인트를 시각화하고 무게 중심을 결정할 수 있습니다. 데이터의 랜덤성, 클러스터 수와 무게 중심 수를 고칠 수 있습니다. 데이터를 그룹으로 묶기 위한 아이디어를 얻는 게 도움이 되나요?
또한, Stanford의 [this handout on k-means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html)을 찾아봅니다.
또한, Stanford 의 [this handout on K-Means](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html) 을 찾아봅니다.
## 과제

@ -17,9 +17,9 @@
## 介绍
[K-Means Clustering](https://wikipedia.org/wiki/K-means_clustering)是一种源自信号处理领域的方法。它用于使用一系列观察将数据组划分和划分为“k”个聚类。每个观察都用于对最接近其最近“平均值”或聚类中心点的给定数据点进行分组。
[K-Means Clustering](https://wikipedia.org/wiki/K-means_clustering) 是一种源自信号处理领域的方法。它用于使用一系列观察将数据组划分和划分为“k”个聚类。每个观察都用于对最接近其最近“平均值”或聚类中心点的给定数据点进行分组。
聚类可以可视化为[Voronoi 图](https://wikipedia.org/wiki/Voronoi_diagram),其中包括一个点(或“种子”)及其相应的区域。
聚类可以可视化为 [Voronoi 图](https://wikipedia.org/wiki/Voronoi_diagram),其中包括一个点(或“种子”)及其相应的区域。
![voronoi diagram](../images/voronoi.png)
@ -36,13 +36,13 @@ K-Means 聚类过程[分三步执行](https://scikit-learn.org/stable/modules/cl
## 前置条件
您将使用本课的*notebook.ipynb*文件,其中包含您在上一课中所做的数据导入和初步清理。
您将使用本课的 *notebook.ipynb* 文件,其中包含您在上一课中所做的数据导入和初步清理。
## 练习 - 准备
首先再看看歌曲数据。
1. 创建一个箱线图,`boxplot()`为每一列调用:
1. 创建一个箱线图,`boxplot()` 为每一列调用:
```python
plt.figure(figsize=(20,20), dpi=200)
@ -90,7 +90,7 @@ K-Means 聚类过程[分三步执行](https://scikit-learn.org/stable/modules/cl
您可以浏览数据集并删除这些异常值,但这会使数据非常少。
1. 现在,选择您将用于聚类练习的列。选择具有相似范围的那些并将`artist_top_genre`列编码为数字类型的数据:
1. 现在,选择您将用于聚类练习的列。选择具有相似范围的那些并将 `artist_top_genre` 列编码为数字类型的数据:
```python
from sklearn.preprocessing import LabelEncoder
@ -136,11 +136,11 @@ K-Means 聚类过程[分三步执行](https://scikit-learn.org/stable/modules/cl
寻找接近 1 的轮廓分数。该分数从 -1 到 1 不等,如果分数为 1则该聚类密集且与其他聚类分离良好。接近 0 的值表示重叠聚类,样本非常接近相邻聚类的决策边界。[来源](https://dzone.com/articles/kmeans-silhouette-score-explained-with-python-exam)。
我们的分数是**0.53**,所以正好在中间。这表明我们的数据不是特别适合这种类型的聚类,但让我们继续。
我们的分数是 **0.53**,所以正好在中间。这表明我们的数据不是特别适合这种类型的聚类,但让我们继续。
### 练习 - 建立模型
1. 导入`KMeans`并启动聚类过程。
1. 导入 `KMeans` 并启动聚类过程。
```python
from sklearn.cluster import KMeans
@ -157,17 +157,17 @@ K-Means 聚类过程[分三步执行](https://scikit-learn.org/stable/modules/cl
> 🎓 range这些是聚类过程的迭代
> 🎓random_state“确定质心初始化的随机数生成。” [来源](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)
> 🎓 random_state“确定质心初始化的随机数生成。” [来源](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)
> 🎓WCSS“聚类内平方和”测量聚类内所有点到聚类质心的平方平均距离。[来源](https://medium.com/@ODSC/unsupervised-learning-evaluating-clusters-bd47eed175ce)。
> 🎓 WCSS“聚类内平方和”测量聚类内所有点到聚类质心的平方平均距离。[来源](https://medium.com/@ODSC/unsupervised-learning-evaluating-clusters-bd47eed175ce)。
> 🎓InertiaK-Means 算法尝试选择质心以最小化“惯性”,“惯性是衡量内部相干程度的一种方法”。[来源](https://scikit-learn.org/stable/modules/clustering.html)。该值在每次迭代时附加到 wcss 变量。
> 🎓 InertiaK-Means 算法尝试选择质心以最小化“惯性”,“惯性是衡量内部相干程度的一种方法”。[来源](https://scikit-learn.org/stable/modules/clustering.html)。该值在每次迭代时附加到 wcss 变量。
> 🎓k-means++:在[Scikit-learn 中,](https://scikit-learn.org/stable/modules/clustering.html#k-means)您可以使用“k-means++”优化,它“将质心初始化为(通常)彼此远离,导致可能比随机初始化更好的结果。
> 🎓 k-means++:在 [Scikit-learn 中,](https://scikit-learn.org/stable/modules/clustering.html#k-means)您可以使用“k-means++”优化,它“将质心初始化为(通常)彼此远离,导致可能比随机初始化更好的结果。
### 手肘方法
之前,您推测,因为您已经定位了 3 个歌曲genre所以您应该选择 3 个聚类。但真的是这样吗?
之前,您推测,因为您已经定位了 3 个歌曲 genre所以您应该选择 3 个聚类。但真的是这样吗?
1. 使用手肘方法来确认。
@ -180,7 +180,7 @@ K-Means 聚类过程[分三步执行](https://scikit-learn.org/stable/modules/cl
plt.show()
```
使用`wcss`您在上一步中构建的变量创建一个图表,显示肘部“弯曲”的位置,这表示最佳聚类数。也许**是**3
使用 `wcss` 您在上一步中构建的变量创建一个图表,显示肘部“弯曲”的位置,这表示最佳聚类数。也许**是** 3
![elbow method](../images/elbow.png)
@ -245,7 +245,7 @@ K-Means 聚类过程[分三步执行](https://scikit-learn.org/stable/modules/cl
看看[像这样](https://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/)的 K-Means 模拟器。您可以使用此工具来可视化样本数据点并确定其质心。您可以编辑数据的随机性、聚类数和质心数。这是否有助于您了解如何对数据进行分组?
另外,看看斯坦福大学的[k-means 讲义](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html)。
另外,看看斯坦福大学的 [K-Means 讲义](https://stanford.edu/~cpiech/cs221/handouts/kmeans.html)。
## 作业

@ -8,19 +8,21 @@ Nigeria's diverse audience has diverse musical tastes. Using data scraped from S
![A turntable](./images/turntable.jpg)
Photo by <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> on <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
> Photo by <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> on <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In this series of lessons, you will discover new ways to analyze data using clustering techniques. Clustering is particularly useful when your dataset lacks labels. If it does have labels, then classification techniques such as those you learned in previous lessons might be more useful. But in cases where you are looking to group unlabelled data, clustering is a great way to discover patterns.
> There are useful low-code tools that can help you learn about working with clustering models. Try [Azure ML for this task](https://docs.microsoft.com/learn/modules/create-clustering-model-azure-machine-learning-designer/?WT.mc_id=academic-15963-cxa)
## Lessons
1. [Introduction to clustering](1-Visualize/README.md)
2. [K-Means clustering](2-K-Means/README.md)
## Credits
These lessons were written with 🎶 by [Jen Looper](https://www.twitter.com/jenlooper) with helpful reviews by [Rishit Dagli](https://rishit_dagli) and [Muhammad Sakib Khan Inan](https://twitter.com/Sakibinan).
The [Nigerian Songs](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) dataset was sourced from Kaggle as scraped from Spotify.
Useful K-Means examples that aided in creating this lesson include this [iris exploration](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), this [introductory notebook](https://www.kaggle.com/prashant111/k-means-clustering-with-python), and this [hypothetical NGO example](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).
Useful K-Means examples that aided in creating this lesson include this [iris exploration](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), this [introductory notebook](https://www.kaggle.com/prashant111/k-means-clustering-with-python), and this [hypothetical NGO example](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).

@ -8,7 +8,7 @@ Il pubblico eterogeneo della Nigeria ha gusti musicali diversi. Usando i dati re
![Un giradischi](../images/turntable.jpg)
Foto di <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> su <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
> Foto di <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> su <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In questa serie di lezioni si scopriranno nuovi modi per analizzare i dati utilizzando tecniche di clustering. Il clustering è particolarmente utile quando l'insieme di dati non ha etichette. Se ha etichette, le tecniche di classificazione come quelle apprese nelle lezioni precedenti potrebbero essere più utili. Ma nei casi in cui si sta cercando di raggruppare dati senza etichetta, il clustering è un ottimo modo per scoprire i modelli.
@ -26,4 +26,4 @@ Queste lezioni sono state scritte con 🎶 da [Jen Looper](https://www.twitter.c
L'insieme di dati [Nigerian Songs](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) è stato prelevato da Kaggle, a sua volta recuperato da Spotify.
Esempi utili di K-Means che hanno aiutato nella creazione di questa lezione includono questa [esplorazione dell'iride](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), questo [notebook introduttivo](https://www.kaggle.com/prashant111/k-means-clustering-with-python) e questo [ipotetico esempio di ONG](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).
Esempi utili di K-Means che hanno aiutato nella creazione di questa lezione includono questa [esplorazione dell'iride](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), questo [notebook introduttivo](https://www.kaggle.com/prashant111/k-means-clustering-with-python) e questo [ipotetico esempio di ONG](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).

@ -1,16 +1,16 @@
# 머신러닝을 위한 Clustering 모델
Clustering은 서로 비슷한 오브젝트를 찾고 clusters라고 불린 그룹으로 묶는 머신러닝 작업입니다. Clustering이 머신러닝의 다른 접근법과 다른 점은, 자동으로 어떤 일이 생긴다는 것이며, 사실은, supervised learning의 반대라고 말하는 게 맞습니다.
Clustering 은 서로 비슷한 오브젝트를 찾고 clusters 라고 불린 그룹으로 묶는 머신러닝 작업입니다. Clustering 이 머신러닝의 다른 접근법과 다른 점은, 자동으로 어떤 일이 생긴다는 것이며, 사실은, supervised learning 의 반대라고 말하는 게 맞습니다.
## 지역 토픽: 나이지리아 사람들의 음악 취향을 위한 clustering 모델 🎧
나이지리아의 다양한 사람들은 다양한 음악 취향이 있습니다. Spotify에서 긁어온 데이터를 사용해서 ([this article](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421)에서 영감받았습니다), 나이지니아에서 인기있는 음악을 알아보겠습니다. 데이터셋에 다양한 노래의 'danceability' 점수, 'acousticness', loudness, 'speechiness', 인기도와 에너지 데이터가 포함됩니다. 데이터에서 패턴을 찾는 것은 흥미로울 예정입니다!
나이지리아의 다양한 사람들은 다양한 음악 취향이 있습니다. Spotify 에서 긁어온 데이터를 사용해서 ([this article](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421) 에서 영감받았습니다), 나이지니아에서 인기있는 음악을 알아보겠습니다. 데이터셋에 다양한 노래의 'danceability' 점수, 'acousticness', loudness, 'speechiness', 인기도와 에너지 데이터가 포함됩니다. 데이터에서 패턴을 찾는 것은 흥미로울 예정입니다!
![A turntable](../images/turntable.jpg)
Photo by <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> on <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
> Photo by <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> on <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의의 시리즈에서, clustering 기술로 데이터를 분석하는 새로운 방식을 찾아볼 예정입니다. Clustering은 데이터셋에 라벨이 없으면 더욱 더 유용합니다. 만약 라벨이 있다면, 이전 강의에서 배운대로 classification 기술이 더 유용할 수 있습니다. 그러나 라벨링되지 않은 데이터를 그룹으로 묶으려면, clustering은 패턴을 발견하기 위한 좋은 방식입니다.
이 강의의 시리즈에서, clustering 기술로 데이터를 분석하는 새로운 방식을 찾아볼 예정입니다. Clustering 은 데이터셋에 라벨이 없으면 더욱 더 유용합니다. 만약 라벨이 있다면, 이전 강의에서 배운대로 classification 기술이 더 유용할 수 있습니다. 그러나 라벨링되지 않은 데이터를 그룹으로 묶으려면, clustering 은 패턴을 발견하기 위한 좋은 방식입니다.
> clustering 모델 작업을 배울 때 도움을 받을 수 있는 유용한 low-code 도구가 있습니다. [Azure ML for this task](https://docs.microsoft.com/learn/modules/create-clustering-model-azure-machine-learning-designer/?WT.mc_id=academic-15963-cxa)를 시도해봅니다.
@ -23,6 +23,6 @@ Photo by <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_
These lessons were written with 🎶 by [Jen Looper](https://www.twitter.com/jenlooper) with helpful reviews by [Rishit Dagli](https://rishit_dagli) and [Muhammad Sakib Khan Inan](https://twitter.com/Sakibinan).
[Nigerian Songs](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) 데이터셋은 Spotify 스크랩해서 Kaggle에서 가져왔습니다.
[Nigerian Songs](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) 데이터셋은 Spotify 스크랩해서 Kaggle 에서 가져왔습니다.
이 강의를 만들 때 도움된 유용한 K-Means 예시는 [iris exploration](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), [introductory notebook](https://www.kaggle.com/prashant111/k-means-clustering-with-python), 과 [hypothetical NGO example](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering)이 포함됩니다.
이 강의를 만들 때 도움된 유용한 K-Means 예시는 [iris exploration](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), [introductory notebook](https://www.kaggle.com/prashant111/k-means-clustering-with-python), 과 [hypothetical NGO example](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering)이 포함됩니다.

@ -8,7 +8,7 @@
![Поворотный стол](./images/turntable.jpg)
Фото <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText"> Марсела Ласкоски </a> на <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText"> Unsplash </a>
> Фото <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText"> Марсела Ласкоски </a> на <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText"> Unsplash </a>
В этой серии уроков вы откроете для себя новые способы анализа данных с помощью методов кластеризации. Кластеризация особенно полезна, когда в наборе данных отсутствуют метки. Если на нем есть ярлыки, тогда могут быть более полезными методы классификации, подобные тем, которые вы изучили на предыдущих уроках. Но в случаях, когда вы хотите сгруппировать немаркированные данные, кластеризация - отличный способ обнаружить закономерности.
@ -23,4 +23,4 @@
Набор данных [Нигерийские песни](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) был получен из Kaggle, как и из Spotify.
Полезные примеры K-Means, которые помогли в создании этого урока, включают [исследование радужной оболочки глаза](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), [вводный блокнот](https://www.kaggle.com/prashant111/k-means-clustering-with-python) и [пример гипотетической НПО](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).
Полезные примеры K-Means, которые помогли в создании этого урока, включают [исследование радужной оболочки глаза](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), [вводный блокнот](https://www.kaggle.com/prashant111/k-means-clustering-with-python) и [пример гипотетической НПО](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).

@ -1,27 +1,29 @@
# 机器学习中的聚类模型
聚类clustering)是一项机器学习任务,用于寻找类似对象并将他们分成不同的组(这些组称做“聚类”(cluster))。聚类与其它机器学习方法的不同之处在于聚类是自动进行的。事实上,我们可以说它是监督学习的对立面。
聚类clustering是一项机器学习任务,用于寻找类似对象并将他们分成不同的组(这些组称做“聚类”cluster)。聚类与其它机器学习方法的不同之处在于聚类是自动进行的。事实上,我们可以说它是监督学习的对立面。
## 本节主题: 尼日利亚观众音乐品味的聚类模型🎧
尼日利亚多样化的观众有着多样化的音乐品味。使用从Spotify上抓取的数据受到[本文](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421)的启发让我们看看尼日利亚流行的一些音乐。这个数据集包括关于各种歌曲的舞蹈性、声学、响度、言语、流行度和活力的分数。从这些数据中发现一些模式pattern会是很有趣的事情!
尼日利亚多样化的观众有着多样化的音乐品味。使用从 Spotify 上抓取的数据(受到[本文](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421)的启发让我们看看尼日利亚流行的一些音乐。这个数据集包括关于各种歌曲的舞蹈性、声学、响度、言语、流行度和活力的分数。从这些数据中发现一些模式pattern会是很有趣的事情!
![A turntable](../images/turntable.jpg)
<a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a><a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>上的照片
> <a href="https://unsplash.com/@marcelalaskoski?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Marcela Laskoski</a> <a href="https://unsplash.com/s/photos/nigerian-music?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> 上的照片
在本系列课程中,您将发现使用聚类技术分析数据的新方法。当数据集缺少标签的时候,聚类特别有用。如果它有标签,那么分类技术(比如您在前面的课程中所学的那些)可能会更有用。但是如果要对未标记的数据进行分组,聚类是发现模式的好方法。
> 这里有一些有用的低代码工具可以帮助您了解如何使用聚类模型。尝试 [Azure ML for this task](https://docs.microsoft.com/learn/modules/create-clustering-model-azure-machine-learning-designer/?WT.mc_id=academic-15963-cxa)
## 课程安排
1. [介绍聚类](../1-Visualize/translations/README.zh-cn.md)
2. [K-Means聚类](../2-K-Means/translations/README.zh-cn.md)
2. [K-Means 聚类](../2-K-Means/translations/README.zh-cn.md)
## 致谢
这些课程由Jen Looper在🎶上撰写并由 [Rishit Dagli](https://rishit_dagli) 和[Muhammad Sakib Khan Inan](https://twitter.com/Sakibinan)进行了有帮助的评审。
这些课程由 Jen Looper 🎶 上撰写,并由 [Rishit Dagli](https://rishit_dagli) 和 [Muhammad Sakib Khan Inan](https://twitter.com/Sakibinan) 进行了有帮助的评审。
[尼日利亚歌曲数据集](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) 来自Kaggle抓取的Spotify数据。
[尼日利亚歌曲数据集](https://www.kaggle.com/sootersaalu/nigerian-songs-spotify) 来自 Kaggle 抓取的 Spotify 数据。
一些帮助创造了这节课程的K-Means例子包括:[虹膜探索(iris exploration)](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering)[介绍性的笔记(introductory notebook)](https://www.kaggle.com/prashant111/k-means-clustering-with-python),和 [假设非政府组织的例子(hypothetical NGO example)](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering)。
一些帮助创造了这节课程的 K-Means 例子包括:[虹膜探索(iris exploration)](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering)[介绍性的笔记(introductory notebook)](https://www.kaggle.com/prashant111/k-means-clustering-with-python),和 [假设非政府组织的例子(hypothetical NGO example)](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering)。

Loading…
Cancel
Save