diff --git a/5-Clustering/1-Visualize/translations/README.zh-cn.md b/5-Clustering/1-Visualize/translations/README.zh-cn.md index 1697e9c4..ef6c25fe 100644 --- a/5-Clustering/1-Visualize/translations/README.zh-cn.md +++ b/5-Clustering/1-Visualize/translations/README.zh-cn.md @@ -9,7 +9,7 @@ [聚类](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)对于数据探索非常有用。让我们看看它是否有助于发现尼日利亚观众消费音乐的趋势和模式。 -✅花一点时间思考聚类的用途。在现实生活中,每当你有一堆衣服需要整理家人的衣服时,就会发生聚类🧦👕👖🩲. 在数据科学中,聚类用于在尝试分析用户的偏好或确定任何未标记数据集的特征。在某种程度上,聚类有助于理解杂乱的状态,就像一个袜子抽屉。 +✅花一点时间思考聚类的用途。在现实生活中,每当你有一堆衣服需要整理家人的衣服时,就会发生聚类🧦👕👖🩲. 在数据科学中,聚类用于在尝试分析用户的偏好或确定任何未标记数据集的特征。在某种程度上,聚类有助于理解杂乱的状态,就像是一个袜子抽屉。 [![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") @@ -29,7 +29,7 @@ ## 聚类入门 -[Scikit-learn 提供了大量](https://scikit-learn.org/stable/modules/clustering.html)的方法来执行聚类。您选择的类型将取决于您的用例。根据文档,每种方法都有不同的好处。以下是 Scikit-learn 支持的方法及其适当用例的简化表: +[Scikit-learn ](https://scikit-learn.org/stable/modules/clustering.html)提供了大量的方法来执行聚类。您选择的类型将取决于您的用例。根据文档,每种方法都有不同的好处。以下是 Scikit-learn 支持的方法及其适当用例的简化表: | 方法名称 | 用例 | | ---------------------------- | -------------------------------------------------- | @@ -41,7 +41,7 @@ | Agglomerative clustering | 许多,受约束的,非欧几里得距离,转导的 | | DBSCAN | 非平面几何,不均匀聚类,转导的 | | OPTICS | 不平坦的几何形状,具有可变密度的不均匀聚类,转导的 | -| Gaussian mixtures | 平面几何,感应的 | +| Gaussian mixtures | 平面几何,归纳的 | | BIRCH | 具有异常值的大型数据集,归纳的 | > 🎓我们如何创建聚类与我们如何将数据点收集到组中有很大关系。让我们分析一些词汇: @@ -63,7 +63,7 @@ > > 🎓 ['距离'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> 聚类由它们的距离矩阵定义,例如点之间的距离。这个距离可以通过几种方式来测量。欧几里得聚类由点值的平均值定义,并包含“质心”或中心点。因此,距离是通过到该质心的距离来测量的。非欧式距离指的是“聚类心”,即离其他点最近的点。聚类心又可以用各种方式定义。 +> 聚类由它们的距离矩阵定义,例如点之间的距离。这个距离可以通过几种方式来测量。欧几里得聚类由点值的平均值定义,并包含“质心”或中心点。因此,距离是通过到该质心的距离来测量的。非欧式距离指的是“聚类中心”,即离其他点最近的点。聚类中心又可以用各种方式定义。 > > 🎓 ['约束'](https://wikipedia.org/wiki/Constrained_clustering) > @@ -232,7 +232,7 @@ 请注意,当顶级流派被描述为“缺失”时,这意味着 Spotify 没有对其进行分类,所以让我们避免它。 -1. 通过过滤掉丢失的数据避免 +1. 通过过滤掉丢失的数据来避免 ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -335,3 +335,4 @@ [研究用于聚类的其他可视化](./assignment.zh-cn.md) +转导 diff --git a/5-Clustering/translations/README.zh-cn.md b/5-Clustering/translations/README.zh-cn.md index 88d29623..7f05082b 100644 --- a/5-Clustering/translations/README.zh-cn.md +++ b/5-Clustering/translations/README.zh-cn.md @@ -2,7 +2,7 @@ 聚类(clustering)是一项机器学习任务,用于寻找类似对象并将他们分成不同的组(这些组称做“聚类”(cluster))。聚类与其它机器学习方法的不同之处在于聚类是自动进行的。事实上,我们可以说它是监督学习的对立面。 -## 区域性话题: 尼日利亚观众音乐品味的聚类模型🎧 +## 本节主题: 尼日利亚观众音乐品味的聚类模型🎧 尼日利亚多样化的观众有着多样化的音乐品味。使用从Spotify上抓取的数据(受到[本文](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421)的启发),让我们看看尼日利亚流行的一些音乐。这个数据集包括关于各种歌曲的舞蹈性、声学、响度、言语、流行度和活力的分数。从这些数据中发现一些模式(pattern)会是很有趣的事情!