diff --git a/assets/1606222061142.png b/assets/1606222061142.png new file mode 100644 index 0000000..12d0b2e Binary files /dev/null and b/assets/1606222061142.png differ diff --git a/assets/1606222961103.png b/assets/1606222961103.png new file mode 100644 index 0000000..56f24aa Binary files /dev/null and b/assets/1606222961103.png differ diff --git a/必备数学基础.md b/必备数学基础.md index 4956723..3211a79 100644 --- a/必备数学基础.md +++ b/必备数学基础.md @@ -1258,3 +1258,21 @@ notebook已更新,markdown待更新 - 距离度量:常用欧几里得距离和余弦相似度(先标准化) - 优化目标:![1606221707427](assets/1606221707427.png),让每一个样本到中心点(质心)的距离越小越好,即每个点到中心点的和最小,越小越相似 +#### KMEANS工作流程 + +![1606222061142](assets/1606222061142.png) + +- a:我们拿到这一堆数据 +- b:k=2,初始化两个点 +- c:计算各个点到初始化的两个点的距离,近的聚类 +- d:更新初始化点 +- e:接着更新所有点到该两点的距离 +- f:不断更新,直到无法更新,聚类完成 + +**优势:**简单、快速、适合常规数据集 + +**劣势:** + +- K值难确定 +- 复杂度与样本呈线性关系 +- 很难发现任意形状的簇 \ No newline at end of file