Add DBSCAN聚类工作流

6 years ago · 9a25fcca6b
parent adf45b543d
commit 9a25fcca6b
3 changed files with 50 additions and 0 deletions
--- a/assets/1606228016281.png
+++ b/assets/1606228016281.png
--- a/assets/1606228049969.png
+++ b/assets/1606228049969.png
--- a/必备数学基础.md
+++ b/必备数学基础.md
@ -1,3 +1,5 @@
 # 必备数学基础
 ### 高等数学基础
@ -1307,3 +1309,51 @@ https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/可视化网站
 - B,C: 边界点
 - N: 离群点
 #### DBSCAN工作流程
 - 参数D：输入数据集
 - 参数∈：指定半径
 - MinPts：密度阈值
 1. 标记所有对象为 unvisited；
 2. Do；
 3. 随机选择一个 unvisited 对象 p；
 4. 标记 p 为visited；
 5. If p 的∈-领域至少有 MinPts 个对象；
 6.     创建一个新簇C，并把 p 添加到C；
 7.     令 N 为 p 的∈-领域中的对象集合；
 8.     For N中每个点p
 9.         If p 是 unvisited；
 10.             标记 p 为 visited；
 11.             If p 的∈-领域至少有 MinPts 个对象，把这些对象添加到N；
 12.             如果p还不是任何簇的成员，把p添加到C；
 13.         End for；
 14.         输出C；
 15. Else 标记 p 为噪声；
 16. Until 没有标记为 unvisited 的对象；
 参数选择：
 - 半径∈，可以根据K距离开设定：找突变点
 - k距离：给定数据集P={p(i);i=0,1,...n}，计算点P(i)到集合D的子集S中所有点之间的距离，距离按照从小到大的顺序排序，d(k)就被称为k-距离。
 - MinPts：k-距离中k的值，一般取得小一些，多次尝试
 优势：
 - 不需要指定簇个数
 - 可以发现任意形状得簇
 - 擅长找到离群点（检测任务）
 - 两个参数就够了
 劣势:
 - 高维数据有些困难（可以降维）
 - 参数难以选择（参数对结果得的影响非常大）
 - Sklearn中效率慢（数据消减策略）
 如下两图：
 ![1606228016281](assets/1606228016281.png)![1606228049969](assets/1606228049969.png)