Add DBSCAN算法概述

5 years ago · adf45b543d
parent 94adc1bc4e
commit adf45b543d
3 changed files with 32 additions and 1 deletions
--- a/assets/1606226665634.png
+++ b/assets/1606226665634.png
--- a/assets/1606226667708.png
+++ b/assets/1606226667708.png
--- a/必备数学基础.md
+++ b/必备数学基础.md
@ -1275,4 +1275,35 @@ notebook已更新，markdown待更新

 - K值难确定
 - 复杂度与样本呈线性关系
- 很难发现任意形状的簇
+- 很难发现任意形状的簇
+
+如下图这种
+
+![1606222961103](assets/1606222961103.png)
+
+https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/可视化网站
+
+#### DBSCAN聚类算法
+
+基本概念: (DensityBased Spatial Clustering of Applications with Noise)
+
+- 核心对象: 若某个点的密度达到算法设定的阈值则其为核心点。(即r邻域内点的数量不小于 minPts)，以点为圆心，多于我们设定的阈值，即是一个核心对象
+- ∈-邻域的距离阈值: 设定的半径r
+- 直接密度可达: 若某点p在点q的r邻域内，且q是核心点则p-q直接密度可达。
+- 密度可达:若有一个点的序列q0、q1、….qk,对任意qi-qi-1是直接密度可达的，则称从q0到qk密度可达，这实际上是直接密度可达的“传播”。
+
+只需要设置阈值和半径，不再需要设置k值
+
+- 密度相连：若从某核心点p出发，点q和点k都是密度可达的，则称点q和点k是密度相连的。
+- 边界点：属于某一个类的非核心点，不能发展下线了。
+- 直接密度可达：若某点p在点q的r邻域内，且q是核心点则p-q直接密度可达。
+- 噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的
+
+如图：
+
+![1606226667708](assets/1606226667708.png)
+
+- A: 核心对象
+- B,C: 边界点
+- N: 离群点
+