|
|
|
@ -1275,4 +1275,35 @@ notebook已更新,markdown待更新
|
|
|
|
|
|
|
|
|
|
- K值难确定
|
|
|
|
|
- 复杂度与样本呈线性关系
|
|
|
|
|
- 很难发现任意形状的簇
|
|
|
|
|
- 很难发现任意形状的簇
|
|
|
|
|
|
|
|
|
|
如下图这种
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/可视化网站
|
|
|
|
|
|
|
|
|
|
#### DBSCAN聚类算法
|
|
|
|
|
|
|
|
|
|
基本概念: (DensityBased Spatial Clustering of Applications with Noise)
|
|
|
|
|
|
|
|
|
|
- 核心对象: 若某个点的密度达到算法设定的阈值则其为核心点。(即r邻域内点的数量不小于 minPts),以点为圆心,多于我们设定的阈值,即是一个核心对象
|
|
|
|
|
- ∈-邻域的距离阈值: 设定的半径r
|
|
|
|
|
- 直接密度可达: 若某点p在点q的r邻域内,且q是核心点则p-q直接密度可达。
|
|
|
|
|
- 密度可达:若有一个点的序列q0、q1、….qk,对任意qi-qi-1是直接密度可达的,则称从q0到qk密度可达,这实际上是直接密度可达的“传播”。
|
|
|
|
|
|
|
|
|
|
只需要设置阈值和半径,不再需要设置k值
|
|
|
|
|
|
|
|
|
|
- 密度相连:若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的。
|
|
|
|
|
- 边界点:属于某一个类的非核心点,不能发展下线了。
|
|
|
|
|
- 直接密度可达:若某点p在点q的r邻域内,且q是核心点则p-q直接密度可达。
|
|
|
|
|
- 噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的
|
|
|
|
|
|
|
|
|
|
如图:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
- A: 核心对象
|
|
|
|
|
- B,C: 边界点
|
|
|
|
|
- N: 离群点
|
|
|
|
|
|
|
|
|
|