Add DBSCAN算法概述

pull/2/head
benjas 5 years ago
parent 94adc1bc4e
commit adf45b543d

Binary file not shown.

After

Width:  |  Height:  |  Size: 269 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 89 KiB

@ -1276,3 +1276,34 @@ notebook已更新markdown待更新
- K值难确定 - K值难确定
- 复杂度与样本呈线性关系 - 复杂度与样本呈线性关系
- 很难发现任意形状的簇 - 很难发现任意形状的簇
如下图这种
![1606222961103](assets/1606222961103.png)
https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/可视化网站
#### DBSCAN聚类算法
基本概念: (DensityBased Spatial Clustering of Applications with Noise)
- 核心对象: 若某个点的密度达到算法设定的阈值则其为核心点。(即r邻域内点的数量不小于 minPts),以点为圆心,多于我们设定的阈值,即是一个核心对象
- ∈-邻域的距离阈值: 设定的半径r
- 直接密度可达: 若某点p在点q的r邻域内且q是核心点则p-q直接密度可达。
- 密度可达:若有一个点的序列q0、q1、….qk,对任意qi-qi-1是直接密度可达的则称从q0到qk密度可达这实际上是直接密度可达的“传播”。
只需要设置阈值和半径不再需要设置k值
- 密度相连若从某核心点p出发点q和点k都是密度可达的则称点q和点k是密度相连的。
- 边界点:属于某一个类的非核心点,不能发展下线了。
- 直接密度可达若某点p在点q的r邻域内且q是核心点则p-q直接密度可达。
- 噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的
如图:
![1606226667708](assets/1606226667708.png)
- A: 核心对象
- B,C: 边界点
- N: 离群点

Loading…
Cancel
Save