diff --git a/assets/1606226665634.png b/assets/1606226665634.png new file mode 100644 index 0000000..46000a2 Binary files /dev/null and b/assets/1606226665634.png differ diff --git a/assets/1606226667708.png b/assets/1606226667708.png new file mode 100644 index 0000000..cde7e06 Binary files /dev/null and b/assets/1606226667708.png differ diff --git a/必备数学基础.md b/必备数学基础.md index 3211a79..b9764c7 100644 --- a/必备数学基础.md +++ b/必备数学基础.md @@ -1275,4 +1275,35 @@ notebook已更新,markdown待更新 - K值难确定 - 复杂度与样本呈线性关系 -- 很难发现任意形状的簇 \ No newline at end of file +- 很难发现任意形状的簇 + +如下图这种 + +![1606222961103](assets/1606222961103.png) + +https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/可视化网站 + +#### DBSCAN聚类算法 + +基本概念: (DensityBased Spatial Clustering of Applications with Noise) + +- 核心对象: 若某个点的密度达到算法设定的阈值则其为核心点。(即r邻域内点的数量不小于 minPts),以点为圆心,多于我们设定的阈值,即是一个核心对象 +- ∈-邻域的距离阈值: 设定的半径r +- 直接密度可达: 若某点p在点q的r邻域内,且q是核心点则p-q直接密度可达。 +- 密度可达:若有一个点的序列q0、q1、….qk,对任意qi-qi-1是直接密度可达的,则称从q0到qk密度可达,这实际上是直接密度可达的“传播”。 + +只需要设置阈值和半径,不再需要设置k值 + +- 密度相连:若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的。 +- 边界点:属于某一个类的非核心点,不能发展下线了。 +- 直接密度可达:若某点p在点q的r邻域内,且q是核心点则p-q直接密度可达。 +- 噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的 + +如图: + +![1606226667708](assets/1606226667708.png) + +- A: 核心对象 +- B,C: 边界点 +- N: 离群点 +