机器学习——聚类——密度聚类法——OPTICS

最新推荐文章于 2025-03-26 16:06:48 发布

原创

最新推荐文章于 2025-03-26 16:06:48 发布 · 8.9k 阅读

127

标签

#算法 #机器学习 #聚类

本文介绍了OPTICS聚类算法的原理与实现过程，对比DBSCAN算法，详细阐述了OPTICS算法的优势及应用场景，包括核心距离与可达距离的概念、算法流程、优缺点等，并提供了Python代码实现。

理论部分

1.1 提出背景

在DBSCAN算法中，需要人为确定领域半径 $\epsilon$ 和密度阈值 $M$ ,同时该算法的性能又对这两个超参数非常敏感，不同的初始参数设定会导致完全不同的结果。基于此，学者们提出了新的聚类算法OPTICS。该聚类算法同样也是基于密度聚类的算法，与DBSCAN不同的是，该算法的设计使得其对初始超参数的设定敏感度较低。

1.2 OPTICS算法

1.2.1 基本概念

·核心距离
一个对象 $p$ 的核心距离定义为使得其成为核心对象的最小距离，设 $M$ 表示密度阈值， $N_{\epsilon}(x)$ 表示以 $x$ 为核心， $\epsilon$ 为半径区域内的点构成的集合。 $N_{\epsilon}^{i}(x)$ 表示 $N_{\epsilon}(x)$ 中距离 $x$ 第 $i$ 近的点。则样本点 $x$ 的核心对象可定义如下：
$cd(x)=\left\{ \begin{aligned} Undefined &&if|N_{\epsilon}(x)|< M \\ d(x,N_{\epsilon}^{M}(x)) && if|N_{\epsilon}(x)| \geq M \end{aligned} \right.$
可以看出：一个样本点必须首先是核心点，其核心距离才会有定义。假设 $x$ 点为一个核心对象，找到以 $x$ 点为圆心，且刚好满足密度阈值 $M$ 的最外层的一个点,假设记为 $x ’$ ，则 $x$ 点到 $x ’$ 点的距离称为核心距离。