CFSFDP聚类算法（本文后附有参考代码）

最新推荐文章于 2023-07-20 23:55:08 发布

原创

最新推荐文章于 2023-07-20 23:55:08 发布 · 2.5k 阅读

标签

#聚类 #机器学习 #算法

本文提出了一种新的聚类算法，该算法利用数据点的局部密度和与高密度点的距离来识别聚类中心。这种方法能够检测非球形簇，并且在不需要选择密度阈值的情况下自动确定簇的数量。通过对比例和决策图，算法在各种测试案例中展示了其准确性和鲁棒性，即使在样本显著减少的情况下，错误分类点的比例也极低。该方法适用于各种领域，包括天文学、生物信息学等，对于处理非球形和高度重叠的聚类尤为有效。

通过快速搜索和发现密度峰值进行聚类

聚类分析目的是根据相似性划分类别，它的应用范围从天文学到生物信息学、文献计量学和模式认出我们提出了一种基于集群中心特征化的方法，通过比其邻居更高的密度以及与具有密度更高。这一思想构成了聚类过程的基础，其中聚类直观地出现，异常值被自动发现并从分析中排除，以及无论簇的形状和空间的维度如何，都可以识别簇它们是嵌入的。我们在几个测试案例中演示了算法的性能。

聚类算法试图根据元素的相似性将元素分类为类别或簇。已经提出了几种不同的聚类策略（1），但即使在聚类的定义上也没有达成共识。在K-means（2）和K-medoids值（3）方法中，聚类是以距离聚类中心较小为特征的数据组。优化目标函数（通常是到一组假定聚类中心的距离之和）（3-6），直到找到最佳聚类中心候选。然而，由于数据点总是分配给最近的中心，因此这些方法无法检测非球形簇（7）。在基于分布的算法中，人们试图再现观察到的概率分布函数（8）；这些方法的准确性取决于试验概率表示数据的能力。通过基于数据点的局部密度的方法，可以容易地检测具有任意形状的聚类。在基于密度的带噪声应用的空间聚类（DBSCAN）（9）中，选择密度阈值，丢弃密度低于该阈值的区域中的点作为噪声，并将高

最低0.47元/天解锁文章