聚类算法:从亲和传播到高斯混合模型
1. 亲和传播算法
亲和传播(Affinity propagation)算法的工作原理是,实例之间反复交换消息,直到每个实例都选出另一个实例(或自身)来代表它,这些被选出的实例被称为范例(exemplars)。每个范例和所有选择它的实例构成一个聚类。
这类似于现实生活中的政治选举,人们通常希望投票给与自己观点相似的候选人,但也希望候选人能赢得选举,所以可能会选择一个不完全认同但更受欢迎的候选人,而亲和传播算法通过类似的方式选择靠近聚类中心的范例,这一点与 k - means 算法类似。
不过,与 k - means 不同的是,亲和传播算法不需要提前指定聚类的数量,聚类数量在训练过程中确定,并且它能很好地处理不同大小的聚类。然而,该算法的计算复杂度为 (O(m^2)),不适合处理大型数据集。
2. 谱聚类算法
谱聚类(Spectral clustering)算法首先获取实例之间的相似度矩阵,并从中创建低维嵌入(即降低矩阵的维度),然后在这个低维空间中使用另一个聚类算法(Scikit - Learn 的实现使用 k - means)。
谱聚类可以捕捉复杂的聚类结构,还可用于图分割(例如,识别社交网络中的朋友群组)。但它在处理大量实例时扩展性不佳,并且当聚类大小差异很大时表现也不好。
3. 高斯混合模型
3.1 模型概述
高斯混合模型(Gaussian mixture model,GMM)是一种概率模型,它假设实例是由几个参数未知的高斯分布混合生成的。从单个高斯分布生成的所有实例形成一个通常呈椭球形的聚类,每个聚类可以有
超级会员免费看
订阅专栏 解锁全文

54

被折叠的 条评论
为什么被折叠?



