聚类算法:启发式与元启发式方法
1. 启发式聚类算法
启发式聚类算法基于有限混合模型,可采用多种概率密度函数来设计。其中,多元高斯混合是最常用的选择,此时需要估计的参数是均值向量和分散矩阵。此外,β分布和伯努利分布也被用于设计基于混合模型的聚类算法。
1.1 基于混合模型的聚类算法
当混合模型拟合完成后,可根据数据的拟合后验概率将数据进行概率聚类,即将数据分为k个簇。通过将每个数据点分配到其估计后验概率最高的组件中,可实现将数据明确分配到k个簇中。
1.1.1 最大似然估计
参数θ₁, …, θₖ和系数λ₁, …, λₖ可以使用最大似然(ML)估计,通过期望最大化算法来估计。给定m个独立点aᵢ ∈ A,i = 1, …, m,似然函数可以表示为:
[
L(\theta) = \prod_{i=1}^{m} \left( \sum_{j=1}^{k} \lambda_j \overline{f}(a_i, \theta_j) \right)
]
或
[
L_0(\theta) \equiv \ln L(\theta) = \sum_{i=1}^{m} \ln \left( \sum_{j=1}^{k} \lambda_j \overline{f}(a_i, \theta_j) \right)
]
此时,聚类问题转化为给定k个簇和集合A的ML估计问题。通过最大化函数L或等价地最大化函数L₀来估计系数λ₁, …, λₖ和参数θ₁, …, θₖ。函数L和L₀是多模态的,可能有许多局部最大值。寻找ML估计的标准方法是EM算法,该算法特别适用于多参数情况。
超级会员免费看
订阅专栏 解锁全文

2万+

被折叠的 条评论
为什么被折叠?



