软间隔树:多类聚类新方法
1. 层次聚类的链接方法
层次聚类算法是一种常用的聚类方法,凝聚式层次聚类算法从为每个类定义一个单独的聚类开始,然后迭代地将最接近的两个聚类合并。不同的链接方法对聚类间距离的定义方式不同,这会导致生成不同的树状图。
在众多链接方法中,我们选择了完全链接法。相关实验结果表明,虽然各种方法的准确率相近,但完全链接法能生成更平衡的树,这类树比其他方法生成的树更具可解释性。在后续实验涉及的层次聚类算法中,均采用完全链接法构建树,它们的差异仅在于计算类间相异矩阵的方式。
2. 基于间隔的类度量
对于可分离的两类,其距离可定义为它们之间的间隔。计算类$C_l$和$C_m$之间的距离时,需将这两类示例的类标签$y_i$重新标记为$y_i’$,分别设为 +1 和 -1。分离这两类最近示例的最大间隔超平面由权重向量$w$和偏置$b$确定,可通过求解以下优化问题得到:
[
\begin{cases}
(w, b) = \arg\max_{|w| = 1}(M) \
y_i’(\langle w, x_i\rangle + b) \geq M, \forall y_i \in C_l \cup C_m
\end{cases}
]
在间隔树中,类$C_l$和$C_m$之间的距离为:$D(l, m) = 2 \cdot M$。
实际上,上述优化问题等价于典型的硬间隔支持向量机(SVM)公式:
[
\begin{cases}
\min \frac{1}{2}|w|^2 \
y_i’(\langle w, x_i\rangle +
超级会员免费看
订阅专栏 解锁全文

8万+

被折叠的 条评论
为什么被折叠?



