【SVM手把手推导】对偶问题应用之支持向量机SVM（Hard Margin）

教父爷爷

1682人浏览 · 2024-10-30 21:29:55

教父爷爷 · 2024-10-30 21:29:55 发布

1. 对偶问题应用之支持向量机SVM

1.1 SVM

设给定数据集： $,m}\{(\mathbf{s}^i,y^i):y^i\in\{1,-1\},i=1,\cdots,m\}$ ，我们想要找到一个决策超平面（decision hyperplane），用方程表示为 $xTs+b=0\mathbf{x}^T\mathbf{s}+b=0$ ，使两个类别的样本尽量分开，如图：
在这里插入图片描述

SVM的目标就是最大化分类间隔（margin），所以找到 margin 的数学表达式至关重要。

1.1.1 【推导】：分类间隔的数学表达

因为等比例放缩 $x,b\mathbf{x},b$ 不会改变平面位置，也就是说 $xTs+b=0\mathbf{x}^T\mathbf{s}+b=0$ 和 $c(xTs+b)=0c(\mathbf{x}^T\mathbf{s}+b)=0$ 表示同一个超平面！

设此时的决策超平面是 $x0Ts+b0=0\mathbf{x_0}^T\mathbf{s}+b_0=0$ ，决策上界为 $x0Ts+b0=k0\mathbf{x_0}^T\mathbf{s}+b_0=k_0$ ，因为等比例缩放不改变平面位置，所以决策上界可以重写为 $1k0(x0Ts+b0)=1\frac{1}{k_0}(\mathbf{x_0}^T\mathbf{s}+b_0)=1$ ，对应的，决策超平面为 $1k0(x0Ts+b0)=0⇔x0Ts+b0=0\frac{1}{k_0}(\mathbf{x_0}^T\mathbf{s}+b_0)=0\Leftrightarrow \mathbf{x_0}^T\mathbf{s}+b_0=0$ 。

所以无论如何我们都能找到一组 $x,b\mathbf{x},b$ 使得 $xTs++b≥1\mathbf{x}^T\mathbf{s^+}+b\geq1$ ， $xTs−+b≤−1\mathbf{x}^T\mathbf{s^{-}}+b\leq-1$
在这里插入图片描述

我们可以通过缩放 $x,b\mathbf{x},b$ 让正例和负例中距离决策超平面最近的两个点分别落在超平面 $H1:xTs+b=1H_1:\mathbf{x}^T\mathbf{s}+b=1$ 和 $H2:xTs+b=−1H_2:\mathbf{x}^T\mathbf{s}+b=-1$ 上。

不难推出 $H_1$ 和 $H_2$ 之间的距离，即分类间隔（margin）等于 $2∣∣x∣∣2\frac{2}{||\mathbf{x}||_2}$

1.1.2 【SVM】约束优化形式

SVM的原优化问题定义：
$\max\limits_{\mathbf{x},b} \frac{2}{||\mathbf{x}||} \\ \text{s.t. }y^i(\mathbf{x}^T\mathbf{s}^i+b)\geq1$
写成约束优化标准形式：
$\min\limits_{\mathbf{x},b}\frac{||\mathbf{x}||^2}{2} \\ \text{s.t. } 1-y^i(\mathbf{x}^T\mathbf{s}^i+b)\leq0$

1.1.3 【推导】求解

将上述约束优化式子转换成拉格朗日函数：

$L(\mathbf{x},b,\lambda)=\frac{1}{2}||\mathbf{x}||^2+\sum_{i=1}^m\lambda_i(1-y^i(\mathbf{x}^T\mathbf{s}^i+b))$

根据KKT条件，有如下推断

$\frac{\partial L}{\partial\mathbf{x}}=0 \Rightarrow\mathbf{x}=\sum_{i=1}^m\lambda_iy^i\mathbf{s}^i\tag{1}$

$\frac{\partial L}{\partial b}=0\Rightarrow\sum_{i=1}^m\lambda_iy^i=0\tag{2}$

由公式(1)我们得到：

$||\mathbf{x}||^2=||\sum_{i=1}^m\lambda_iy^i\mathbf{s}^i||^2=\sum_{i=1}^m\sum_{j=1}^m\lambda_i\lambda_jy^iy^j(\mathbf{s}^i)^T\mathbf{s}^i$

于是，拉格朗日函数可以化简为：

$L(\mathbf{x},b,\lambda)=\frac{1}{2}||\mathbf{x}||^2+\sum_{i=1}^m\lambda_i-\sum_{i=1}^m\lambda_iy^i(\mathbf{s}^i)^T\mathbf{x}=\sum_{i=1}^m\lambda_i-\frac{1}{2}||\mathbf{x}||^2\\\Rightarrow q(\lambda)=\sum_{i=1}^m\lambda_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\lambda_i\lambda_jy^iy^j(\mathbf{s}^i)^T\mathbf{s}^i$

上述的分析可以推出下面对偶问题：

$\max\limits_{\lambda}\sum_{i=1}^m\lambda_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\lambda_i\lambda_jy^iy^j(\mathbf{s}^i)^T\mathbf{s}^i\\ \text{s.t. } \sum_{i=1}^m\lambda_iy^i=0,\lambda_i\geq0,i\in\{1,\cdots,m\}.$

不难发现，对偶问题的目标函数是一个二次型目标函数，且约束都为线性约束。一旦我们找到了对偶问题的最优解 $λi∗\lambda_i^*$ ，我们就能得到 $x=∑i=1mλi∗yisi\mathbf{x}=\sum_{i=1}^m\lambda_i^*y^i\mathbf{s}^i$ 。
我们称 $si\mathbf{s}^i$ 为一个支持向量，如果 $yi(xTsi+b)=1y^i(\mathbf{x}^T\mathbf{s}^i+b)=1$ ，如果 $si\mathbf{s}^i$ 不是支持向量，根据互补松弛条件， $λi=0\lambda_i=0$ ，于是 $x\mathbf{x}$ 可以被支持向量表示为： $x=∑i:λi>0λiyisi\mathbf{x}=\sum\limits_{i:\lambda_i>0}\lambda_iy^i\mathbf{s}^i$