支持向量机详解：从线性到非线性，目标函数与优化策略-CSDN博客

支持向量机SVM

训练数据线性可分 -> 硬间隔支持向量机

训练数据近似线性可分 -> 软间隔支持向量机

训练数据线性不可分 -> 非线性支持向量机

线性可分支持向量机

分割超平面问题

在这里插入图片描述

如何定义两个集合的“最优”分割超平面?
找到集合“边界”上的若干点，以这些点为“基础”（支持向量: support vector），计算超平面的方向;以两个集合边界上的这些点的平均作为超平面的“截距”。若两个集合有部分相交，如何定义超平面，使得两个集合“尽量”分开?

给定线性可分训练数据集，通过间隔最大化得到的分离超平面为

在这里插入图片描述

相应的分类决策函数

在这里插入图片描述

该决策函数称为线性可分支持向量机。（sign(y(x))为新数据的分类）
φ(x)是某个确定的特征空间转换函数，它的作用是将X映射到(更高的)维度。最简单的: φ(x)=x。
这样，求解分离超平面问题可以等价为求解相应的凸二次规划问题。

在这里插入图片描述

推导目标函数

在这里插入图片描述

建立目标函数

在这里插入图片描述

涉及的数学知识

对偶问题

在这里插入图片描述

拉格朗日对偶函数

在这里插入图片描述

鞍点

在这里插入图片描述

强对偶条件

在这里插入图片描述

强对偶KTT条件

在这里插入图片描述

拉格朗日函数

在这里插入图片描述

计算拉格朗日的对偶函数

在这里插入图片描述

整理目标函数

在这里插入图片描述

线性支持向量机

线性支持向量机SVM的目标函数

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MvBKBawC-1602733742933)(D:\lls\lijiafan\AppData\Roaming\Typora\typora-user-images\image-20201014150230267.png)]$

带松弛因子的SVM拉格朗日函数

在这里插入图片描述

带入目标函数

在这里插入图片描述

最终目标函数

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qZCGOdRU-1602733742940)(D:\lls\lijiafan\AppData\Roaming\Typora\typora-user-images\image-20201014150502994.png)]$

损失函数分析

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WnG2xTjI-1602733742941)(D:\lls\lijiafan\AppData\Roaming\Typora\typora-user-images\image-20201014150548082.png)]$

非线性支持向量机

核函数

可以使用核函数，将原始输入空间映射到新的特征空间，从而，使得原本线性不可分的样本可能在核空间可分。

多项式核函数，a,b,r为常数高斯核函数RBF

字符串核函数如两字符串的满足某条件的子串的余弦相似度

在实际应用中，往往依赖先验领域知识/交叉验证等方案才能选择有效的核函数。没有更多先验信息，则使用高斯核函数

核函数映射

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U05Ja03G-1602733742944)(D:\lls\lijiafan\AppData\Roaming\Typora\typora-user-images\image-20201014150145568.png)]$

LR与SVM的异同

1、LR采用logistic损失 (互熵损失)，SVM采用Hinge损失。 (损失函数是二者的本质区别)
2、LR对异常值敏感; SVM对异常值不敏感，泛化能力强，分类效果好。
3、在训练集较小时，SVM较适用，而LR需要较多的样本。
4、LR模型找到的那个超平面，是尽量让所有点都远离他，而SVM寻找的那个超平面，是只让最靠近中间分割线的那些点尽量远离，即只用到那些支持向量的样本。
5、对非线性问题的处理方式不同，LR主要靠特征构造，必须组合交叉特征，特征离散化; SVM 也可以这样，还可以通过kernel的方法。
6、LR相对来说模型更简单，好理解，实现起来，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些。但是SVM的理论基础更加牢固，有一套结构化风险最小化的理论基础。
7、LR给出了后验概率，SVM只有01分类，没有后验概率。