目录
一、支持向量机
1.1定义
支持向量机(support vector machines,SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化。SVM的目标就是要找到这个超平面。
支持向量机思想直观,但细节复杂,涵盖凸优化,核函数,拉格朗日算子等理论。
1.2支持向量机类分类

二、基本概念

2.1线性可分
对于一个数据集合可以画一条直线将两组数据点分开,这样的数据称为线性可分(linearly separable)。如下图所示:

2.2分割超平面
将上述数据集分隔开来的直线成为分隔超平面。对于二维平面来说,分隔超平面就是一条直线。
2.3超平面
对于三维及三维以上的数据来说,分隔数据的是个平面,称为超平面,也就是分类的决策边界。
2.4点相对于分割面的间隔
点到分割面的距离,称为点相对于分割面的间隔。
2.5间隔
数据集所有点到分隔面的最小间隔的2倍,称为分类器或数据集的间隔。论文中提到的间隔多指这个间隔。SVM分类器就是要找最大的数据集间隔。
2.6支持向量
离分隔超平面最近的那些点。
三、最大间隔
支持向量机的核心思想: 最大间隔化, 最不受到噪声的干扰。
3.1 分隔超平面
二维空间一条直线的方程为,y=ax+b,推广到n维空间,就变成了超平面方程,即,其中w是权重,b是截距,训练数据就是训练得到权重和截距。

3.2 如何决定最好的参数
如下图所示,分类器A比分类器B的间隔(蓝色阴影)大。


SVM划分的超平面:f(x) = 0,w为法向量,决定超平面方向,
假设超平面将样本正确划分
f(x) ≥ 1,y = +1
f(x) ≤ −1,y = −1
间隔:d=2/|w|


上式就是求解最大间隔超平面的表达式。
3.3 正则化与软间隔
针对样本不是完全能够划分开的情况,可以允许支持向量机在一些样本上出错,为此要引入“软间隔”的概念。
引入正则化强度参数C(正则化:在一定程度上抑制过拟合,使模型获得抗噪声能力,提升模型对未知样本的预测性能的手段),损失函数重新定义为:

上式为采用hinge损失的形式,再引入松弛变量

支持向量机&spm=1001.2101.3001.5002&articleId=139585687&d=1&t=3&u=53f7fa675edb4d998fca39e90ea153e0)
4774

被折叠的 条评论
为什么被折叠?



