感知机

最新推荐文章于 2026-03-13 18:27:16 发布

原创最新推荐文章于 2026-03-13 18:27:16 发布 · 168 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文深入解析感知机这一经典的二分类线性模型，探讨其作为判别式模型的工作原理，详细阐述了感知机的数学表达、损失函数的定义与优化过程，并介绍了随机梯度下降法在感知机算法中的应用。

简介

感知机是二分类的线性分类模型，在特征空间中将实例划分为正负两类的分离超平面，属于判别式模型。

模型

假设输入空间是 $x⊆Rx\subseteq R$ ，输出空间是 $Y={−1,+1}Y=\lbrace-1,+1\rbrace$ 。由输入空间到输出空间的如下函数：
$f (x) = s i g n (w x + b)$
$s i g n (x) = 1, x > = 0$
$s i g n (x) = - 1, x < 0$
线性方程 $w x + b = 0$ 对应于输入空间的一个超平面 $s$ ，其中 $w$ 是其法向量， $b$ 是截距。这个超平面将空间划分为正负2个部分。

损失函数的一个自然选择是误分类点的总数，但是这样的损失函数不是参数 $w$ ， $b$ 的连续可导函数，不易优化。损失函数的另一个选择是误分类点到超平面 $s$ 的总距离。
推导：点 $x_0$ 到超平面 $s$ 距离 $d$
设 $x_0$ 在平面 $s$ 上的投影为 $x_1$ ，则 $w * x 1 + b = 0$
由于向量 $x0x1→\overrightarrow{x_0x_1}$ 与法向量 $w$ 平行，所以
$∣w∗x0x1→∣=∣w∣∣x0x1→∣=w12+w22+...+wn2∗d=∣∣w∣∣d|w*\overrightarrow{x_0x_1}|=|w||\overrightarrow{x_0x_1}|=\sqrt{{w_1}^2+{w_2}^2+...+{w_n}^2}*d=||w||d$
又因为 $w∗x0x1→=w1(x01−x11)+w2(x02−x12)+...+wN(x0N−x1N)w*\overrightarrow{x_0x_1}=w_1({x_0}^1-{x_1}^1)+w_2({x_0}^2-{x_1}^2)+...+w_N({x_0}^N-{x_1}^N)$
$w_1{x_0}^1+w_2{x_0}^2+...+w_N{x_0}^N-(w_1{x_0}^1+w_2{x_1}^2+...+w_N{x_1}^N)$
$w_1{x_0}^1+w_2{x_0}^2+...+w_N{x_0}^N+b =|wx_0+b|$
所以
$w||d=|wx_0+b|$
$d=1∣∣w∣∣∣wx0+b∣d=\frac{1}{||w||}|wx_0+b|$
其次对于误分类数据 $x_i, y_i)$ 来说， $y_i(wx_i+b)>0$ ，到超平面 $s$ 的距离为 $−1∣∣w∣∣yi(wxi+b)-\frac{1}{||w||}y_i(wx_i+b)$ ，假设误分类点集合为M，那么所有误分类点到 $s$ 的总距离为： $−1∣∣w∣∣∑xi∈Myi(wxi+b)-\frac{1}{||w||}\sum_{x_i\in{M}}y_i(wx_i+b)$ ，在这里不考虑 $1∣∣w∣∣\frac{1}{||w||}$ ，可以得到损失函数：
$L(w,b)=−∑xi∈Myi(wxi+b)L(w,b)=-\sum_{x_i\in{M}}y_i(wx_i+b)$
显然，损失函数是 $w$ , $b$ 的连续可导函数。因为如果没有误分类点，损失函数值是0，而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。

算法

采用随机梯度下降法来解决 $m i n L (w, b)$ 。
首先任意选取一个超平面 $w_0, b_0$ ，然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机采取一个误分类点使其梯度下降。
损失函数的梯度： $∇wL(w,b)=−∑xi∈Myixi\nabla_wL(w,b)=-\sum_{x_i\in{M}}y_ix_i$ ， $∇wL(w,b)=−∑xi∈Myi\nabla_wL(w,b)=-\sum_{x_i\in{M}}y_i$

具体算法：
输入：训练数据集 $T={(x_1, y_1), (x_2, y_2), ...,(x_N,y_N)}$ ，其中 $x∈RN,y∈{−1,+1}x\in{R^N}, y\in{\{-1,+1\}}$ ，学习率 $η\eta$
输出： $w, b$ ；感知机模型 $f (x) = s i g n (w x + b)$
step1. 选取初值 $w_0,b_0$
step2. 在训练集中选取数据 $x_i, y_i)$
step3. 如果 $y_i(wx_i+b)<0$ ，更新：
$w←w+ηyixiw\leftarrow{w+\eta{y_ix_i}}$
$b←b+ηyib\leftarrow{b+\eta{y_i}}$
step4. 转至step2，直至训练集中没有误分类点
直观解释：当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 $w, b$ 的值，使分离超平面越过该误分类点，使其被正确分类。

参考文献

《统计学习方法》李航