BP神经网络（深度学习入门）

最新推荐文章于 2026-02-03 19:01:29 发布

原创

最新推荐文章于 2026-02-03 19:01:29 发布 · 3.9k 阅读

标签

#神经网络 #深度学习 #机器学习

本文深入探讨了BP神经网络及其在深度学习中的应用。介绍了代价函数、梯度下降法及其优化，包括梯度的概念、梯度下降与梯度上升的区别，以及在训练过程中的作用。此外，文章还讨论了BP算法的详细步骤，以及在求解异或问题上的应用。

BP(Back Propagation) 算法是神经网络深度学习中最重要的算法之一，了解BP算法可以让我们更理解神经网络深度学习模型训练的本质，属于内功修行的部分。

BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是应用最广泛的神经网络模型之一。Minsky和Papert在颇具影响力的"perceptron"
一书中指出，简单的感知器只能求解线性问题，能够求解非线性问题的网络应该具有感知层，但是对隐藏层神经元的学习规则还没有合理的理论依据。

从前面介绍的感知器学习规则来看，其权值的调整取决于期望输出与实际输出之差：
$\Delta w_i=\eta (t-y)x_i$
但是对于各个隐藏层的节点来说，不存在已知的期望输出，因而该学习规则不能用于隐藏层的权值调整。

BP算法的基本思想是：学习过程由信号的正向传播和误差的反向传播两个过程组成。

正向传播时，把样本的特征从输入层进行输入，信号经过各个隐藏层的处理后，最后从输出层传出。对于网络的实际的输出与期望输出之间的误差，把误差信号从最后一层逐层反传，从而获得各个层的误差学习信号，然后再根据误差学习信号来修正各层神经元的权值。

这种信号正向传播与误差反向传播，然后各层调整权值的过程是周而复始地进行的。权值不断调整的过程，也就是网络学习训练的过程。进行此过程直到网络输出误差减小到预先设置的阈值以下，或者超过预先设置的最大训练次数。

代价函数

代价函数也称为损失函数(Loss Function 或 Cost Function)。

代价函数并没有准确的定义，一般我们可以理解为是一个人为定义的函数，我们可以利用这个函数来优化模型的参数。最简单且常见的一个代价函数是均方差(MSE)代价函数，也称为二次代价函数：
$E=\frac{1}{2N}(T-N)^2=\frac{1}{2N}\sum_{t=1}^{N}(t_i-y_i)^2$
矩阵可以用大写字母来表示，这里的 $T$ 表示真实标签， $Y$ 表示网格输出， $i$ 表示第 $i$ 个数据。 $N$ 表示训练样本的个数（注意，这里的 $N$ 是一个大于0的整数，不是矩阵）

$T - Y$ 可以得到每个训练样本与真实标签的误差。误差的值有正有负，我们可以求平方，把所有的误差都变成正的，然后除以 $2 N$ 。这里的2没有特别的含义，主要是我们对均方差代价函数求导的时候，式子中的2次方的2可以跟分母中的2约掉，使得公式推导看起来更整齐简洁。除以 $N$ 表示求每个样本的误差平均的平均值。

公式可以用矩阵形式来表达，也可以拆分为用 $∑\sum$ 来累加各个训练样本的真实标签与网络输出的误差的平方。

梯度下降法

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。

梯度

在微积分里面，对多元函数的参数求 $<! - - S t a r t F r a g m e n t - - > \partial <! - - E n d F r a g m e n t - - >$ 偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数 $f (x, y)$ , 分别对x,y求偏导数，求得的梯度向量就是 $f/∂x, ∂f/∂y)^T$ ,简称 $g r a d f (x, y)$ 或者 $▽ f (x, y)$ 。对于在点 $x_0,y_0)$ 的具体梯度向量就是 $f/∂x_0, ∂f/∂y_0)^T$ .或者 $f(x_0,y_0)$ ，如果是3个参数的向量梯度，就是 $f/∂x, ∂f/∂y，∂f/∂z)^T$ ,以此类推。

那么这个梯度向量求出来有什么意义呢？他的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数 $f (x, y)$ ,在点 $x_0,y_0)$ ，沿着梯度向量的方向就是 $f/∂x_0, ∂f/∂y_0)^T$ 的方向是 $f (x, y)$ 增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 $f/∂x_0, ∂f/∂y_0)^T$ 的方向，梯度减少最快，也就是更加容易找到函数的最小值。

梯度下降和梯度上升

在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数 $f (θ)$ 的最小值，这时我们需要用梯度下降法来迭代求解。但是实际上，我们可以反过来求解损失函数 $- f (θ)$ 的最大值，这时梯度上升法就派上用场了。

下面来详细总结下梯度下降法。

梯度下降法

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

从上面的解释可以看出，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

在详细了解梯度下降的算法之前，我们先看看相关的一些概念。

1. 步长（Learning rate）：步长决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。用上面下山的例子，步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。

2.特征（feature）：指的是样本中输入部分，比如2个单特征的样本 $（ x (0), y (0) ）$ , $（ x (1), y (1) ）$ ,则第一个样本特征为 $x (0)$ ，第一个样本输出为 $y (0)$ 。

3. 假设函数（hypothesis function）：在监督学习中，为了拟合输入样本，而使用的假设函数，记为 $h_θ(x)$ 。比如对于单个特征的m个样本 $（ x (i), y (i) ） (i = 1, 2, . . . m)$ ,可以采用拟合函数如下：$ h_θ(x)=θ_0+θ_1x$。

4. 损失函数（loss function）：为了评估模型拟合的好坏，通常用损失函数来度量拟合的程度。损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。在线性回归中，损失函数通常为样本输出和假设函数的差取平方。比如对于m个样本 $（ x i, y i ） (i = 1, 2, . . . m)$ ,采用线性回归，损失函数为：
$$

  J(θ_0,θ_1)=∑_{i=1}^{m}(h_θ(x_i)−y_i)^2
$$

其中 $x_i$ 表示第 $i$ 个样本特征， $y_i$ 表示第 $i$ 个样本对应的输出， $h_θ(x_i)$ 为假设函数。

梯度下降的详细算法

先决条件：确认优化模型的假设函数和损失函数。

比如对于线性回归，假设函数表示为
$h_θ(x_1,x_2,...x_n)=θ_0+θ_1x_1+...+θ_nx_n,$
其中 $θ_i (i = 0,1,2... n)$ 为模型参数， $x_i (i = 0,1,2... n)$ 为每个样本的 $n$ 个特征值。这个表示可以简化，我们增加一个特征 $x_0=1$ ，这样 $h_θ(x_0,x_1,...x_n)=∑_{i=0}^nθ_ix_i$

最低0.47元/天解锁文章