【人工神经网络 Artificial Neural Network】

原创已于 2026-01-07 09:21:32 修改 · 1k 阅读

23 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#算法 #深度学习 #神经网络 #人工智能

于 2025-12-17 17:35:57 首次发布

【人工神经网络 Artificial Neural Network】

本文介绍人工神经网络的发展

1、生物模型&数学模型

这是生物学上的神经元模型图，它的作用机理可以简单描述为：树突接受身体上的电信号，传入神经元的细胞体中，神经元细胞会经过复杂的电信号处理，再由轴突、突触传递给对应的肌群或者其他组织，然后他们会根据神经元传递的响应的信号，做出对应的反应。

1943年，心理学家W.S.McCulloch和数理逻辑学家W.Pitts在观察到生物神经元的结构后，有了一个idea，他们想用数学模型来表征生物神经元的工作方式，基于神经元的生理特征，他们建立了单个神经元的数学模型（MP模型）。
在这里插入图片描述
这里可以试着理解为，输入 $x_1 - x_m$ 为生物神经元的不同电信号输入， $w_{k1} - w_{km}$ 为神经元内部对不同电信号的响应程度，偏置可大致理解为神经元所处的酸碱性状态，求和以及激活函数是神经元对信号的整合处理，最终输出到各个部分，我们可以试着这样去理解这个MP模型的仿生原理，但实际上生物神经元的机制远远不止这么简单，但是对于当时来说，这样的一种模型思想是非常超前的。

上面的图像展示的是MP模型的结构示意图，而他的数学表达式为：
$\mathbf{y}_k = \boldsymbol{\varphi} \left( \sum_{i=1}^m \omega_{ki} \mathbf{x}_i + b_k \right) = \boldsymbol{\varphi} \big( \mathbf{W}^T_k \mathbf{X} + \mathbf{b}_k \big)$
其中：

$\mathbf{y} \in \mathbb{R}^{n \times d}$ : 输出矩阵（ $n$ 个样本， $d$ 个神经元）
$\mathbf{X} \in \mathbb{R}^{n \times m}$ : 输入矩阵（ $n$ 个样本， $m$ 个特征）
$\mathbf{W} \in \mathbb{R}^{m \times d}$ : 权重矩阵
$\mathbf{b} \in \mathbb{R}^{1 \times d}$ : 偏置向量
$\varphi$ : 激活函数（按元素作用）

2、感知器

W.S.McCulloch和W.Pitts提出来的是单个的神经元模型，在十多年后，1957年，Frank Rosenblatt从纯数学的度重新考察这一模型，指出能够从一些输入输出对 $(X, y)$ 中通过学习算法获得权重 $w$ 和 $b$ 。感知机所考虑的问题是：给定一些输入输出对 $(X, y)$ ，其中 $\pm1$ ，求一个函数，使 $f (x) = y$ 。
感知器算法理解：设定 $f(x) = sign(W^TX + b)$ ，从一堆输入输出中自动学习，获得 $W$ 和 $b$ 。
感知器算法（Perceptron Algorithm）步骤：

对于给定输入 ${(x_i,y_i)} \space\space i=1\sim N$
① 随机选取 $w$ , $b$
② 挑选一个 $x_i$

若 $W^Tx_i + b \geq 0$ , 且 $y = - 1$ ，则：
$W = W - x$ ， $b = b - 1$
若 $W^Tx_i + b < 0$ , 且 $y = 1$ ，则：
$W = W + x$ ， $b = b + 1$

③ 回到②，直到对所有 $x_i$ ，②中的条件都不成立时退出。

从公式中我们可以看出，感知器是通过不断地调整 $W$ 和 $b$ ，让输出满足真正的 $y = 1 or - 1$ ，也即假如算出来的值大于0了就对 $W^T+b$ 减去一个值，假如算出来的值大于0了就加上一个值，那么会不会在一加一减中不断地来回震荡呢？
Frank Rosenblatt给出了收敛性的证明，他指出：假如数据线性可分，那么在有限的步骤之内，感知器算法就能够算出结果并退出。

3、多层神经网络（Mutiple Layer Neural Networks）

单个的感知器，没有办法很好的处理非线性可分的情况，多层神经网络的思想是，使用非线性的函数集合去分开非线性的样本。

两层神经网络例子：
在这里插入图片描述
数学表达式：
$a_1 = \omega_{11}x_1 + \omega_{12}x_2 + b_1$
$a_2 = \omega_{21}x_1 + \omega_{22}x_2 + b_2$
$z_1 = \varphi(a_1)$
$z_2 = \varphi(a_2)$
$\omega_1z_1 + \omega_2z_2 + b_3$

其中 $\varphi(*)$ 为非线性函数

4、非线性 $\varphi(*)$

非线性函数在现在通常被称为激活函数，一般的每个神经元的输出都是要经过非线性激活的，激活函数用于对每层的输出数据进行变换, 进而为整个网络注入了非线性因素。此时, 神经网络就可以拟合各种曲线。
最早人们考虑的是阶跃函数作为激活用，它的数学表达式为：
$\varphi(x)= \begin{cases} 0,\quad x\leq 0\\ 1, \quad x>0 \end{cases}$
函数图像表示为：
在这里插入图片描述

现在常用的激活函数有很多，这里先罗列出常用的一部分：

Sigmoid
数学表达式：
$\begin{aligned} \varphi(x) &= \frac{1}{1 + e^{-x}} \\ \varphi'(x) &= \varphi(x)[1 - \varphi(x)] \end{aligned}$
函数图像：
tanh
数学表达式：
$\begin{aligned} \varphi(x) &= \frac{e^x - e^{-x}}{e^x + e^{-x}} \\ \varphi'(x) &= 1 - [\varphi(x)]^2 \end{aligned}$
函数图像：
ReLU
数学表达式：
$\varphi(x) = \max(0, x) = \begin{cases} x & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}$
函数图像：
Leak ReLU
函数表达式：
$\text{LReLU}(x) = \begin{cases} x & x > 0 \\ \alpha x & x \leq 0 \end{cases}, \quad \alpha \in (0, 1)$
$\text{LReLU}'(x) = \begin{cases} 1 & x > 0 \\ \alpha & x \leq 0 \end{cases}$
函数图像：
Softmax
函数表达式：
$\text{Softmax}(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}} \quad \text{for } i = 1, \dots, K$
函数图像：

关于激活函数的详细知识，详见另一篇博客：常见激活函数、逻辑回归&激活函数，这里给出了比较详细的函数讲解。