机器学习中的数学——激活函数（三）：ReLU（Rectified Linear Unit）函数

原创已于 2025-04-01 16:46:55 修改 · 1.2k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #人工智能

于 2025-04-01 14:36:16 首次发布

7 篇文章

订阅专栏

相关文章：

ReLU（Rectified Linear Unit）激活函数详解

$\text{ReLU}(x) = \max(0, x) = \begin{cases} x & \text{如果 } x \geq 0, \\ 0 & \text{如果 } x < 0 \end{cases}$
在这里插入图片描述

输出范围：[0, +∞)，非负输出。
计算简单：仅需比较和取最大值，无指数运算。
稀疏激活：负输入直接输出0，可产生稀疏性。
当输入为正时，不存在梯度饱和问题
导数:
$\text{ReLU}'(x) = \begin{cases} 1 & \text{如果 } x > 0, \\ 0 & \text{如果 } x < 0, \\ \text{未定义} & \text{在 } x = 0 \text{ 处（实际实现中常设为 } 0 \text{ 或 } 1\text{）} \end{cases}$

在 x≠0 时，ReLU 的导数是明确的分段函数（x>0 时为 1,x<0 时为 0）。
x=0 处的导数：数学上不可导（左导数为 0，右导数为 1），但实际编程（如深度学习框架）中通常约定为 0 或 1（例如 TensorFlow 默认为 1）。

Dead ReLU问题：
- 当输入为负时，ReLU完全失效，在正向传播过程中，这不是问题。有些区域很敏感，有些则不敏感。但是在反向传播过程中，如果输入负数，则梯度将完全为零
- 解决方案：使用Leaky ReLU或初始化时偏置设小正值（如0.01）。
非零中心化：输出均值大于0，可能影响梯度下降效率（但影响小于Sigmoid）。

变体名称	公式	特性
Leaky ReLU	max(0.01x,x)	负区间小斜率，缓解Dead ReLU
PReLU	max(αx,x)（α可学习）	自适应负区间斜率
ELU	$\begin{cases} x & \text{if } x \geq 0, \\ \alpha(e^x - 1) & \text{if } x < 0 \end{cases}$	平滑处理负区间