Diffusion RL

原创于 2026-06-20 11:33:10 发布 · 10 阅读

标签

#人工智能

29 篇文章 ¥9.95

订阅专栏¥19.90

Diffusion RL（扩散强化学习）是近年来结合了扩散模型（Diffusion Models）与强化学习（Reinforcement Learning, RL）的前沿技术。

在传统 RL 中，策略（Policy）通常用高斯分布或确定性网络来建模。但在面对复杂的动作空间或多峰分布（Multimodal Distribution）时，传统方法往往力不从心。Diffusion RL 正是为了解决这一痛点而诞生的。

1. 核心动机：为什么要用扩散模型做 RL？

在许多复杂的 RL 任务（尤其是离线强化学习 Offline RL）中，人类或专家的行为往往是“多峰”的。

举个例子：导航到一个目的地，前方有一个障碍物，你可以选择从左边绕过去，也可以选择从右边绕过去。

目前 Diffusion RL 的融合方式主要分为三大类：

这是最直接、最常用的方式。将传统的策略网络 $π(a∣s)\pi(a|s)$ 替换为一个条件扩散模型（Conditional Diffusion Model），以状态 $s$ 作为条件，生成动作 $a$ 。

前向过程（加噪）：在训练时，将专家数据中的真实动作 $a_0$ 逐步添加高斯噪声变成 $a_T$ 。
反向过程（去噪）：在交互（推理）时，从标准高斯噪声 $aT∼N(0,I)a_T \sim \mathcal{N}(0, I)$ 开始，以当前环境状态 $s$ 为条件，逐步去噪恢复出最终执行的动作 $a_0$ 。
经典代表作： Diffusion Policy (松井等, 2023)：机器人具身智能（Embodied AI）领域的里程碑作品，完美处理了机械臂抓取中的多模态行为。
- SfBC (Score-based Behavioral Cloning)：利用得分匹配（Score-matching）进行行为克隆。

在 Offline RL 中，我们不仅希望模仿数据中的行为，还希望超越数据、最大化奖励（Reward）。因此，可以用一个学习好的值函数（Q-function）来引导扩散模型的去噪过程。

核心公式（采样引导）：

在反向去噪的每一步，除了根据行为分布进行去噪，还会加上值函数的梯度：
$μ~θ(at∣s)=μθ(at∣s)+α∇atQϕ(s,at)\tilde{\mu}_\theta(a_t | s) = \mu_\theta(a_t | s) + \alpha \nabla_{a_t} Q_\phi(s, a_t)$
这使得扩散模型在生成动作时，自然而然地向高 Q 值（高回报）的方向倾斜。
经典代表作： Diffuser (Janner et al., 2022), Decision Diffuser。这两 papers 甚至将状态序列和动作序列拼在一起作为轨迹（Trajectory），把轨迹生成看作一个图像生成任务，用 Q 函数或 Reward 去引导生成最优轨迹。

这一类的逻辑反过来：核心目标是生成更好的样本（如图像、文本或文本转语音），而 RL 只是优化扩散模型的一个工具。

将扩散模型的去噪采样过程看作一个马尔可夫决策过程（MDP），每一步去噪是 Action，最终生成的质量（如图像的审美得分、文本的对齐得分）作为 Reward。
经典代表作： DDPO (Denoising Diffusion Policy Optimization)。通过 PPO 等算法来微调扩散模型，使其生成的图片更符合人类审美或特定控制要求。

多模态拟合能力极强：能够精确表达复杂的、确定性的或多峰的行为分布。
训练稳定性好：相比于传统的 GAN 或高斯拉丁策略，基于分数匹配或 MSE Loss 训练的扩散模型更加稳定，不易发生模式崩溃（Mode Collapse）。
泛化与平滑性：扩散模型的生成机制天然带有一定的平滑和插值能力，在未见过的状态下泛化表现通常更好。

采样延迟（Inference Latency）：扩散模型最大的死穴是慢。即使使用了 DDIM 或更高效的求解器（Solver），执行一个动作依然需要迭代数步（例如 4~10 步）。对于高频控制（如 100Hz 的无人机或机器人控制），这个延迟是致命的。
计算开销大：在 RL 训练的 Inner Loop 中高频进行去噪，算力消耗远大于普通 RL。

为了让 Diffusion RL 走向工业落地（如自动驾驶、具身智能机械臂），学术界和工业界目前正集中解决推理速度问题：

一致性模型 (Consistency Models / LCM)： 尝试将多步去噪压缩到 1~2 步。
时序展开 (Temporal Ensembling)： 像 Diffusion Policy 中那样，一次性输出未来一段序列的动作（Action Chunking），比如输出未来 16 帧的动作，然后在前 8 帧不调用模型直接执行，以此分摊计算耗时。