『扩散模型』一篇文章入门随机微分方程SDE

原创已于 2025-03-16 20:57:02 修改 · 3.4k 阅读

24 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #扩散模型 #SDE

于 2024-10-20 12:59:30 首次发布

深度学习同时被 3 个专栏收录

16 篇文章

订阅专栏

机器学习

5 篇文章

订阅专栏

扩散模型

3 篇文章

订阅专栏

文章目录

随机微分方程SDE
参考文献

随机微分方程SDE

笔者建议，学完DDPM再来看SDE的作用和推导过程

标准布朗运动

在学习随机微分方程之前，我们先来看一下什么是标准布朗运动
假设有一个一维的直线，有个小人从原点出发，每次随机地选择向左走1格或者向右走1格，且向左走和向右走的两个选项，被选择的概率相等 $\rightarrow$ 用 $S_t$ 代表小人离原点的距离， $t$ 代表代表选择的次数，如果选择的次数越多，那么 $S_t$ 将会逐渐服从一个均值为0、方差为 $t$ 的正态分布
布朗运动 $W (t)$ 是期望为0、方差为 $t$ 的正态分布 $\Leftrightarrow$ $W_t\sim \mathcal{N}(0,t)$ $\Rightarrow$ $W_{t+\Delta t}-W_t\sim \mathcal{N}(0,\Delta t)$ ，当 $\Delta t\rightarrow 0$ 时， $dw=\sqrt{dt}\varepsilon$ （重参数技巧）

SDE加噪

在DDPM中，扩散过程被划分为固定的T步 $\Rightarrow$ DDPM=拆楼+建楼 $\Rightarrow$ “拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤 $\Rightarrow$ 可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述，即 $d\boldsymbol{x}=\boldsymbol{f}_t(\boldsymbol{x})dt+g_td\boldsymbol{w_t}$ ，其中 $f_t(x_t)$ 是漂移项，描述数据的确定性演化； $g_t$ 是扩散项，描述的是噪声的扩散程度； $dw_t$ 是维纳运动（布朗运动）的微小增量，表示随机波动
随机微分方程： $d x =$ 确定的变化 $+$ 随机的变化，其中随机的变化代表着随机性
随机微分方程描述了系统从 $t$ 时刻到 $t+\Delta t$ 时刻的变化
我们可以将随机微分方程看成是 $\boldsymbol{x}_{t+\Delta t}-\boldsymbol{x}_t=\boldsymbol{f}_t(\boldsymbol{x}_t)\Delta t+g_t\sqrt{\Delta t}\boldsymbol{\varepsilon},\quad\boldsymbol{\varepsilon}\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$ 在 $\Delta t\rightarrow 0$ 时的极限 $\Rightarrow$ 如果建楼要1天，那么拆楼就是 $x$ 从 $t = 0$ 到 $t = 1$ 时刻的变化
越小的步数 $\Delta t$ 意味着对原始噪声越好的近似，如果 $\Delta t=0.001$ ，对应着 $T = 1000$ ；如果 $\Delta t=0.01$ ，则对应 $T = 100$ （总时间步数 $T$ 是模拟的总时间跨度被步长 $\Delta t$ 划分的次数 $T=\frac{t_{\max}}{\Delta t}$ ） $\Rightarrow$ 引入SDE的本质好处是“将理论分析和代码实现分离开来”
DDPM的加噪过程本质上是一个SDE，而SDE本质上描述的是微小时间变化下系统状态的变化

DDPM的加噪： $x_{t+1}=\sqrt{1-\beta_t}x_t+\sqrt{\beta_t}\epsilon$
SDE的加噪： $d\boldsymbol{x}=\boldsymbol{f}_t(\boldsymbol{x})dt+g_td\boldsymbol{w_t}$

在这里，笔者介绍一下将DDPM加噪公式映射到SDE加噪公式的推导过程：

重写DDPM加噪公式： $x_{t+1}-x_t=(\sqrt{1-\beta_t}-1)x_t+\sqrt{\beta_t}\epsilon$ $\Rightarrow$ $\sqrt{1-\beta_t}\approx1-\frac{\beta_t}2$ $\Rightarrow$ 将DDPM加噪公式重新表示为一个确定项和随机噪声项的和： $x_{t+1}-x_{t}\approx-\frac{\beta_{t}}{2}x_{t}+\sqrt{\beta_{t}}\epsilon$
在这里，使用泰勒展开得到 $\sqrt{1-\beta_t}\approx1-\frac{\beta_t}2$
先来介绍一下泰勒展开：如果 $f (x)$ 在 $x = a$ 处是可微的，则它的泰勒展开可以写为 $f(x)\approx f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\ldots$ ，其中 $f^{'} (a)$ 和 $f^{''} (a)$ 分别是 $f (x)$ 在 $a$ 处的一阶导数和二阶导数；在泰勒展开中，若函数依赖多个变量，需要对每个变量分别进行展开
$f(\beta_t)=\sqrt{1-\beta_t}$ 在 $\beta_t=0$ 处展开 $\Rightarrow$ 零阶项： $f(0)=\sqrt{1-0}=1$ ；一阶导数： $f'(\beta_t)=\frac{d}{d\beta_t}\sqrt{1-\beta_t}=\frac{-1}{2\sqrt{1-\beta_t}}$ ，在 $\beta_t=0$ 处 $f'(0)=\frac{-1}{2\sqrt{1-0}}=-\frac{1}{2}$ $\Rightarrow$ $f(\beta_t)\approx f(0)+f'(0)\beta_t$ $\Rightarrow$ $\sqrt{1-\beta_t}\approx1-\frac{1}{2}\beta_t$
引入 $\Delta t$ ： $\Delta t$ 只是在数学上引入的时间增量，而 $\beta_t$ 在离散模型中的定义是独立于 $\Delta t$ 的，将DDPM离散的加噪过程转换为连续时间的随机微分方程描述： $x_{t+\Delta t}-x_t\approx-\frac{\beta_t}{2}x_t\Delta t+\sqrt{\beta_t\Delta t}\epsilon$ $\Rightarrow$ $dx=-\frac{1}{2}\beta_tx_tdt+\sqrt{\beta_t}dw$
SDE的形式：漂移项 $f_t(x_t)=-\frac{\beta_t}2x_t$ ，扩散系数 $g_{t}=\sqrt{\beta_{t}}$
左侧是数据分布，右侧是正态分布，t是连续时间

SDE去噪

SDE去噪的目标是求 $p(x_t|x_{t+\Delta t})$
已知： $x_{t+\Delta t}$ 和前向SDE过程 $p(x_{t+\Delta t}|x_t)$ $\Rightarrow$ 贝叶斯公式： $p(x_t|x_{t+\Delta t})=\frac{p(x_{t+\Delta t}|x_t)p(x_t)}{p(x_{t+\Delta t})}$
为了简化问题，尽可能使 $p(x_t|x_{t+\Delta t})$ 的分布满足正态分布

$x_{t+\Delta t}=x_t+f_t(x_t)\Delta t+g_t\sqrt{\Delta t}\epsilon$ $\Rightarrow$ 根据重参数可得： $x_{t+\Delta t}\sim\mathcal{N}(x_t+f_t(x_t)\Delta t,g_t^2\Delta t)$
正态分布的概率密度函数： $f(x)=\frac1{\sigma\sqrt{2\pi}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
$\begin{aligned} p(x_t|x_{t+\Delta t}) &=exp(-\frac{(x_{t+\Delta t}-x_t-f_t(x_t)\Delta t)^2}{2g_t^2\Delta t}+logp(x_t)-logp(x_{t+\Delta t}))&&(1)\\ \end{aligned}$
在 $x_t$ 处泰勒展开 $logp(x_{t+\Delta t})$ ： $\log p(x_{t+\Delta t},t+\Delta t)\approx\log p(x_t,t)+\underbrace{(x_{t+\Delta t}-x_t)\nabla_x\log p(x_t,t)}_\text{状杰变化的影响}+\underbrace{\Delta t\cdot\nabla_t\log p(x_t,t)}_\text{时间推移的影响}$ ，其中状态梯度 $\nabla_{x}\log p(x_{t})$ 描述概率密度在空间中的“漂移”趋势（例如粒子倾向于从高密度区向低密度区移动），时间梯度 $\nabla_{t}\log p(x_{t})$ 描述概率密度随时间的整体衰减或增长
在这里笔者介绍一下为什么会多出一项 $\nabla_{t}\log p(x_{t})$ ： $p(x_t)$ 实际上是“ $t$ 时刻随机变量等于 $x_t$ 的概率密度”， $p(x_{t+\Delta t})$ 实际上是“ $t+\Delta t$ 时刻随机变量等于 $x_{t+\Delta t}$ 的概率密度”，即 $p(x_t)$ 实际上同时是时间 $t$ 和状态变量 $x_t$ 的函数
时间梯度项 $\nabla_{t}\log p(x_{t})$ 的必要性： $\nabla_{t}\log p(x_{t})$ 描述了概率密度的动态演化，即使状态 $x_t$ 不变，概率密度 $p(x_t)$ 也会随时间 $t$ 变化
当 $\Delta t\rightarrow 0$ 时， $\Delta^2 t=0$
$\begin{aligned} (1)=p(x_t|x_{t+\Delta t}) &=exp(-\frac{(x_{t+\Delta t}-x_t-(f_t(x_t)-g_t^2\nabla xlogp(x_t))\Delta t)^2}{2g_t^2\Delta t})\\ &=exp(-\frac{(x_t-(x_{t+\Delta t}-(f_{t}(x_t)-g_t^2\nabla xlogp(x_t))\Delta t))^2}{2g_t^2\Delta t})&&(2) \end{aligned}$
将 $x_{t+\Delta t}-x_t$ 和 $(f_t(x_t)-g_t^2\nabla xlogp(x_t))\Delta t$ 分别看作一个整体， $\frac{(x_{t+\Delta t}-x_t-(f_t(x_t)-g_t^2\nabla xlogp(x_t))\Delta t)^2}{2g_t^2\Delta t}$ 开方后可以得到和 $\frac{(x_{t+\Delta t}-x_t-f_t(x_t)\Delta t)^2}{2g_t^2\Delta t}+logp(x_t)-logp(x_{t+\Delta t})$ 相同的结果
当 $\Delta t\rightarrow 0$ 时， $t+\Delta t\rightarrow t$
$\begin{aligned} (2)=exp(-\frac{(x_t-(x_{t+\Delta t}-(f_{t+\Delta t}(x_{t+\Delta t})-g_{t+\Delta t}^2\nabla xlogp(x_{t+\Delta t}))\Delta t))^2}{2g_{t+\Delta t}^2\Delta t}) \end{aligned}$
均值 $\mu=x_{t+\Delta t}-(f_{t+\Delta t}(x_{t+\Delta t})-g_{t+\Delta t}^2\nabla xlogp(x_{t+\Delta t}))\Delta t$ 、方差 $g_{t+\Delta t}^2\Delta t$
$x_t=x_{t+\Delta t}-(f_{t+\Delta t}(x_{t+\Delta t})-g_{t+\Delta t}^2\nabla xlogp(x_{t+\Delta t}))\Delta t+g_{t+\Delta t}\sqrt{\Delta t}\epsilon$
当 $\Delta t\rightarrow 0$ 时， $\Delta t\rightarrow dt$
$x_{t+\Delta t}-x_t=(f_{t+\Delta t}(x_{t+\Delta t})-g_{t+\Delta t}^2\nabla xlogp(x_{t+\Delta t}))\Delta t+g_{t+\Delta t}\sqrt{\Delta t}\epsilon$
$\begin{aligned} dx_t=(f_{t}(x_{t})-g_{t}^2\nabla xlogp(x_{t}))dt+g_{t}\sqrt{dt}\epsilon=(f_{t}(x_{t})-g_{t}^2\nabla xlogp(x_{t}))dt+g_{t}d\bar{w} \end{aligned}$

Score Matching

Score Matching 是一种用于估计概率密度函数 $p (x)$ 的方法，核心方法是直接估计概率密度的梯度（称为score）而非密度本身
通过最小化模型估计的score与真实score之间的差异，可以简介学习数据的分布
我们先来看一下 $\nabla_{x_t}\log p(\boldsymbol{x}_t)$ 的含义：对数概率密度函数 $log p(x_{t})$ 关于 $x_t$ 的梯度方向指向概率密度增加最快的方向、梯度大小反映密度变化的速率 $\Rightarrow$ 使用一个 $\theta$ 参数化的概率分布 $p_{\theta}$ 模拟 $p$ ，通过学习参数 $\theta$ 使 $p_{\theta}$ 接近 $p$
我们可以将 $p_{\theta}$ 看成是由两部分组成的，分别是表示密度的函数 $\tilde{p_{\theta}}$ 、归一化因子 $Z_{\theta}$ $\Rightarrow$ $p_\theta(x)=\frac{\tilde{p}_\theta(x)}{Z_\theta}=\frac{\tilde{p}_\theta(x)}{\int_{x\in X}\tilde{p}_\theta(x)dx}$ ，其中未归一化的概率密度函数 $\tilde{p_{\theta}}$ 给出某个数据点 $x$ 相对于其他数据点的可能性大小，但并不能给出直接用于表示 $x$ 发生的真实概率
目前，使用极大似然估计求解 $\theta$ 的问题：不知道归一化因子 $Z_{\theta}$ 的值
解决方法：

引入得分函数（score function）：概率密度函数的梯度 $\nabla_x\log p_\theta(x)$
将 $p_{\theta}(x)$ 通过 $l o g$ 拆分成两项 $\nabla_{x}\log\tilde{p}_{\theta}(x)-\nabla_{x}\log Z_{\theta}$ $\Rightarrow$ 由于求解的是 $x$ 的梯度，所以可以直接消掉 $\nabla_{x}\log Z_{\theta}$ ，因为 $\nabla_{x}\log Z_{\theta}$ 与 $x$ 无关；同时 $\tilde{p_{\theta}}$ 不受“概率分布”的约束，可以使用神经网络作为 $\tilde{p_{\theta}}$ ，因为 $\tilde{p_{\theta}}$ 本身就不是概率密度函数， $\tilde{p_{\theta}}$ 只是密度函数
目标：选择一个loss让 $\nabla_x\log \tilde{p}_\theta(x)$ 尽可能接近 $\nabla_{\boldsymbol{x}_t}\log p(\boldsymbol{x}_t)$

新的问题：不知道数据分布的 score function $\nabla_{\boldsymbol{x}_t}\log p(\boldsymbol{x}_t)$
为了简化公式，下面公式中的 $\nabla_{\boldsymbol{x}}\log p(\boldsymbol{x})$ 等同于 $\nabla_{\boldsymbol{x}_t}\log p(\boldsymbol{x}_t)$
解决方法：Score Matching

Score Matching：用于估计概率密度函数的梯度（得分函数 $\operatorname{score}(x)=\nabla_{\boldsymbol{x}_t}\log p(\boldsymbol{x}_t)$ ），而无需知道密度函数的归一化常数
Score Matching的目标：学习一个模型 $q(x;\theta)$ ，使得模型得分函数 $\nabla_x\log q(x;\theta)$ 与真实分布 $p (x)$ 的得分函数尽可能接近
Score Matching的损失函数： $L(\theta)=\mathbb{E}_{x\sim p(x)}\left[\frac12\left\|\nabla_x\log q(x;\theta)-\nabla_x\log p(x)\right\|^2\right]$ ，其中的期望差异可以帮助模型更全面地学习到真实分布的特征

接下来，对Score Matching的损失函数 $L(\theta)=\mathbb{E}_{x\sim p(x)}\left[\frac12\left\|\nabla_x\log q(x;\theta)-\nabla_x\log p(x)\right\|^2\right]$ 进行推导：

展开欧几里得范数的平方项： $\|\nabla_x\log q(x;\theta)-\nabla_x\log p(x)\|^2=\|\nabla_x\log q(x;\theta)\|^2-2\nabla_x\log q(x;\theta)\cdot\nabla_x\log p(x)+\|\nabla_x\log p(x)\|^2$
将上式代入原始损失函数中可得 $L(\theta)=\mathbb{E}_{x\sim p(x)}\left[\frac12\left(\|\nabla_x\log q(x;\theta)\|^2-2\nabla_x\log q(x;\theta)\cdot\nabla_x\log p(x)+\|\nabla_x\log p(x)\|^2\right)\right]$
消除不可计算的项：由于不知道真实分布的 $\nabla_{\boldsymbol{x}}\log p(\boldsymbol{x})$ ，我们无法直接计算 $\|\nabla_x\log p(x)\|^2$ 和 $\nabla_x\log q(x;\theta)\cdot\nabla_x\log p(x)$

接下来，笔者给出如何消除不可计算项的过程：

由于 $\|\nabla_x\log p(x)\|^2$ 和 $\theta$ 无关，它仅仅依赖于真实数据分布 $p (x)$ ，所以可以直接消掉 $\|\nabla_x\log p(x)\|^2$
对损失函数中的项 $\nabla_{x}\log q(x;\theta)\cdot\nabla_{x}\log p(x)$ 进行分部积分 $\Rightarrow$ $\int p(x)\nabla_{\boldsymbol{x}}\log q(\boldsymbol{x};\theta)\cdot\nabla_{\boldsymbol{x}}\log p(\boldsymbol{x}) d\boldsymbol{x}=-\int p(\boldsymbol{x})\nabla_{x}^{2}\log q(\boldsymbol{x};\theta) d\boldsymbol{x}$

$\int p(x)\nabla_{\boldsymbol{x}}\log q(\boldsymbol{x};\theta)\cdot\nabla_{\boldsymbol{x}}\log p(\boldsymbol{x}) d\boldsymbol{x}=-\int p(\boldsymbol{x})\nabla_{x}^{2}\log q(\boldsymbol{x};\theta) d\boldsymbol{x}$ 的推导过程：

$\int p(\boldsymbol{x})\nabla_{x}\log q(\boldsymbol{x};\theta)\cdot\frac{\nabla_{\boldsymbol{x}}p(\boldsymbol{x})}{p(\boldsymbol{x})} d\boldsymbol{x}=\int\nabla_{x}\log q(\boldsymbol{x};\theta)\cdot\nabla_{x}p(\boldsymbol{x}) d\boldsymbol{x}$ ，其中 $\nabla_x\log p(\boldsymbol{x})=\frac{\nabla_xp(\boldsymbol{x})}{p(\boldsymbol{x})}$
分部积分： $\int udv=uv|_a^b-\int vdu$ 、 $dv=\nabla_xp(x)dx$ ， $u=\nabla_{x}\log q(\boldsymbol{x};\theta)$ $\Rightarrow$ $du=\nabla^2_xlogq(x;\theta)dx、$ $v = p (x)$
$\int\nabla_x\log q(\boldsymbol{x};\theta)\cdot\nabla_xp(\boldsymbol{x}) d\boldsymbol{x}=\nabla_{x}\log q(\boldsymbol{x};\theta)·p(x)|_{x=-\infty}^{x=\infty}-\int p(\boldsymbol{x})\nabla^2_x\log q(\boldsymbol{x};\theta) d\boldsymbol{x}$

梯度是一个向量，表示在函数在某一点处变化最快的方向和速率；散度是一个标量，表示向量场在某一点处的“扩散”程度。散度为正，表示向量场从该点扩散；散度为负，表示向量场向该点聚集
当x趋于无穷大时，概率密度通常趋于0，,所以 $\int\nabla_x\log q(\boldsymbol{x};\theta)\cdot\nabla_xp(\boldsymbol{x})d\boldsymbol{x}=-\int p(\boldsymbol{x})\nabla_x^2\log q(\boldsymbol{x};\theta)d\boldsymbol{x}$
$\begin{aligned} L(\theta) &=\mathbb{E}_{x\sim p(x)}\left[\frac12\left\|\nabla_x\log q(x;\theta)-\nabla_x\log p(x)\right\|^2\right]\\ &=\mathbb{E}_{\boldsymbol{x}\sim p(\boldsymbol{x})}\left[\frac{1}{2}\|\nabla_{\boldsymbol{x}}\log q(\boldsymbol{x};\theta)\|^2+\nabla_{\boldsymbol{x}}^2\log q(\boldsymbol{x};\theta)\right] \end{aligned}$

至此，我们可以通过损失函数 $L(\theta)$ 使 $\nabla_x\log q(x;\theta)$ 接近 $\nabla_{\boldsymbol{x}}\log p(\boldsymbol{x})$ ，进而求出SDE去噪过程中的 $d x$
笔者也是刚刚接触SDE，如果文中出现错误，请各位读者指正