【DDPM】Denoising Diffusion Probabilistic Models

原创已于 2024-12-10 15:11:46 修改 · 1.4k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#AIGC

于 2024-10-10 21:22:19 首次发布

T2I 专栏收录该内容

77 篇文章

订阅专栏

梦幻动漫魔法工坊 ✨

图片生成

Diffusion

LoRA

一个可爱又梦幻的动漫图像生成工具，基于 Diffusion 模型和 LoRA 微调技术，让你的想象力变成超可爱的二次元世界！🌸

参考：生成模型】DDPM概率扩散模型（原理+代码)-CSDN博客https://blog.csdn.net/qq_45752541/article/details/127956235?spm=1001.2014.3001.5502

扩散模型之DDPM - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/563661713

摘要

我们介绍了利用扩散概率模型获得的高质量图像合成结果，扩散概率模型是一类受非平衡态热力学启发的潜在变量模型。我们的最佳结果是通过在加权变分约束上进行训练获得的，而加权变分约束是根据扩散概率模型和去噪分数匹配与朗格文动力学之间的新联系设计的。在无条件的 CIFAR10 数据集上，我们获得了 9.46 分的入门分数和 3.17 分的先进 FID 分数。在 256x256 LSUN 上，我们获得了与 ProgressiveGAN 类似的样本质量。我们的实现可在 https://github.com/hojonathanho/diffusion 上获得。

1 Introduction

最近，各种深度生成模型在多种数据模式中展示了高质量的样本。生成对抗网络（GANs）、自回归模型、流和变分自动编码器（VAEs）已经合成了引人注目的图像和音频样本[14, 27, 3, 58, 38, 25, 10, 32, 44, 57, 26, 33, 45]，基于能量的建模和分数匹配也取得了显著进展，生成的图像可与 GANs 的图像相媲美[11, 55]。

本文介绍了扩散概率模型的研究进展[53]。扩散概率模型（为简洁起见，我们称之为 "扩散模型"）是一个参数化的马尔可夫链，通过变分推理训练，在有限时间后产生与数据匹配的样本。该链的转换是为了逆转扩散过程而学习的，扩散过程是一个马尔可夫链，它以与采样相反的方向逐渐向数据添加噪声，直到信号被破坏。当扩散过程由少量高斯噪声组成时，只需将采样链的转换也设置为条件高斯即可，从而实现特别简单的神经网络参数化。

扩散模型定义简单，训练高效，但就我们所知，还没有人证明它们能够生成高质量的样本。我们的研究表明，扩散模型确实能够生成高质量的样本，有时甚至优于其他类型生成模型的公开结果（第 4 节）。此外，我们还证明了扩散模型的特定参数化揭示了在训练过程中与多种噪声水平的去噪分数匹配以及在采样过程中与退火朗格文动力学的等价性（第 3.2 节）[55, 61]。我们利用这种参数化方法获得了最好的样本质量结果（第 4.2 节），因此我们认为这种等价性是我们的主要贡献之一。

尽管样本质量很高，但与其他基于似然法的模型相比，我们的模型的对数似然值并不具有竞争力（不过，我们的模型的对数似然值确实优于退火重要性采样对基于能量的模型和分数匹配产生的大估计值[11, 55]）。我们发现，我们模型的大部分无损编码长度都被用于描述难以察觉的图像细节（第 4.3 节）。我们用有损压缩的语言对这一现象进行了更精细的分析，并表明扩散模型的采样过程是一种渐进式解码，类似于自回归解码的比特排序，极大地扩展了自回归模型通常可能实现的功能。

2 Background

扩散模型[53]是形式为 pθ(x0) :=∫pθ(x0:T) dx1:T 的潜变量模型，其中 x1, .. ., xT 是与数据 x0 ∼ q(x0) 具有相同维度的潜变量。联合分布 pθ(x0:T) 被称为反向过程，它被定义为一个马尔可夫链，具有从p(xT) = N(xT; 0, I) 开始的高斯转换：

扩散模型与其他类型潜变量模型的区别在于，近似后验 q(x1:T|x0)（称为前向过程或扩散过程）被固定为马尔可夫链，该马尔可夫链根据方差表 β1, ... , βT: 逐渐向数据添加高斯噪声βT：

训练是通过优化通常的负对数似然的变分界来完成的:

正向过程方差βt可以通过重新参数化[33]或保持常数作为超参数来学习，而反向过程的表达性部分地通过选择pθ(xt−1|xt)中的高斯条件来保证，因为当βt很小[53]时，两个过程具有相同的函数形式。正演过程的一个值得注意的性质是它允许在任意时间步长t上以封闭形式采样xt:

因此，通过随机梯度下降优化L的随机项，可以实现有效的训练。进一步的改进来自方差减少，将L(3)重写为:

(详见附录A)术语上的标签在第3节中使用。)式(5)使用KL散度直接比较pθ(xt−1|xt)与前向过程后验，当条件为x0时，后验是可处理的:

因此，Eq.(5)中的所有KL散度都是高斯分布之间的比较，因此它们可以用封闭形式表达式的rao - blackwell化方式计算，而不是高方差蒙特卡罗估计。

3 Diffusion models and denoising autoencoders

扩散模型可能看起来是一类受限制的潜在变量模型，但它们在实现中允许大量的自由度。必须选择正向过程的方差βt和反向过程的模型结构和高斯分布参数化。为了指导我们的选择，我们在扩散模型和去噪分数匹配(第3.2节)之间建立了一个新的明确的联系，从而为扩散模型提供了一个简化的、加权的变分界目标(第3.4节)。最终，我们的模型设计是通过简单性和实证结果来证明的(第4节)。我们的讨论按Eq.(5)的条款进行分类。

3.1 Forward process and LT

我们忽略了前向过程方差βt是可以通过重新参数化来学习的事实，而是将它们固定为常数(详见第4节)。因此，在我们的实现中，近似后验q没有可学习的参数，因此LT在训练过程中是一个常数，可以忽略。

3.2 Reverse process and L1:T−1

这类似于以 t 为索引的多个噪声尺度上的去噪分数匹配[55]。由于式 (12) 等于类似朗格文反向过程 (11) 的变分约束（其中一项），我们可以看到，优化类似去噪分数匹配的目标等同于使用变分推理来拟合类似朗格文动态的采样链的有限时间边际。

总而言之，我们可以训练反向过程均值函数近似器 µθ 来预测 ˜µt，或者通过修改其参数化，训练它来预测噪声。(也可以预测 x0，但我们在实验初期发现这会导致样本质量下降）。我们已经证明，噪声预测参数化既类似于朗热文动力学，又将扩散模型的变分约束简化为类似于去噪分数匹配的目标。尽管如此，它只是 pθ(xt-1|xt)的另一种参数化，因此我们在第 4 节的消融实验中验证了它的有效性，我们将预测噪声与预测 ˜µt 进行了比较。

3.3 Data scaling, reverse process decoder, and L0

我们假设图像数据由 {0, 1, ., 255} 中的整数，并线性缩放至 [-1, 1]。这确保了神经网络反向过程从标准正态先验 p(xT) 开始，对一致比例的输入进行操作。为了获得离散对数似然，我们将反向过程的最后一项设置为独立的离散解码器，该解码器源自高斯 N(x0；μθ(x1, 1)，σ2 1I)：

其中 D 是数据维度，i 上标表示提取一个坐标。(如果采用更强大的解码器，如条件自回归模型，则会更直接，但我们将其留待今后工作中使用）。与 VAE 解码器和自回归模型中使用的离散连续分布类似 [34，52]，我们在这里的选择确保了变分边界是离散数据的无损编码长度，而无需在数据中添加噪声或将缩放运算的雅各比纳入对数似然。在采样结束时，我们将无噪声地显示 µθ(x1,1)。

3.4 Simplified training objective

有了上面定义的反向过程和解码器，由公式 (12) 和 (13) 得出的项组成的变分边界显然可随 θ 的变化而变化，并可用于训练。不过，我们发现根据变分约束的以下变式进行训练有利于提高采样质量（而且实施起来更简单）：

其中 t 在 1 和 T 之间均匀分布。t = 1 的情况对应于 L0，离散解码器定义 (13) 中的积分近似于高斯概率密度函数乘以二进制宽度，忽略了 σ2 1 和边缘效应。t > 1 的情况对应于公式 (12) 的非加权版本，类似于 NCSN 去噪分数匹配模型[55]使用的损失加权。(由于前向过程方差 βt 是固定的，所以没有出现 LT）。算法 1 显示了采用这种简化目标的完整训练过程。

由于我们的简化目标（14）舍弃了公式（12）中的加权，因此它是一个加权变分约束，与标准变分约束[18, 22]相比，强调了重建的不同方面。特别是，我们在第 4 节中设置的扩散过程会导致简化目标降低对应于小 t 的损失项的权重。这些损失项会训练网络对噪声量非常小的数据进行去噪，因此降低这些损失项的权重是有益的，这样网络就能在较大 t 项时专注于更困难的去噪任务。我们将在实验中看到，这种重新加权会带来更好的样本质量。

4 Experiments

我们将所有实验中的 T = 1000 设置为采样期间所需的神经网络评估次数与之前的工作相匹配 [53, 55]。我们将前向过程方差设置为常数，从 β1 = 10-4 到 βT = 0.02 线性递增。我们选择的这些常数相对于[-1, 1]比例的数据要小，以确保反向过程和正向过程具有近似相同的函数形式，同时保持 xT 处尽可能小的信噪比（在我们的实验中，LT = DKL(q(xT|x0) || N(0, I)) ≈ 10-5 比特/维）。

为了表示反向过程，我们使用了一个 U-Net 骨干网，类似于未屏蔽的 PixelCNN++ [52, 48]，并在整个过程中进行了组归一化 [66]。参数跨时间共享，使用 Transformer 正弦位置嵌入[60]对网络进行指定。我们在 16 × 16 的特征图分辨率下使用自注意[63, 60]。详情见附录 B。

4.1 Sample quality

表 1 显示了 CIFAR10 的起始分数、FID 分数和负对数似然值（无损编码长度）。我们的 FID 得分为 3.17，与文献中的大多数模型（包括类条件模型）相比，我们的无条件模型达到了更好的样本质量。按照标准做法，我们的 FID 分数是针对训练集计算的；当我们针对测试集计算时，分数为 5.24，仍然优于许多文献中的训练集 FID 分数。

我们发现，在真实变分边界上训练模型比在简化目标上训练模型能得到更好的编码长度，这是意料之中的，但后者能得到最好的样本质量。CIFAR10 和 CelebA-HQ 256 × 256 样本见图 1，LSUN 256 × 256 样本见图 3 和图 4 [71]，更多信息见附录 D。

4.2 Reverse process parameterization and training objective ablation

表 2 显示了反向过程参数化和训练目标（第 3.2 节）对样本质量的影响。我们发现，预测 ˜µ 的基线方案只有在以真实变分边界而不是非加权均方误差（类似于公式 (14) 的简化目标）为基础进行训练时效果才好。我们还发现，学习反向过程方差（将参数化对角线 Σθ(xt)纳入变分边界）会导致训练不稳定，与固定方差相比，样本质量更差。在使用固定方差的变分约束进行训练时，我们提出的预测  与预测 ˜µ 的效果大致相同，但在使用我们的简化目标进行训练时，预测 ˜µ 的效果要好得多。

4.3 Progressive coding

表 1 还显示了我们的 CIFAR10 模型的编码长度。训练和测试之间的差距在每个维度上最多只有 0.03 比特，这与其他基于似然法的模型所报告的差距相当，表明我们的扩散模型没有过度拟合（近邻可视化见附录 D）。尽管我们的无损编码长度比基于能量的模型和使用退火重要度采样的分数匹配的大估计值要好[11]，但与其他类型的基于似然的生成模型[7]相比，它们并不具有竞争力。

由于我们的样本质量很高，因此我们得出结论：扩散模型具有归纳偏差，使其成为出色的有损压缩器。将变分约束项 L1+- - -+LT 视为速率，将 L0 视为失真，我们的 CIFAR10 模型具有最高质量的样本，其速率为 1.78 bits/dim，失真为 1.97 bits/dim，在 0 到 255 的范围内，均方根误差为 0.95。无损编码长度的一半以上描述了难以察觉的失真。

Progressive lossy compression 我们可以通过引入反映式 (5) 形式的渐进式有损编码，进一步探究我们模型的速率失真行为：请参阅算法 3 和 4，它们假定可以使用最小随机编码 [19, 20] 等程序，对于接收方事先只知道 p 的任意分布 p 和 q，平均使用大约 DKL(q(x)  p(x))比特传输样本 x ∼ q(x)。当应用于 x0 ∼ q(x0) 时，算法 3 和 4 依次传输 xT, ., x0 的总预期编码长度等于公式 (5)。在任何时间 t，都能完全获得部分信息 xt，并能逐步做出估计：

由于公式 (4)。(随机重构 x0 ∼ pθ(x0|xt) 也是有效的，但我们在此不考虑它，因为它使失真更难评估）。图 5 显示了 CIFAR10 测试集上的额定失真图。在每个时间 t，失真计算为均方根误差，速率计算为时间 t 到目前为止接收到的累计比特数。在速率-失真图的低速率区域，失真急剧下降，表明大部分比特确实分配给了不易察觉的失真。

Progressive generation 我们还运行一个渐进式无条件生成过程，该过程由随机比特的渐进式解压缩给出。换句话说，我们在使用算法 2 从反向过程采样的同时，预测反向过程的结果 ˆx0。图 6 和图 10 显示了ˆx0 在反向过程中的采样质量。大比例图像特征最先出现，细节最后出现。图 7 显示了在不同 t 条件下，xt 被冻结的随机预测 x0 ∼ pθ(x0|xt)。也许这就是概念压缩的暗示[18]。

Connection to autoregressive decoding 请注意，变分约束 (5) 可以重写为

(推导过程见附录 A）现在考虑将扩散过程长度 T 设为数据的维度，定义前向过程 q(xt|x0) 将所有概率质量放在 x0 上，并屏蔽掉前 t 个坐标（即 q(xt|xt-1) 屏蔽掉第 t 个坐标），将 p(xT) 设为将所有质量放在空白图像上，为了便于论证，将 pθ(xt-1|xt) 作为完全表达式条件分布。有了这些选择，DKL(q(xT) || p(xT)) = 0，最小化 DKL(q(xt-1|xt) || pθ(xt-1|xt)) 训练 pθ 复制坐标 t + 1, . . .T 不变，并预测给定 t + 1, . .因此，用这种特殊的扩散训练 pθ 就是训练一个自回归模型。

因此，我们可以将高斯扩散模型 (2) 解释为一种具有广义位排序的自回归模型，而这种位排序无法通过对数据坐标重新排序来表达。先前的研究表明，这种重新排序会带来对样本质量有影响的归纳偏差[38]，因此我们推测高斯扩散也有类似的作用，而且效果可能更好，因为与遮蔽噪声相比，高斯噪声可能更自然地添加到图像中。此外，高斯扩散的长度并不局限于等于数据维度；例如，我们使用的 T = 1000，小于我们实验中 32 × 32 × 3 或 256 × 256 × 3 图像的维度。为了快速采样，高斯扩散可以做得更短，为了提高模型表现力，高斯扩散也可以做得更长。

4.4 Interpolation 插补

5 Related Work

扩散模型可能类似于流动模型 [9, 46, 10, 32, 5, 16, 23] 和 VAE [33, 47, 37]，但扩散模型的设计使得 q 没有参数，顶层潜变量 xT 与数据 x0 的互信息几乎为零。我们的预测反向过程参数化建立了扩散模型与去噪分数匹配之间的联系，多噪声级的去噪分数匹配采用退火朗格文动态采样[55, 56]。然而，扩散模型允许直接的对数似然评估，而且训练过程明确地使用变异推理来训练朗格文动态采样器（详见附录 C）。这种联系还有一个反向含义，即某种加权形式的去噪分数匹配与变分推理训练类似朗格文的采样器是一样的。学习马尔可夫链过渡算子的其他方法包括注入训练 [2]、变异回走 [15]、生成随机网络 [1] 等 [50、54、36、42、35、65]。

根据已知的分数匹配与基于能量的建模之间的联系，我们的工作可能会对近期其他基于能量模型的工作产生影响[67-69, 12, 70, 13, 11, 41, 17, 8]。我们的速率失真曲线是在变分约束的一次评估中随着时间的推移计算出来的，这让人联想到退火重要度采样[24]的一次运行中如何计算失真惩罚的速率失真曲线。我们的渐进解码论证可以在卷积 DRAW 和相关模型中看到[18, 40]，也可能导致自回归模型的子尺度排序或抽样策略的更一般设计[38, 64]。

6 Conclusion

我们利用扩散模型展示了高质量的图像样本，并发现了扩散模型与马尔可夫链训练的变分推理、去噪分数匹配和退火朗格文动力学（以及基于能量的扩展模型）、自回归模型和渐进有损压缩之间的联系。由于扩散模型似乎对图像数据具有极佳的归纳偏差，我们期待着研究它们在其他数据模式中的实用性，以及作为其他类型生成模型和机器学习系统的组成部分。

Broader Impact

我们在扩散模型方面的工作与其他类型的深度生成模型方面的现有工作范围相似，例如为提高 GANs、流、自回归模型等的样本质量所做的努力。我们的论文代表了在使扩散模型成为这一系列技术中普遍有用的工具方面所取得的进展，因此它可能有助于扩大生成模型已经（和将要）对更广泛的世界产生的影响。

不幸的是，生成模型被恶意使用的情况比比皆是。出于政治目的，样本生成技术可用于制作高知名度人物的虚假图像和视频。虽然早在软件工具出现之前，伪造图像就已经是人工制作的了，但像我们这样的生成模型却让这一过程变得更加容易。幸运的是，CNN 生成的图像目前存在一些微妙的缺陷，可以进行检测[62]，但生成模型的改进可能会增加检测难度。生成模型也会反映出训练数据集的偏差。由于许多大型数据集都是由自动化系统从互联网上收集的，因此很难消除这些偏差，尤其是在图像没有标记的情况下。如果在这些数据集上训练出来的生成模型样本在互联网上泛滥，那么这些偏差只会进一步加强。

另一方面，扩散模型可能有助于数据压缩，而随着数据分辨率的提高和全球互联网流量的增加，数据压缩对于确保广大受众能够访问互联网至关重要。我们的工作可能有助于在无标记的原始数据上进行表征学习，以完成从图像分类到强化学习等大量下游任务。

Extra information

Progressive compression 我们在第 4.3 节中提出的有损压缩论证只是一个概念证明，因为算法 3 和 4 依赖于最小随机编码[20]等程序，而这种程序对于高维数据来说并不可行。这些算法是对 Sohl-Dickstein 等人[53]的变分约束 (5) 的压缩解释，还不能作为实用的压缩系统。

A Extended derivations

下面是公式(5)的推导，即扩散模型的减方差变分约束。这些材料来自 Sohl-Dickstein 等人的论文[53]；我们在此引用只是为了完整。

下面是 L 的另一个版本，虽然难以估计，但对我们在第 4.3 节中的讨论很有用。

B Experimental details

我们的神经网络架构沿用了 PixelCNN++ [52] 的骨架，它是基于 Wide ResNet [72] 的 U-Net [48]。我们用组归一化 [66] 取代了权重归一化 [49]，使实现更简单。我们的 32 × 32 模型使用四种特征图分辨率（32 × 32 到 4 × 4），256 × 256 模型使用六种分辨率。所有模型的每个分辨率级别都有两个卷积残差块，卷积块之间的 16 × 16 分辨率有自注意块[6]。扩散时间 t 是通过在每个残差块中添加 Transformer 正弦位置嵌入[60]来指定的。我们的 CIFAR10 模型有 3570 万个参数，LSUN 和 CelebA-HQ 模型有 1.14 亿个参数。我们还通过增加滤波器数量，训练了 LSUN Bedroom 模型的更大变体，拥有约 2.56 亿个参数。

我们在所有实验中都使用了 TPU v3-8（类似于 8 个 V100 GPU）。我们的 CIFAR 模型在批量大小为 128 的情况下以每秒 21 步的速度进行训练（80 万步的训练完成时间为 10.6 小时），对一批 256 幅图像进行采样需要 17 秒。我们的 CelebA-HQ/LSUN (2562) 模型在批量大小为 64 时的训练速度为每秒 2.2 步，对 128 幅图像进行取样需要 300 秒。我们对 CelebA-HQ 进行了 50 万步的训练，对 LSUN Bedroom 进行了 240 万步的训练，对 LSUN Cat 进行了 180 万步的训练，对 LSUN Church 进行了 120 万步的训练。较大的 LSUN 卧室模型训练了 115 万步。

除了在初期选择超参数使网络规模符合内存限制外，我们进行了大部分超参数搜索，以优化 CIFAR10 的样本质量，然后将结果设置转移到其他数据集：

我们从一组常数、线性和二次曲线计划中选择了 βt 计划，所有计划都受 LT ≈ 0 的限制。我们设置 T = 1000，不进行扫频，并选择从 β1 = 10-4 到 βT = 0.02 的线性时间表。
我们通过扫描值{0.1, 0.2, 0.3, 0.4}将 CIFAR10 的dropout rate设为 0.1。如果不对 CIFAR10 进行滤除，我们就会得到较差的样本，让人联想到非正则化 PixelCNN++ 中的过拟合假象[52]。我们将其他数据集上的丢失率设为零，而没有进行扫描。
我们在 CIFAR10 的训练过程中使用了随机水平翻转；我们尝试了有翻转和无翻转的训练，发现翻转能略微改善样本质量。我们还对除 LSUN Bedroom 之外的所有其他数据集使用了随机水平翻转。
在实验初期，我们尝试了 Adam [31] 和 RMSProp，并选择了前者。我们保留了超参数的标准值。我们将学习率设定为 2 × 10-4，没有做任何调整，对于 256 × 256 图像，我们将学习率降至 2 × 10-5，因为使用较大的学习率进行训练似乎并不稳定。
我们将 CIFAR10 的批量大小设置为 128，较大图像的批量大小设置为 64。我们没有对这些值进行扫描。
我们使用衰减系数为 0.9999 的模型参数 EMA。我们没有对该值进行扫描。

最终实验训练一次，并在整个训练过程中对样本质量进行评估。样本质量得分和对数似然值根据训练过程中的最小 FID 值进行报告。在 CIFAR10 上，我们使用 OpenAI [51] 和 TTUR [21] 软件库中的原始代码分别计算了 50000 个样本的初始值和 FID 分数。在 LSUN 上，我们使用 StyleGAN2 [30] 软件库中的代码计算了 50000 个样本的 FID 分数。CIFAR10 和 CelebA-HQ 由 TensorFlow Datasets (https://www.tensorflow.org/datasets) 提供加载，LSUN 则使用 StyleGAN 的代码准备。数据集拆分（或不拆分）是在生成建模背景下介绍其用法的论文中的标准数据集拆分。所有详细信息请参见源代码版本。

C Discussion on related work

我们的模型架构、前向过程定义和先验与 NCSN [55, 56]有细微但重要的不同，这些都提高了样本质量，值得注意的是，我们直接将采样器作为潜在变量模型进行训练，而不是在事后训练中添加。更详细的内容：

我们使用的是具有自注意功能的 U-Net；NCSN 使用的是具有扩张卷积功能的 RefineNet。我们通过在变换器中添加正弦位置嵌入，而不是仅在归一化层（NCSNv1）或仅在输出层（v2）中添加正弦位置嵌入，来对所有层的 t 进行调节。
扩散模型在每个正向处理步骤中都会缩减数据（使用 √ 1 - βt 因子），这样在添加噪声时方差就不会增长，从而为神经网络反向处理提供一致的缩放输入。NCSN 省略了这一缩放因子。
与 NCSN 不同，我们的前向过程会破坏信号（DKL(q(xT|x0)  N(0, I)) ≈ 0），确保 xT 的先验值和总后验值紧密匹配。此外，与 NCSN 不同的是，我们的 βt 非常小，这就确保了前向过程可以通过具有条件高斯的马尔可夫链逆转。这两个因素都能防止采样时的分布偏移。
我们的类朗格文采样器的系数（学习率、噪声尺度等）严格来自前向过程中的βt。因此，我们的训练程序可以直接训练采样器，使其与 T 步之后的数据分布相匹配：它将采样器训练成一个使用变异推理的潜变量模型。相比之下，NCSN 的采样器系数是人工事后设置的，他们的训练程序不能保证直接优化采样器的质量指标。

D Samples

Additional samples 图 11、13、16、17、18 和 19 显示了在 CelebA-HQ、CIFAR10 和 LSUN 数据集上训练的扩散模型的未校准样本。

Latent structure and reverse process stochasticity 在采样过程中，先验 xT ∼ N(0, I) 和朗格文动态都是随机的。为了了解第二个噪声源的重要性，我们对 CelebA 256 × 256 数据集的多个图像进行了采样，条件是相同的中间潜像。图 7 显示了反向过程 x0 ∼ pθ(x0|xt) 的多次抽样，这些抽样共享 t∈{1000, 750, 500, 250} 时的潜变量 xt。为此，我们从先验的初始抽取开始运行单个反向链。在中间时间步，反向链被拆分，以对多个图像进行采样。当在 xT=1000 时进行先验绘制后拆分反向链时，采样结果差异很大。但是，如果在更多步骤后对链进行拆分，样本会共享性别、发色、眼镜、饱和度、姿势和面部表情等高级属性。这表明，尽管 x750 等中间潜变量不易察觉，但它们编码了这些属性。

Coarse-to-fine interpolation

图 9 显示了一对源 CelebA 256 × 256 图像之间的插值情况，我们改变了潜空间插值前的扩散步数。增加扩散步数会破坏源图像中更多的结构，而模型会在反向过程中完成这些结构。这样，我们就可以同时进行细粒度和粗粒度插值。在扩散步数为 0 的极限情况下，插值会在像素空间中混合源图像。另一方面，在 1000 个扩散步长之后，源信息就会丢失，插值就是新的样本。