DDPM: Denoising Diffusion Probabilistic Models的白话总结

原创

已于 2024-06-03 17:27:03 修改 · 3.2k 阅读

标签

#人工智能 #Imagen #stable diffusion

于 2024-01-15 22:41:23 首次发布

本文介绍了扩散模型DDPM在图像生成中的应用，通过逐步加噪声的方式模拟扩散过程，并利用反向过程通过神经网络预测噪声，实现从随机噪声到原始图像的生成。文中详细解释了贝叶斯公式在反向过程中的作用以及如何通过噪声预测前一时刻的图像。

目前所采用的扩散模型大都是来自于2020年的工作DDPM: Denoising Diffusion Probabilistic Models。本文主要是对b站视频大白话AI | 图像生成模型DDPM 的记录和总结。该视频是目前见到的对DDPM讲述最为浅显易懂的，首先表达对视频作者的敬意，推荐看原视频，本文的讲述略去了一些比较常识性的东西，原视频非常值得看，会有很多收获。故记录总结之。
对深入的知识进行本质的理解，并以形象、浅显、易懂的形式呈现出来，是毕生之追求。目前能力尚浅，有幸看到很多大神已经做出了很多漂亮的工作。所以先做好转呈记录。

1 正文开始

1.1 扩散模型

扩散过程：物质粒子从高浓度区域向低浓度区域移动的过程。
在这里插入图片描述
扩散模型受其启发，通过逐步向图像中加入高斯噪声来模拟这种现像。并通过逆向过程从（随机）噪声中生成图片。

1.2 前向加噪

首先将图片各通道的像素强度归一化到【-1，1】之间，然后随机采样生成一张同样大小的噪声图片。
在这里插入图片描述
噪声图片中所有通道像素遵从标准正态分布。将高斯噪声图片与同尺寸图片进行混合。相同位置像素使用公式
$\sqrt \beta \times \epsilon + \sqrt {1-\beta} \times x \tag{1}$
进行混合，其中 $\epsilon$ 是噪声， $x$ 是图片。 $\beta$ 是0-1之间的数。注意系数的平方和等于 1.
在这里插入图片描述

通过对图像加噪(公式（1）)来模拟扩散过程。
在这里插入图片描述
这样就有了一个递推公式：
$x_t = \sqrt {\beta_t} \times \epsilon_t + \sqrt {1-\beta_t} \times x_{t-1} \tag{2}$
其中的 $\epsilon_t \sim N(0,1)$ ，也就是噪声图像都是基于标准正太分布随机采样的随机数。而且每一步中的 $\beta$ 并不相同。
$0<\beta_1<\beta_2<...<\beta_t<.....<\beta_t<1$
$\beta$ 越来越大，扩散速度越来越快。