DDPM: Denoising Diffusion Probabilistic Models的白话总结

本文介绍了扩散模型DDPM在图像生成中的应用,通过逐步加噪声的方式模拟扩散过程,并利用反向过程通过神经网络预测噪声,实现从随机噪声到原始图像的生成。文中详细解释了贝叶斯公式在反向过程中的作用以及如何通过噪声预测前一时刻的图像。

目前所采用的扩散模型大都是来自于2020年的工作DDPM: Denoising Diffusion Probabilistic Models。本文主要是对b站视频大白话AI | 图像生成模型DDPM 的记录和总结。该视频是目前见到的对DDPM讲述最为浅显易懂的,首先表达对视频作者的敬意,推荐看原视频,本文的讲述略去了一些比较常识性的东西,原视频非常值得看,会有很多收获。故记录总结之。
对深入的知识进行本质的理解,并以形象、浅显、易懂的形式呈现出来,是毕生之追求。目前能力尚浅,有幸看到很多大神已经做出了很多漂亮的工作。所以先做好转呈记录。

1 正文开始

1.1 扩散模型

扩散过程:物质粒子从高浓度区域向低浓度区域移动的过程。
在这里插入图片描述
扩散模型受其启发,通过逐步向图像中加入高斯噪声来模拟这种现像。并通过逆向过程从(随机)噪声中生成图片。
在这里插入图片描述

1.2 前向加噪

首先将图片各通道的像素强度归一化到【-1,1】之间,然后随机采样生成一张同样大小的噪声图片。
在这里插入图片描述
噪声图片中所有通道像素遵从标准正态分布。将高斯噪声图片与同尺寸图片进行混合。相同位置像素使用公式
β × ϵ + 1 − β × x (1) \sqrt \beta \times \epsilon + \sqrt {1-\beta} \times x \tag{1} β ×ϵ+1β ×x(1)
进行混合,其中 ϵ \epsilon ϵ是噪声, x x x是图片。 β \beta β是0-1之间的数。注意系数的平方和等于 1.
在这里插入图片描述

通过对图像加噪(公式(1))来模拟扩散过程。
在这里插入图片描述
这样就有了一个递推公式:
x t = β t × ϵ t + 1 − β t × x t − 1 (2) x_t = \sqrt {\beta_t} \times \epsilon_t + \sqrt {1-\beta_t} \times x_{t-1} \tag{2} xt=βt ×ϵt+1βt ×xt1(2)
其中的 ϵ t ∼ N ( 0 , 1 ) \epsilon_t \sim N(0,1) ϵtN(0,1),也就是噪声图像都是基于标准正太分布随机采样的随机数。而且每一步中的 β \beta β并不相同。
0 < β 1 < β 2 < . . . < β t < . . . . . < β t < 1 0<\beta_1<\beta_2<...<\beta_t<.....<\beta_t<1 0<β1<β2<...<βt<.....<βt<1
β \beta β越来越大,扩散速度越来越快。

为了方便后面的推导,定义: α t = 1 − β t \alpha_t=1-\beta_t αt=1βt,这样(2)式就变成:
x t = 1 − α t × ϵ t + α t × x t − 1 (3) x_t = \sqrt {1-\alpha_t} \times \epsilon_t + \sqrt {\alpha_t} \times x_{t-1} \tag{3} xt=1αt ×ϵt+

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值