论文提出了latent diffusion models (LDMs)。基于该模型最著名的工作是文本生成图像模型stable-diffusion。
普通的扩散模型在像素空间操作,运算复杂度较高。为了保证在低资源下训练扩散模型,并保留扩散模型的质量和灵活性,该论文使用预训练的自编码器得到隐含空间,并在隐含空间中训练扩散模型。另一方面,该论文使用cross-attention机制为扩散模型引入条件,条件可以是文本、bounding box等。
方法
方法的整体结构如上图。
先用自编码器训练通用的压缩模型(红色部分),通用的压缩模型可以用来训练不同的扩散模型。
之后在自编码器的低维隐含空间上训练扩散模型(绿色部分),降低运算复杂度。
图片压缩
使用perceptual loss和patch-based adversarial objective训练一个自编码器用于图片的压缩。
用表示图片。有编码器
,解码器

论文提出latentdiffusionmodels(LDMs),通过预训练自编码器在隐含空间训练扩散模型,降低运算复杂度。使用cross-attention引入文本等条件,优化了普通扩散模型在像素空间的高复杂度问题。该方法适用于低资源环境,且能保持模型质量和灵活性。


5561

被折叠的 条评论
为什么被折叠?



