论文笔记High-Resolution Image Synthesis with Latent Diffusion Models

论文提出latentdiffusionmodels(LDMs),通过预训练自编码器在隐含空间训练扩散模型,降低运算复杂度。使用cross-attention引入文本等条件,优化了普通扩散模型在像素空间的高复杂度问题。该方法适用于低资源环境,且能保持模型质量和灵活性。

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

论文提出了latent diffusion models (LDMs)。基于该模型最著名的工作是文本生成图像模型stable-diffusion

普通的扩散模型在像素空间操作,运算复杂度较高。为了保证在低资源下训练扩散模型,并保留扩散模型的质量和灵活性,该论文使用预训练的自编码器得到隐含空间,并在隐含空间中训练扩散模型。另一方面,该论文使用cross-attention机制为扩散模型引入条件,条件可以是文本、bounding box等。

方法

方法的整体结构如上图。

先用自编码器训练通用的压缩模型(红色部分),通用的压缩模型可以用来训练不同的扩散模型。

之后在自编码器的低维隐含空间上训练扩散模型(绿色部分),降低运算复杂度。

图片压缩

使用perceptual loss和patch-based adversarial objective训练一个自编码器用于图片的压缩。

x=\mathbb{R}^{H \times W \times 3}表示图片。有编码器z=\mathcal{E}(x),解码器

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值