014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

最新推荐文章于 2025-12-05 17:26:47 发布

原创

最新推荐文章于 2025-12-05 17:26:47 发布 · 3.3k 阅读

·

4

·

标签

#深度学习 #人工智能

High-Resolution Image Synthesis with Latent Diffusion Models

1. Introduction

本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)

主要做法是在VQGAN增强版做diffusion。

在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。

本文的主要贡献：

比VQGAN重建的效果更好，而且可以更有效地应用到高分辨率的生成。
LDE在不同的任务上有着比较好的表现。包括（unconditional image synthesis，inpainting，super-resolution）。而且比在像素空间的diffusion，采样的代价要更低。
相比于之前在隐空间的方法，LDE不需要对隐空间做太多的正则化，而且可以有高保真的重建效果。
可以以卷积的方式应用于多种条件生成任务。
实现了一种基于cross-attention的条件机制，可以应用于多模态的训练。

2. Method

2.1 Perceptual Image Compression

其实也就是模型的第一个阶段，将原始图像编码到隐空间，也就是一种压缩。为了避免隐空间方差过大，作者采用了两种改进的方式，第一种是加入了KL散度的约束作为正则化，类似于VAE，要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化，类似于VQGAN。

2.2 Late

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。