2024NIPS-runner up-Guiding a Diffusion Model with a Bad Version of Itself

文章核心内容与创新点总结

一、主要内容

本文聚焦图像生成扩散模型的关键优化方向——图像质量、结果多样性及条件对齐(如类别标签、文本提示匹配),针对主流的无分类器引导(CFG)方法存在的“质量提升与多样性损失纠缠”“仅适用于条件生成”“易导致图像构图简化”等问题,提出了一种名为“自引导(autoguidance)”的新方法。

文章首先分析了CFG的工作机制与缺陷:CFG通过条件模型与无条件模型的差异实现引导,虽能提升质量和条件对齐度,但因两类模型任务差异导致采样轨迹失真,且无法分离质量与多样性的控制。随后,本文提出核心思路:使用主模型的“劣化版本”(通过限制模型容量、缩短训练时间等方式获得)而非无条件模型作为引导模型,保持条件输入不变,从而在不损失多样性的前提下独立优化图像质量。

通过在ImageNet-512和ImageNet-64数据集上的实验,验证了自引导方法的有效性:在64×64分辨率上实现1.01的FID分数,512×512分辨率上实现1.25的FID分数,均刷新当时纪录;同时该方法可应用于无条件扩散模型,大幅改善其生成质量(如EDM2-S无条件模型FID从11.67降至3.86)。此外,在DeepFloyd IF等大规模图像生成器上的实验表明,自引导方法能在提升质量的同时,更好地保留图像的风格和视觉复杂性。

二、创新点

  1. 分离质量与多样性控制:突破CFG中质量提升与多样性损失的固有纠缠,通过主模型的劣化版本引导生成,实现“高质量”与“高多样性”的同时兼顾。
  2. 普适性更强
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值