2024NIPS-runner up-Guiding a Diffusion Model with a Bad Version of Itself

最新推荐文章于 2026-06-22 19:59:26 发布

原创最新推荐文章于 2026-06-22 19:59:26 发布 · 134 阅读

·

3

·

标签

#计算机视觉 #人工智能 #机器学习

LLM Daily 同时被 2 个专栏收录

2852 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

35 篇文章

订阅专栏

文章核心内容与创新点总结

一、主要内容

本文聚焦图像生成扩散模型的关键优化方向——图像质量、结果多样性及条件对齐（如类别标签、文本提示匹配），针对主流的无分类器引导（CFG）方法存在的“质量提升与多样性损失纠缠”“仅适用于条件生成”“易导致图像构图简化”等问题，提出了一种名为“自引导（autoguidance）”的新方法。

文章首先分析了CFG的工作机制与缺陷：CFG通过条件模型与无条件模型的差异实现引导，虽能提升质量和条件对齐度，但因两类模型任务差异导致采样轨迹失真，且无法分离质量与多样性的控制。随后，本文提出核心思路：使用主模型的“劣化版本”（通过限制模型容量、缩短训练时间等方式获得）而非无条件模型作为引导模型，保持条件输入不变，从而在不损失多样性的前提下独立优化图像质量。

通过在ImageNet-512和ImageNet-64数据集上的实验，验证了自引导方法的有效性：在64×64分辨率上实现1.01的FID分数，512×512分辨率上实现1.25的FID分数，均刷新当时纪录；同时该方法可应用于无条件扩散模型，大幅改善其生成质量（如EDM2-S无条件模型FID从11.67降至3.86）。此外，在DeepFloyd IF等大规模图像生成器上的实验表明，自引导方法能在提升质量的同时，更好地保留图像的风格和视觉复杂性。

二、创新点

分离质量与多样性控制：突破CFG中质量提升与多样性损失的固有纠缠，通过主模型的劣化版本引导生成，实现“高质量”与“高多样性”的同时兼顾。
普适性更强

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。