【超分辨率专题】HYPIR：扩散模型先验与 GAN 对抗训练相结合的新型图像复原框架

原创已于 2025-11-12 23:25:35 修改 · 1.8k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#生成对抗网络 #人工智能 #扩散模型 #图像复原

于 2025-11-12 21:51:48 首次发布

超分辨率专栏收录该内容

9 篇文章

订阅专栏

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

「The Leather Archive」是一个基于 Anything V5 与 Stable Yogi 皮衣系列 LoRA 构建的高端 AI 穿搭实验室。与传统的工具化界面不同，本项目采用了非对称剪贴报布局 (Asymmetrical Zine Layout)，旨在为 AI 绘画提供一种如时尚杂志内页般的沉浸式创作体验。

在这里插入图片描述

本文将对《Harnessing diffusion-Yielded Score Prior for Image Restoration》这篇文章进行解读，该文提出了一种新的图像修复框架，其核心思想是“用预训练扩散模型初始化，再用对抗训练微调”。出自超分领域有名的团队，XPixelGroup。参考资料如下：
参考资料如下：
[1]. 论文地址
[2]. 代码地址

专题介绍

现在是数字化时代，图像与视频早已成为信息传递的关键载体。超分辨率（super resolution，SR）技术能够突破数据源的信息瓶颈，挖掘并增强低分辨率图像与视频的潜能，重塑更高品质的视觉内容，是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程，方案也从最早的邻域插值迭代至现今的深度学习SR，但无论是经典算法还是AI算法，都在视觉应用领域内发挥着重要作用。

本专题旨在跟进和解读超分辨率技术的发展趋势，为读者分享有价值的超分辨率方法，欢迎一起探讨交流。

系列文章如下：
【1】SR+Codec Benchmark
【2】OSEDiff
【3】PiSA
【4】DLoRAL
【5】DOVE

一、研究背景

在图像复原\超分领域，其本质是从退化图像分布映射回自然图像分布，这需要同时解决 “去退化、生细节、保一致” 三大问题，而这也是长期存在一个 “不可能三角”，鱼与熊掌难以兼得。现有的方法可分为三类：

MSE 类方法：依赖像素级损失，虽能保证结构一致性（如 PSNR/SSIM 指标优秀），但生成结果过度平滑，缺乏真实纹理细节；
GAN 类方法：通过对抗训练贴近人类视觉感知，但训练不稳定、易发生模式崩溃，难以覆盖丰富的自然图像分布；
扩散类方法：借助大规模预训练模型实现高逼真度生成，但多步迭代采样导致训练慢、推理耗时，即便经过蒸馏压缩，仍难以兼顾效率与效果。

在这里插入图片描述

为打破这一僵局，HYPIR 提出了一个看似简单却极具创新性的思路：用预训练扩散模型做初始化，用 GAN 对抗训练做适配，既继承扩散模型的强生成先验，又保证了一步推理的快速性。同时，还支持文本引导修复和可调节的纹理丰富度。
在这里插入图片描述

上图中看整体清晰度和纹理表现还是不错的。不过，个人感觉脸部区域的边缘勾勒感较重，类似强锐化的效果。

其实方法很简洁，为何能有效呢？作者提出了两个关键洞察点，也是作者后续花大篇幅去论证的点。

图像复原相当于估计退化图像的得分，即退化图像对数密度的梯度，它沿着最快速的路线回到自然图像分布。而预训练好的扩散模型内化的先验已经与理想的复原算法非常匹配。
用预训练权重初始化，能够使模型对抗梯度保持较小且数值稳定，避免了训练崩溃，并促使模型更快收敛到高保真结果。

先前工作仍局限于采样过程和蒸馏方案。且普遍认为扩散优于GANs，单纯的对抗训练难有突破。而该论文给出了一个反直觉的结论是：在足够好的初始化下，GAN目标在收敛速度、训练稳定性、输出保真度和推理有效性方面优于扩散目标。

二、方法细节

2.1 方案概述

HYPIR 的 pipeline 简洁高效，核心分为三步（如图 3 所示）：

在这里插入图片描述

步骤 1：扩散模型初始化，选用预训练的扩散模型（如 SD2、SDXL、Flux）作为基础，直接继承其编码器（Encoder）和解码器（Decoder）结构与参数。扩散模型在训练中已学习到自然图像的 “分数先验”（score prior），本质上是掌握了从含噪图像回归清晰图像的梯度方向。

步骤 2：退化预去除编码器微调，也就是单独微调编码器，使其具备 “退化预去除” 能力 —— 将退化图像映射到 latent 空间时，先初步消除模糊、噪声等退化，相当于减少latent空间的模式干扰，让后续恢复任务更简单。其损失约束如下，

$\mathcal{L}_E = \left\| \mathcal{V}_D\left(\mathcal{V}_{ER}(l_{\text{deg}})\right) - \mathcal{V}_D\left(\mathcal{V}_{ER}(l_{\text{GT}})\right) \right\|_2^2$

其中 $\mathcal{V}_D$ 是固定的解码器， $\mathcal{V}_{ER}$ 是微调的编码器， $l_{\text{deg}}$ ， $l_{\text{GT}}$ 是退化图像和GT图像。

步骤 3：对抗训练适配复原任务，用微调后的编码器和预训练解码器初始化恢复网络，仅对核心的 “恢复模块” 进行对抗训练。通过 LoRA 微调方式，结合 MSE 损失（提升保真度）、LPIPS 感知损失（提升感知度）和对抗损失（提升真实性），快速收敛到最优状态。

整个过程不依赖扩散损失、迭代采样或额外控制适配器，训练和推理均为单步流程。

这里原文中还有个小错误，第三章第一段，应该缺个表格？

2.2 深层解析

这部分作者想表达，HYPIR 的创新并非工程层面的简单拼接，而是有坚实的数学理论支撑。围绕了两个点展开探讨。

为什么预训练扩散模型天生就适合图像复原
为什么预训练扩散模型作为初始化能改善GAN范式训练。

📝问题一：扩散模型的学习目标与图像复原的目标是高度相似的

扩散模型通过 “前向加噪 - 反向去噪” 过程学习自然图像分布，其核心是对分数函数（Score Function）的估计 —— 即图像分布对数概率的梯度，这恰好与图像恢复的目标高度一致。

前向扩散过程：将清晰图像 $x_0 \sim p_{\text{data}}(x_0)$ 逐步加入噪声，生成含噪图像 $x_t$ ，数学上通过随机微分方程（SDE）描述： $dx_t = -\frac{\beta(t)}{2}x_t dt + \sqrt{\beta(t)} dw$

其中 $\in [0,T]$ 为时间步， $\beta(t)$ 为noise schedule， $w$ 为标准布朗运动。当 $t = T$ 时， $x_T$ 近似纯噪声，完成 “从清晰到混乱” 的映射。
反向去噪过程：学习一个神经网络 $s_\theta(x_t, t) \approx \nabla_{x_t}\log(p_{data} * k_{\sigma(t)})(x_t)$ （即分数函数），通过反向 SDE 将含噪图像恢复为清晰图像： $dx_t = \left[-\frac{\beta(t)}{2}x_t - \beta(t)\nabla_{x_t}\log p_t(x_t)\right] dt + \sqrt{\beta(t)} d\bar{w}$
其中 $d\bar{w}$ 为反向时间的布朗运动， $p_t(x_t)$ 为 $x_t$ 的分布。

对于图像恢复任务，给定退化图像 $y$ ，目标是采样 $x_0 \sim p(x_0|y)$ （即从退化图像的后验分布中恢复清晰图像）。传统扩散方法需引入后验 SDE 并计算复杂的似然项 $\nabla_{x_t}\log p_t(y|x_t)$ ，而 HYPIR 提出简化近似：直接丢弃该似然项，利用预训练扩散模型的分数先验，通过 “中间时间注入观测值 + 无条件反向扩散” 实现一步恢复，

数学表达式为： $\hat{x_0} = \frac{1}{\sqrt{\bar{\alpha}(t)}}\left(x_t + (1-\bar{\alpha}(t))\mathcal{S}_\theta(x_t, t)\right) \triangleq \mathcal{R}_\theta(x_t)$

其中 $\bar{\alpha}(t)$ 为累积噪声系数， $\mathcal{R}_\theta$ 即 HYPIR 的初始恢复模型，与扩散模型的分数函数网络 $\mathcal{S}_\theta$ 共享结构。这一简化既保留了扩散模型的强生成能力，又避免了多步迭代的效率问题。

📝问题二：扩散初始化的理论优势：为何能拯救 GAN？

HYPIR 的关键突破在于证明了 “扩散模型初始化能让恢复网络分布极接近自然图像分布”，这一结论通过定理 4.1（Diffusion-to-Restoration Proximity，原文附件有证明过程）定量验证：

假设预训练扩散模型 $u_{\theta_{Diff}}$ 的分数误差被 $\varepsilon_{SC}$ 约束，退化核 $k_{deg}$ 与扩散噪声核 $k_\sigma$ 的差异 $\Delta_k = \|k_{deg}-k_\sigma\|_1 \ll 1$ ，则扩散初始化后的恢复模型分布 $p_{\theta_{Diff}} = \mathcal{R}_{\theta_{Diff}} \sharp p_y$ （ $p_y$ 为退化图像的 latent 分布）与自然图像分布 $p_{data}$ 的 Wasserstein-2距离距离满足： $W_2(p_{\theta_{Diff}}, p_{data}) \leq C_1\varepsilon_{SC} + C_2\Delta_k =: \epsilon_0$

其中 $C_1、C_2$ 仅依赖于网络的 Lipschitz 常数和图像维度。这一不等式表明，扩散初始化后的模型已处于 “接近自然图像分布” 的区域，为后续对抗训练奠定了优质基础。基于该定理，可推导出三大核心推论，直接解决 GAN 训练的痛点：

推论 1：初始梯度小，GAN 的生成器梯度与 $W_2$ 距离成正比， $\epsilon_0$ 极小意味着初始梯度稳定，避免梯度爆炸、NaN 等问题；下图实验结果也很好地印证了上述推论。
推论 2：模式覆盖完整，Proposition 4.3 证明，扩散初始化模型对任意图像区域的概率质量偏差不超过 $\frac{\sqrt{2}}{2}\epsilon_0$ ，从根源上缓解 GAN 的模式崩溃，能生成多样化纹理；如下图，没有Diffusion初始化的GAN复原模式较为单一，无论动物、植物或景物都相对固定，而有了Diffusion初始化后就产生了更丰富的表征。
推论 3：收敛速度快，Proposition 4.4 指出，只需要对数级的梯度步即可收敛到目标精度。实验显示，HYPIR 训练 512×512 图像恢复任务仅需约 10k 步，而传统 GAN 需≥3×10⁵步。

总的来说，扩散初始化通过将模型置于一个“高起点”，带来了稳定性（小梯度）、多样性（模式覆盖）和高效性（快速收敛）三大优势，从而彻底改变了对抗训练在图像修复任务中的困境。

2.3 实现细节

理论说通了，怎么落地实践呢？

模型选型👉
在HYPIR框架中，所使用的预训练扩散模型从根本上决定了修复效果的基准。模型越大、能力越强，提供的“分数先验”就越准确，最终的修复质量也越高。该论文实践了四种规模的扩散模型作为先验：SD2（0.8B），SDXL（2.6B），SD3（8B），Flux（12B）。

得益于预训练大模型的发展，使得本方案实施起来更为高效。

条件控制👉

包括四个部分，文本prompts，纹理丰富度控制，潜空间注入随机噪声和随机采样。

文本prompts——

训练时：为训练集中的每张图像自动生成文本描述（使用LLaVA等多模态大模型）。将这些文本描述作为条件输入提供给模型。
推理时：同样使用LLaVA为待修复的测试图像自动生成描述，或由用户手动输入。模型会根据文本提示来恢复缺失的细节、填充不可恢复的区域或调整风格。

纹理丰富度控制——
不同的图像本身具有不同的纹理密度，强制所有图像输出相同密度的纹理会导致问题：平滑区域被过度纹理化，而细节丰富区域则表现不足。因此引入一个可控制的纹理丰富度参数。该参数基于图像拉普拉斯响应（Laplacian）的统计特性，拉普拉斯值波动越大，表明纹理越丰富。

训练时：真实图像的纹理丰富度统计值作为条件输入，指导模型为不同图像生成合适的纹理量。
推理时：用户可以通过滑动条等方式动态调整此参数，控制输出图像的整体纹理锐利度和细节量。

保真度-生成性权衡——
对于严重退化的图像，严格遵循模糊的输入信号（高保真度）可能会产生伪影。而允许模型有一定的“创造性”（高生成性）则可以合成更逼真的纹理，但可能偏离原始输入。

在编码器得到的潜在表示 y中注入不同强度的随机噪声。噪声越大，对原始输入的依赖越弱，模型的“想象力”就越强。

在推理时，用户可以通过控制噪声注入的强度，来找到一个视觉质量最佳的平衡点。例如，处理一张布满网格压缩伪影的图片时，增加噪声（提高生成性）可以鼓励模型忽略网格，生成平滑的纹理。

随机采样——
一张退化图像可能对应多个合理的修复结果。为了提供多样性，HYPIR利用了“保真度-生成性权衡”中引入的噪声。通过改变注入噪声的随机种子，可以对同一张输入图像生成多种不同的修复结果。这为用户提供了选择空间，特别是当第一次生成的结果在某些局部不令人满意时。随着噪声尺度增大，采样空间也会变大。

HYPIR的条件控制能力不是后期添加的模块，而是其核心架构（继承扩散模型U-Net）的自然延伸。这使其成为一个功能极其丰富且用户友好的修复工具。

模型训练👉

数据集：约2000万张高质量图像块（patches），并配有文本描述。额外7万张人脸图像，可能用于增强对人脸细节的修复能力。采用与Real-ESRGAN相同的复杂退化管道来生成训练用的退化-清晰图像对，以模拟真实世界的复杂退化。

判别器：使用预训练的ConvNeXt模型作为骨干网络进行初始化。这是因为ConvNeXt能处理任意尺寸的输入，非常适合高分辨率训练，并能提取细粒度的图像特征来有效指导生成器。论文图10的对比实验表明，ConvNeXt作为判别器骨干优于DINO、CLIP等。

训练策略：

第一阶段：批量大小（Batch Size）为384，生成器和判别器的学习率均为 $1 \times 10 - 51 \times 10 - 5$ ，训练1万步。
第二阶段：通过梯度累积将有效批量大小提升至1536，学习率降至 $5 \times 10 - 65 \times 10 - 6$ ，再训练1万步。
EMA：使用指数移动平均，衰减因子为0.999，测试时使用EMA权重。

三、实验论证

实验这块分为三个部分：消融研究，对比实验和条件控制展示。

3.1 消融实验

以下实验均以SD2模型作为预训练模型。实验内容较多，这里大概总结一下。

🔬与其他初始化和训练方法比较
有意思的是BigGAN直接跑飞了，非常抽象。该实验证明了扩散初始化是提升质量的关键。
在这里插入图片描述

🔬判别器设计
探讨什么样的判别器能最好地指导生成器，对比了DINO, CLIP, 扩散U-Net, ConvNeXt。ConvNeXt胜出，它能处理原始分辨率图像，保留完整细节，因此其指导下的修复结果纹理最丰富、最准确。
在这里插入图片描述

从图中看，个人感觉CLIP也还不错。

🔬LoRA训练秩大小
比较不同LoRA秩（如64, 96, 128, 256, 1024）下的修复效果。增加LoRA秩（即增加可训练参数量）能在一定程度上提升性能，说明后续的对抗训练确实需要一定的模型容量来学习改进。但过高的秩会出现收益递减，因此需要在性能和计算成本间权衡。论文默认选择64是一个均衡点。
在这里插入图片描述
🔬退化预去除
没有退化预去除时，编码器可能会误解退化的图像内容，导致修复结果出现明显伪影和质量下降。而加入该策略后，修复结果的清晰度和准确性得到显著提升。

🔬 扩散先验
使用SD2, SDXL, SD3, Flux等不同模型初始化。模型越大，效果越好。更大的扩散模型能提供更准确的分数函数近似，并具有更强的捕捉复杂图像结构的能力。这证明了HYPIR框架的可扩展性：随着基础扩散模型的进步，其性能也能“水涨船高”。
在这里插入图片描述

3.2 对比实验

定性结果

合成数据：基于SD2的HYPIR生成的纹理已优于对比方法；基于Flux的HYPIR进一步提升了质量，恢复了异常清晰的结构细节（如大蒜和玻璃瓶的细微结构）。
真实世界图像：HYPIR在恢复面部特征、文本内容、建筑结构等复杂细节方面表现出色。
历史老照片：即使输入是严重退化、低分辨率的百年老照片，HYPIR也能有效将其重建为4K甚至6K的高清图像，保持惊人的细节保真度和结构完整性。

定量评估
由于感知质量难以用客观指标完全捕捉，论文采用了主客观相结合的评价。

用户研究（核心评价）：
招募100名有图像处理经验的受试者，对修复结果进行0-10分的感知质量评分。HYPIR在两个评估轮次中均获得了最高的平均感知分数。并且，低分情况很少，证明了其效果的稳健性和可靠性。
客观指标（参考性质）：
在DIV2K和RealPhoto60数据集上报告了多种指标（PSNR, SSIM, LPIPS, NIQE, MUSIQ等）。HYPIR在多数指标上名列前茅。但论文反复强调，这些指标可能被人为优化而并不完全代表视觉质量，用户研究才是更可靠的证据。

运行效率
- 多步扩散模型：由于迭代采样，推理时间极长（如处理1024x1024图像需数秒到数十秒）。
- 单步模型：推理快，但往往以牺牲质量为代价。
- HYPIR：取得了突破性平衡。即使使用巨大的Flux模型（120亿参数），其推理速度也与其它单步方法相当，但生成的视觉质量却远高于它们。

3.3 条件控制展示

文本提示控制：
- 修复文本：展示如何通过输入正确的标语提示（如“Vote against Wilson…”），引导模型准确修复模糊的标语牌上的文字。没有提示则会产生错误字符。
- 消除歧义：对于像素极少、高度模糊的物体，通过不同提示（如“cows and sheep” vs “rocks and stones”）可以生成完全不同的、符合语义的合理内容。
纹理丰富度控制：
通过滑动条调节参数，可以直观地看到输出图像从“纹理平滑柔和”到“纹理锐利细节丰富”的连续变化。
保真度-生成性权衡：
示例显示，对于有严重压缩伪影或模糊的图像，提高“生成性”（增加噪声）可以有效地消除网格伪影或合成出合理的纹理，从而获得更好的视觉观感。
随机采样：
通过改变随机种子，为同一张退化图像生成多种不同的修复结果，提供了多样化的选择。