【图像超分辨率】（VDSR）Accurate Image Super-Resolution Using Very Deep Convolutional Networks

最新推荐文章于 2026-04-08 09:24:43 发布

原创

最新推荐文章于 2026-04-08 09:24:43 发布 · 5.9k 阅读

本文提出一种基于极深卷积网络的图像超分辨率方法，该方法通过残差学习、高学习率及梯度裁剪等技术实现了快速收敛与多尺度支持。

Accurate Image Super-Resolution Using Very Deep Convolutional Networks

摘要

本文提出了一种高精度的单图像超分辨率（SR）方法，该方法使用了一个非常深的卷积网络，灵感来自于用于ImageNet分类的VGG网络，网络深度的增加可以使得精度的显著提高。该模型的深度为20层，通过在深层网络结构中多次级联小型过滤器，可以有效地利用大型图像区域上的上下文信息。然而在非常深的网络中，收敛速度成为训练中的关键问题。我们提出一个简单而有效的训练程序。我们仅学习残差，使用极高的学习率（比SRCNN 高出104倍），通过可调梯度裁剪实现。

介绍

本文解决了给定低分辨率（LR）图像生成高分辨率（HR）图像的问题，通常称为单图像超分辨率重建（SISR）。SISR广泛应用于计算机视觉应用，从安全和监控成像到医疗影像（需要更多的图像细节）。

在计算机视觉领域已经研究了许多SISR方法。早期方法包括插值，例如双三次插值和基于统计图像先验或内部块复现信息的更强大的方法。

目前，学习方法被广泛用于建模从LR到HR的映射。邻域嵌入，图像块子空间内插方法。稀疏编码方法使用基于稀疏信号表示的学习紧致字典。最近的随机森林和卷积神经网络（CNN）也被广泛使用且精度大幅提高。

其中，Dong等已经证明，CNN可以用于以端到端的方式学习从LR到HR的映射。他们的方法称为SRCNN，不需要任何其他方法中通常需要的工程特征，并显示出最先进的性能。

SRCNN在超分辨率（SR）问题中成功地引入了深入的学习技术，但在三个方面有局限性：第一，它依赖于小图像区域的上下文; 第二，训练收敛太慢; 第三，网络只适用于一个采样scale。即：

训练层数少，没有足够的视野域；

训练太慢，导致没有在深层网络上得到好的效果；
不能支持多种倍数的高清化。

本文提出的方法能够有效解决以上问题：

上下文（context） 本文利用分布在非常大的图像域的背景信息：对于一个大尺度因子，通常情况下，一个小的图像块中包含的信息不足以进行细节恢复。本文的深层网络使用大感受野，从而考虑到大尺寸的图像上下文信息。
收敛性（convergence） 本文提出了一种加速训练的方法：残差学习CNN和极高的学习率。由于LR图像和HR图像在很大程度上共享相同的信息，因此有必要对残差图像（HR和LR图像之间的差异）进行建模。本文提出了一种在输入和输出高度相关时高效学习的网络结构。此外，我们的初始学习率是SRCNN[6]的10000倍。这是由残差学习和梯度剪裁实现的。
尺度因子（Scale factor） 本文提出了一种单模型SR方法。尺度大小通常由用户指定，可以是任意的，包括分数。例如，人们可能需要在图像查看器中进行平滑的放大或调整大小到特定的维度，但是为所有可能的场景训练和存储许多与尺度相关的模型是不切实际的。我们发现单个卷积网络足以实现多尺度因子超分辨率。

贡献（contribution） 综上所述，在这项工作中，提出了一种基于极深卷积网络的高精度SR方法。如果使用小的学习率、极深网络的收敛速度太慢，用高学习率提升收敛率会导致梯度爆炸，本文用残差学习和梯度裁剪解决了这个问题。

2 相关工作

2.1 图像超分辨率的卷积神经网络

模型

增加深度可以显著提升性能。本文成功使用了20个权重层（每层3×3）。本文的网络非常深（20层），用于重建的信息感受野）更大（41×41）

训练

SRCNN直接对高分辨率图像进行建模。高分辨率图像可以分解为低频信息（对应低分辨率图像）和高频信息（残差图像或图像细节）。输入和输出图像共享相同的低频信息。这说明SRCNN有两个作用：携带输入到终端层和重建残差图像。将输入携带到末端在概念上类似于自动编码器的工作。训练时间可能会花在学习这个自动编码器上，这样学习另一部分（图像细节）的收敛率就会大大降低。相比之下，由于VDSR网络直接对残差图像进行建模，所以有更快的收敛速度，甚至更好的精度。

尺度

与大多数现有的SR方法一样，SRCNN是针对单一尺度因子进行训练的，并且应该只在指定的尺度下有效。因此，如果有新的尺度，就必须训练一个新的模型。为了应对多尺度SR（可能包括分数因子），我们需要为每个感兴趣的尺度构建单独的单尺度SR系统。然而，为所有可能的场景准备许多单独的机器来应对多尺度是低效率和不切实际的。本文设计并训练了单个网络来有效地处理多尺度SR问题，对于三个尺度因子（×2，3，4），我们可以减少三倍的参数数量。
除了上述问题外，还有一些小的差异。我们的输出图像在训练过程中，通过每层填充零，具有与输入图像相同的大小，而SRCNN的输出比输入小。最后，我们只是对所有的层使用相同的学习率，而SRCNN为了实现稳定的收敛，对不同的层使用不同的学习率。