论文详解——《InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions》

原创

已于 2023-08-20 21:43:59 修改 · 9.5k 阅读

101

标签

#InterImage #深度学习

于 2023-08-18 10:02:34 首次发布

本文提出基于CNN的大规模基础模型InternImage，采用可变形卷积作为核心算子，减少传统CNN的归纳偏差。通过实验验证，该模型在图像分类、目标检测、语义分割等任务上，能取得与大规模ViT相当甚至更好的性能，不过基于DCN的算子在下游高速任务中的延迟问题仍待解决。

文章目录

Abstract
1. Introduction
2. Related Work
3. Proposed Method
- 3.1 Deformable Convolution v3
- 3.2 InternImage Model
4. Experiment
5. Conclusion & Limitations

论文地址：《InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions》

Abstract

原文翻译：
摘要与近年来large-scale vision Transformer(ViTs)取得的巨大进展相比，基于卷积神经网络(cnn)的大型模型尚处于早期阶段。本文提出了一种新的large-scale CNN-based foundation model，称为InternImage。
类似于VIT，该模型可以通过增加参数和训练数据获得增益。与最近的CNN聚焦于large dense kernels不同，InternImage采用了可变形卷积作为核心算子，因此我们的模型不仅具有检测和分割等下游任务所需的大的有效接收域，同时也具有受输入信息和任务信息制约的自适应空间聚集。
因此，提出的InternImage减少了传统CNN的bias of inductive bias，使得它可以像VIT一样，可以从海量数据中学习具有大规模参数的更强、更鲁棒的patterns。在ImageNet、COCO和ADE20K等具有挑战性的基准测试中，我们的模型的有效性得到了验证。值得一提的是，InternImage-H在COCO测试开发上实现了65.4 mAP，在ADE20K上实现了62.9 mIoU，超越了目前领先的CNNs和VITs。

1. Introduction

原文翻译
随着Transformer在大规模语言模型中的显著成功[3-8]，vision transformer (ViTs)[2,9 - 15]也席卷了计算机视觉领域，成为大规模视觉基础模型研究和实践的首选。一些先行者[16-20]已经尝试将VIT扩展到具有超过10亿个参数的非常大的模型，这超越了卷积神经网络(convolutional neural networks, cnn)，显著提高了各种计算机视觉任务的性能极限，包括基本的分类、检测和分割。虽然这些结果表明，在海量参数和数据的时代，CNN不如VIT，但我们认为，当具备类似的operator-/architecture-level designs、scaling-up parameters，massive data时，基于cnn的基础模型也可以实现与vit相当甚至更好的性能。

为了弥补CNN和VIT之间的差距，我们首先从两个方面总结了它们的差异:
(1)从operator层面[9,21,22]，VIT的多头自我注意(MHSA)具有长程依赖和自适应空间聚集(见图1(a))。得益于灵活的MHSA, VIT可以从海量数据中学习比CNN更强大、更健壮的表示。
(2)从architecture角度[9,22,23]来看，VIT除MHSA外，还包含一系列标准CNN所不包含的高级组件，如Layer normalized (LN)[24]、前馈网络(FFN)[1]、GELU[25]等。尽管最近的研究[21,22]通过使用具有非常大的核(如31×31)的密集卷积(如图1 ©所示)，将远程依赖引入cnn中进行了有意义的尝试，但与目前最先进的大规模VIT[16, 18 - 20,26]在性能和模型规模方面仍有相当大的差距。

在本工作中，我们专注于设计一个基于CNN的基础模型，可以有效地扩展到大规模的参数和数据。具体来说，我们从一个flexible convolution variant-deformable convolution (DCN)开始[27,28]。通过将其与一系列类似于Transformer的定制块级和结构级设计相结合，我们设计了一个全新的卷积骨干网，名为InternImage。
在这里插入图片描述
图1: 比较不同的核心operator。
(a)显示了multihead self-attention (MHSA)[1]的全局聚合，其计算和内存开销在需要高分辨率输入的下游任务中是昂贵的。
(b)将MHSA的范围限制在一个本地窗口[2] (Swin Transformer )，以降低成本。
(c ) 是一个具有非常大的核的深度卷积，以模拟长期依赖关系。
(d)是一种可变形的卷积，具有与MHSA相似的良好特性，对于大规模模型足够有效。我们从它开始，建立一个大规模的CNN。

如图1所示，不同于核非常大的CNN如31×31 [22]， InternImage的核心算子是一个动态稀疏卷积，常见的窗口大小为3×3，

(1)其采样偏移量灵活，可以从给定的数据中动态学习适当的接收域(可以是长范围，也可以是短范围);
(2)根据输入数据自适应调整采样偏移量和调制标量，实现了VIT式的自适应空间聚集，降低了正则卷积的over-inductive bias;
(3)卷积窗口是一个常见的3×3，避免了由于large dense kernels 导致的优化问题和昂贵的成本[22,29]。

通过上述设计，提出的InternImage可以有效地扩展到大参数大小，并从大规模训练数据中学习更强的表示，在广泛的视觉任务中实现与大规模vit相当甚至更好的性能[2,11,30]。综上所述，我们的主要贡献如下:

(1)提出了一种基于大规模CNN的基础模型——Internimage。据我们所知，它是第一个有效扩展到超过10亿个参数和4亿个训练图像的CNN，并取得了与最先进的vit相当甚至更好的性能，这表明卷积模型也是一个值得大规模模型研究的探索方向。

(2)利用改进的3×3 DCN算子，通过引入长期依赖关系和自适应空间聚集，我们成功地将cnn扩展到大规模设置，并探索了以算子为中心的定制基本块、叠加规则和缩放策略。这些设计有效地利用了操作者，使我们的模型能够从大规模的参数和数据中获得收益。

(3)在具有代表性的视觉任务(包括图像分类、目标检测、实例和语义分割)上对该模型进行了评价，并将模型规模从3000万扩展到10亿，数据规模从100万扩展到4亿，与目前最先进的cnn和大型vit进行了比较。具体来说，我们的模型具有不同的参数大小，可以在ImageNet[31]上始终优于先前的技术。仅在ImageNet-1K数据集上训练，InternImageB的top-1准确率达到84.9%，比基于cnn的对手至少高出1.1点[21,22]。随着大规模参数(即10亿)和训练数据(即4.27亿)的增加，InternImage-H的前一精度进一步提高到89.6%，接近well-engineering ViTs[2,30]和hybrid-ViTs[20]。此外，在具有挑战性的下游基准COCO[32]上，我们的最佳模型InternImage-H获得了最先进的65.4%的box mAP，参数21.8亿，比SwinV2-G[16]高2.3分(65.4比63.1)，参数少27%，如图2所示。

2. Related Work

Vision foundation models.

在具有大规模数据集和计算资源后，卷积神经网络(Convolutional neural networks, CNN)成为视觉识别的主流。从AlexNet[33]中提取，提出了许多更深入、更有效的神经网络架构，如VGG[34]、GoogleNet[35]、ResNet[36]、ResNeXt[37]、EfficientNet[38,39]等。除了结构性设计外，还有更复杂的卷积运算，如深度卷积[40]和变形卷积[27,28]。考虑到Transformer的先进设计，现代CNN通过发现宏观/微观设计中更好的组件，并引入具有长依赖关系的改进卷积[21,41 - 43]或动态权值[44]，在视觉任务中表现出良好的性能。视觉基础模型。

近年来，一种新的视觉基础模型集中在基于Transformer的架构上。ViT[9]是其中最具代表性的模型，该模型由于具有全局的接受域和动态的空间聚集，在视觉任务中取得了很大的成功。然而，ViT的全局关注受到昂贵的计算/内存复杂度的影响，特别是在大型特征映射上，这限制了它在下游任务中的应用。为了解决这个问题，PVT[10,11]和Linformer[45]对下采样的键值映射进行全局关注，DAT[46]对值映射中的稀疏样本信息进行变形关注，而HaloNet[47]和SwinTransformer[2]开发了局部注意机制，并使用haloing 和 shift operations在相邻局部区域之间传递信息。

Large-scale models
扩展模型是提高特征表示质量的一种重要策略，在自然语言处理领域[48]中得到了广泛的研究。受到NLP领域成功的启发，Zhai等人首次将ViT扩展到20亿个参数。Liu等人[16]将分级结构的Swin变压器扩展为一个具有30亿个参数的更深入更宽的模型。有研究人员结合vit和cnn在不同层面的优势，开发出大规模混合vit[20,49]。最近，BEiT-3[17]利用多模态预训练进一步探索了基于ViT的大规模参数的更强表示。这些方法大大提高了基本视觉任务的上限。然而，基于cnn的大型模型在参数总数和性能方面的研究滞后于基于Transformer的体系结构。尽管新提出的cnn[21,41 - 43]通过使用带有非常大的核或递归门控核的卷积引入了长距离依赖，但与最先进的vit相比仍有相当大的差距。在这项工作中，我们的目标是开发一个基于cnn的基础模型，可以有效地扩展到与ViT相当的大规模。

3. Proposed Method

为了设计一个基于cnn的大型基础模型，我们首先从一个灵活的卷积变体，即Deformable convolution v2 (DCNv2)开始，并在此基础上进行一些调整，以更好地适应大型基础模型的要求。然后，我们将调整后的卷积算子与现代backbones （Swin transformer v2，Scaling vision transformers）中使用的先进块设计相结合，构建基本块。最后，我们探讨了基于DCN block的stacking和scaling 原理，构建了一个能够从海量数据中学习strong representations的大规模卷积模型。

3.1 Deformable Convolution v3

原文翻译

Convolution vs. MHSA（比较普通卷积核MHSA）

以往的著作[21,22,50]对CNN和VIT的区别进行了广泛的讨论。在决定InternImage的核心operator之前，我们首先总结了普通卷积和MHSA之间的主要区别。

(1) 长距离依赖（ Long-range dependecies）

具有较大effective receptive fields(长距离依赖)的模型通常在下游视觉任务上表现更好[51-53], 有3x3的regular convolution 堆叠的CNN网络的de-facto effective receptive field相对较少。即使有非常深入的模型，基于cnn的模型仍然不能获得像vit那样的长距离依赖关系，这限制了它的性能。

(2) 动态空间聚合（Adaptive spatial aggregation）

与权值受输入动态约束的MHSA（Multi-Head Self-Attention）相比，regular convolution[54]是一个权值静态的算子，具有很强的inductive biases，例如2D locality，neighborhood structure, translation equivalence。与VIT相比，regular convolution构成的模型具有highly-inductive properties，收敛速度更快，需要的训练数据更少，但它也限制了cnn从web-scale 的数据中学习更一般、更健壮的模式。

Revisiting DCNv2.(回顾DCNv2)

在卷积和MHSA之间搭建桥梁的一种直接方法是将long-range dependencies和adaptive spatial aggregation引入到regular convolution中。我们从DCNv2[28]开始讲解，这是常规卷积的一个一般变体。给定输入 $x∈R^{C×H×W}$ ，当前像素 $p_0$ ， DCNv2可以表示为：