CvT：微软提出结合CNN的ViT架构 | 2021 arxiv

最新推荐文章于 2024-08-25 12:17:03 发布

原创

最新推荐文章于 2024-08-25 12:17:03 发布 · 1.4k 阅读

标签

CvT将Transformer与CNN在图像识别任务中的优势相结合，从CNN中借鉴了多阶段的层级结构设计，同时引入了Convolutional Token Embedding和Convolutional Projection操作增强局部建模能力，在保持计算效率的同时实现了卓越的性能。此外，由于卷积的引入增强了局部上下文建模能力，CvT不再需要position Embedding，这使其在适应各种需要可变输入分辨率的视觉任务方面更具有优势

来源：晓飞的算法工程笔记公众号

论文: CvT: Introducing Convolutions to Vision Transformers

论文地址：https://arxiv.org/abs/2103.15808
论文代码：https://github.com/leoxiaobin/CvT

Introduction

作者提出了一种名为Convolutional vision Transformer(CvT) 的新架构，通过将引入卷积网络的设计来提高ViT的性能和效率。CvT从CNN中借鉴了多阶段的层级结构设计，同时引入了Convolutional Token Embedding和Convolutional Projection两个新模块，分别用于增加block输入和中间特征的局部建模能力，提高效率。

CvT能够将CNN的理想特性（位移、缩放和失真的不变性）引入了ViT，同时保持Transformer的优点（动态注意力、全局上下文和更好的泛化能力）。由于卷积的引入，CvT可以移除Position Embedding，这使其在适应各种需要可变输入分辨率的视觉任务方面更具有优势。

在ImageNet-1k上，CvT到达优于其他Vision Transformer和ResNet的性能，并且参数更少且FLOP更低。当在ImageNet-22k上预训练后，CvT-W24在ImageNet-1k验证集上获得了 87.7%的top-1准确率。

Convolutional vision Transformer

CvT的整体结构如图2所示，在ViT架构中引入了两种基于卷积的操作：Convolutional Token Embedding和Convolutional Projection，同时也从CNN中借鉴了多阶段的层级结构设计。

如图2a所示，CvT包含三个阶段，每个阶段有两个部分：

使用Convolutional Token Embedding层将输入图像（或2D重构的token图）进行处理，该层由卷积实现，外加层归一化。这使得每个阶段能够逐渐减少token的数量同时增加token的维度，从而实现空间下采样和增加特征的丰富性，类似于CNN的设计。与其他基于Transformer的架构不同，CvT不会将position embedding与token相加，这得益于卷积操作本身就建模了位置信息。
堆叠的Convolutional Transformer Block组成了每个阶段的其余部分。 Convolutional Transformer Block的结构如图2b所示，其中的Convolutional Projection为深度可分离卷积，用于Q、K和V embedding的转换，代替常见的矩阵线性投影。此外，class token仅在最后阶段添加，使用MLP对最后阶段输出的分类token进行类别预测。