动机
-
视觉transformer(ViTs)在图像分类中得到了成功的应用。
-
ViTs层次加深不利于其性能。
与卷积神经网络不同的是,卷积神经网络可以通过增加卷积层来提高其性能,而在ViTs,随着transformer块数量的增加,模型性能并没有相应提高。例如带有32个transformer块的ViT模型比带有24个transformer块的ViT模型更糟糕。这意味着直接堆叠更多的transformer块,在增强ViT模型时效率不高。而当层次越深时,ViTs的性能则会迅速饱和。
-
在ViTs的深层,自我注意机制无法学习到有效的表征学习概念,阻碍了模型获得预期的性能增益。
层次加深出现的困难是由注意力崩溃问题引起的:随着transformer的层次加深,注意力映射逐渐变得相似,甚至在某些层之后变得大同小异。换句话说,在深度ViT模型的顶层,特征图往往是相同的。(为了衡量注意力映射图在层上的演化,通过余弦相似矩阵计算了不同层次的注意力映射图之间的跨层相似度。)
方法

不同transformer块之间的注意力映射图具有较高的相似性,尤其是深层的注意力映射图。然而,本文发现来自同一transformer块的不同头的注意力映射图的相似性相当小,很明显,来自同一自我注意力层的不同头部关注输入令牌的不同方面。基于这一观察,为了解决注意力崩溃的问题,并有效地将视觉转换扩展到更深的层面,提出了一种简单而有效的自我注意机制–再注意(re-attention)用于ViTs中。该方法以可忽略的计算和内存开销,以头部的注意力映射图为基础,通过以可学习的方式交换来自不同注意头的信息,动态融合它们来重新生成各层的注意力映射图,以增加它们在不同层次上的多样性。为此,定义了一个端到端可学习的变换矩阵,然后使用变换矩

本文探讨了视觉Transformer(ViTs)在深度增加时性能下降的问题,将其归因于注意力崩溃。为解决此问题,提出了再注意(re-attention)机制,通过动态融合不同头部的注意力映射,增强深层ViT的多样性。实验证明,使用re-attention的DeepViT在不增加额外增强或正则化的情况下,能在ImageNet上训练32个transformer块的模型并取得性能提升。

1710

被折叠的 条评论
为什么被折叠?



