【ConvNeXt V2】借鉴MAE自监督学习

原创

已于 2024-07-26 09:10:57 修改 · 1.8k 阅读

标签

#学习 #人工智能 #迁移学习 #深度学习 #神经网络

于 2024-07-25 09:28:09 首次发布

ConvNeXt V2

Paper : ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Author : Sanghyun Woo， Shoubhik Debnath， Ronghang Hu，Xinlei Chen， Zhuang Liu，In So Kweon， Saining Xie

Affiliation :KAIST ， Meta AI FAIR ，New York University

Publication ：CVPR 2023

Code ：https://github.com/facebookresearch/ConvNeXt-V2

在设计Mask自编码器时，将Mask输入视为一组稀疏块，并使用稀疏卷积仅处理可见部分。

添加一个 Global Response Normalization 全局响应归一化层来增强通道间特征竞争。

共同设计了 ConvNext V2 与 FCMAE

0 前景

神经网络架构设计的创新一直在表征学习领域发挥着重要作用。卷积神经网络架构 (ConvNets) 对计算机视觉研究产生了重大影响，因为它允许使用通用特征学习方法完成各种视觉识别任务，而不是依赖于手动特征工程。近年来，最初为自然语言处理开发的 Transformer 架构也因其在模型和数据集大小方面的强大扩展行为而广受欢迎。最近，ConvNeXt 架构对传统的 ConvNets 进行了现代化改造，并证明了纯卷积模型也可以是可扩展的架构。然而，探索神经网络架构设计空间的最常用方法仍然是通过对 ImageNet 上的监督学习性能进行基准测试。

在另一项研究中，视觉表征学习的重点已经从带标签的监督学习转向带借口目标的自监督预训练。在许多不同的自监督算法中，Mask自编码器 (MAE) 最近将Mask语言建模的成功带到了视觉领域，并迅速成为一种流行的视觉表征学习方法。然而，自监督学习的一种常见做法是使用为监督学习设计的预定架构，并假设该设计是固定的。

1 动机

简单地结合 ConvNeXt 和 MAE 这两种方法会导致性能不佳。

一个问题是 MAE 具有特定的编码解码器设计，该设计针对 Transformer 的序列处理能力进行了优化，这使得计算量大的编码器能够专注于可见的块，从而降低预训练成本。该设计可能与使用密集滑动窗口的标准 ConvNets 不兼容。此外，如果不考虑架构和训练目标之间的关系，可能不清楚是否能够实现最佳性能。事实上，先前的研究表明，使用基于 mask 的自监督学习训练 ConvNets 可能会很困难，并且经验证据表明，Transformer 和 ConvNets 可能具有不同的特征学习行为，从而影响表示质量。

2 方法（Fully Convolutional Masked Autoencoder）

学习信号是通过以高Mask率随机Mask原始输入视觉效果并让模型根据剩余上下文预测缺失的部分来生成的。

作者引入了一个完全卷积Mask自动编码器 (FCMAE)。它由一个基于稀疏卷积的 ConvNeXt 编码器和一个轻量级 ConvNeXt 块解码器组成。总体而言，作者的自动编码器的架构是不对称的。编码器仅处理可见像素，解码器使用编码像素和掩码标记重建图像。仅在Mask区域上计算损失。

Masking

作者使用随机Mask策略，Mask率为 0.6。由于卷积模型具有分层设计，其中特征在不同阶段进行下采样，因此Mask在最后阶段生成并递归上采样直至最精细的分辨率。为了在实践中实现这一点，作者从原始输入图像中随机删除 60% 的 32×32 块。作者使用最少的数据增强，仅包括随机调整大小的裁剪。

Encoder design

在作者的方法中，作者使用 ConvNeXt 模型作为编码器。使 masked 图像建模有效的一个挑战是防止模型学习允许其从masked 区域复制和粘贴信息的捷径。这在基于 Transformer 的模型中相对容易防止，这可以将可见的补丁作为编码器的唯一输入。然而，使用 ConvNets 实现这一点更加困难，因为必须保留 2D 图像结构。虽然简单的解决方案涉及在输入端引入可学习的mask token，但这些方法降低了预训练的效率并导致训练和测试时间不一致，因为测试时没有mask标记。当mask 率很高时，这尤其成问题。为了解决这个问题，作者的新见解是从“稀疏数据视角”查看mask图像，这是受到 3D 任务中对稀疏点云的学习的启发。作者的主要观察是蒙版图像可以表示为 2D 稀疏像素阵列。基于这一见解，将稀疏卷积纳入作者的框架以促进Mask自动编码器的预训练是很自然的。在实践中，在预训练期间，作者建议用子流形稀疏卷积转换编码器中的标准卷积层，这使模型能够仅在可见数据点上运行。作者注意到，稀疏卷积层可以在微调阶段转换回标准卷积，而无需额外处理。作为替代方案，也可以在密集卷积操作之前和之后应用二元Mask操作。此操作在数值上具有与稀疏卷积相同的效果，理论上计算量更大，但在TPU等AI加速器上更友好。

spcon (sparse convolution)
[稀疏卷积 Sparse Convolution Net-CSDN博客](https://blog.csdn.net/qq_39523365/article/details/123281523?ops_request_misc=&request_id=&bi