【论文阅读 | CVPR 2025 |MambaVision:一种混合 Mamba-Transformer 视觉骨干网络】

在这里插入图片描述

题目:MambaVision: A Hybrid Mamba-Transformer Vision Backbone

会议: Computer Vision and Pattern Recognition(CVPR)

论文:https://openaccess.thecvf.com/content/CVPR2025/html/Hatamizadeh_MambaVision_A_Hybrid_Mamba-Transformer_Vision_Backbone_CVPR_2025_paper.html

代码:https://github.com/NVlabs/MambaVision

年份:2025

1.摘要&&引言

我们提出了一种新颖的混合 Mamba-Transformer 骨干网络 MambaVision,专为视觉应用量身设计。我们的核心贡献包括重新设计 Mamba 公式,以增强其对视觉特征的高效建模能力。通过全面的消融研究,我们证明了将视觉 Transformer(ViT)与 Mamba 集成的可行性。

研究结果表明,在 Mamba 架构的最后几层配备自注意力块,能显著提升其捕捉长距离空间依赖关系的能力。基于这些发现,我们推出了一系列 MambaVision 模型,它们采用层次化架构,可满足不同的设计需求。

在 ImageNet-1K 数据集的分类任务中,MambaVision 各变体在 Top-1 准确率和吞吐量方面均达到了最先进(SOTA)水平。在下游任务中,如 MS COCO 数据集上的目标检测、实例分割以及 ADE20K 数据集上的语义分割,MambaVision 在性能优于同等规模的骨干网络,同时表现出良好的综合性能。

在这项工作中,我们系统地重新设计了 Mamba 块,使其更适合视觉任务。我们提出了一种混合架构,该架构包含我们提出的公式(即 MambaVision 混合器和 MLP)以及 Transformer 块。

具体而言,我们研究了不同的集成模式,例如以等参数方式在早期、中期、最后几层以及每 l 层中添加 Transformer 块。我们的分析表明,在最后阶段使用多个自注意力块可以显著增强捕捉全局上下文和长距离空间依赖关系的能力

如第 5 节所示,与纯 Mamba 和基于 ViT 的模型相比,采用混合架构还能带来更高的图像吞吐量。我们引入的 MambaVision 模型采用多分辨率架构,并利用基于 CNN 的残差块快速提取更高分辨率特征的特征。

在这里插入图片描述

图1——ImageNet-1K数据集上Top-1准确率与图像吞吐量的对比。MambaVision模型在Top-1准确率和图像吞吐量的权衡方面达到了新的帕累托前沿。具体而言,MambaVision各变体的性能优于VMamba和Vim等基于Mamba的模型,有时优势显著。所有模型的图像吞吐量均在配备128批处理大小的NVIDIA A100 GPU上测得。

如图 1 所示,MambaVision 在 ImageNet-1K 的 Top-1 准确率和图像吞吐量方面达到了新的 SOTA 帕累托前沿,性能优于基于 Mamba、CNN 和 ViT 的模型,有时优势显著。在目标检测、实例分割和语义分割等下游任务中,采用 MambaVision 作为骨干网络的模型在 MS COCO 数据集和 ADE20 数据集上的性能分别优于同等规模的对应模型。因此,这验证了 MambaVision 作为高效骨干网络的有效性和通用性。

据我们所知,MambaVision 是首个研究和开发用于计算机视觉应用的、同时包含 Mamba 和 Transformer 的混合架构的尝试。我们在这项工作中的主要贡献总结如下:

  • 我们引入了经过重新设计的、更适合视觉任务的 Mamba 块,与原始 Mamba 架构相比,提高了准确率和图像吞吐量。
  • 我们系统地研究了 Mamba 和 Transformer 块的集成模式,并证明在最后阶段融入自注意力块能显著提升模型捕捉全局上下文和长距离空间依赖关系的能力。
  • 我们引入了 MambaVision,这是一种新颖的混合 Mamba-Transformer 模型。层次化的 MambaVision 在 ImageNet-1K 数据集的 Top-1 准确率和图像吞吐量方面达到了新的 SOTA 帕累托前沿

2.方法

2.1 宏观架构

在本节中,我们介绍 MambaVision——我们提出的在 ImageNet-1K 数据集上实现 SOTA 性能的新颖架构。如图 2 所示,MambaVision 采用层次化架构,包含 4 个不同的阶段。前两个阶段由基于 CNN 的层组成,用于快速提取较高输入分辨率的特征,而第 3 和第 4 阶段则包含所提出的 MambaVision 和 Transformer 块。具体而言,给定一个尺寸为 H × W × 3 H \times W \times 3 H×W×3 的图像,首先通过 stem 将其转换为尺寸为 H 4 × W 4 × C \frac{H}{4} \times \frac{W}{4} \times C 4H×4W×C 的重叠补丁,并投影到 c c c 维嵌入空间中;stem 由两个连续的 3×3 CNN 层组成,步长为 2。阶段之间的下采样器由一个步长为 2 的 3×3 CNN 层组成,将图像分辨率降低一半。此外,第 1 和第 2 阶段中的 CNN 块遵循通用的残差块公式,如下所示:
z ^ = G E L U ( B N ( C o n v 3 × 3 ( z ) ) ) , z = B N ( C o n v 3 × 3 ( z ^ ) ) + z , \begin{aligned} & \hat{z} = GELU\left(BN\left(Conv_{3×3}(z)\right)\right), \\ & z = BN\left(Conv_{3×3}(\hat{z})\right) + z, \end{aligned} z^=GELU(BN(Conv3×3(z))),z=BN(Conv3×3(z^))+z,
其中,GELU 和 BN 分别表示高斯误差线性单元激活函数和批归一化。有关 MambaVision 宏观架构的更多细节,请参见补充材料。

2.2 微观架构

在本节中,我们首先回顾 Mamba 和 SSM 的基础知识,然后介绍第 3 和第 4 阶段的微观设计,并更详细地讨论 MambaVision 公式。

在这里插入图片描述

图2——分层MambaVision模型的架构。前两个阶段使用残差卷积块进行快速特征提取。第3和第4阶段同时采用MambaVision块和Transformer块。具体而言,给定N层,我们使用N/2个MambaVision块和MLP块,之后再附加N/2个Transformer块和MLP块。最后几层中的Transformer块能够恢复丢失的全局上下文并捕捉长距离空间依赖关系。

2.2.1 Mamba 基础知识

在 Mamba 中,一维连续输入 x ( t ) ∈ R x(t) \in \mathbb{R} x(t)R 通过可学习的隐藏状态 h ( t ) ∈ R M h(t) \in \mathbb{R}^{M} h(t)RM 转换为 y ( t ) ∈ R y(t) \in \mathbb{R} y(t)R,其中参数为 A ∈ R M × M A \in \mathbb{R}^{M×M} ARM×M B ∈ R M × 1 B \in \mathbb{R}^{M×1} BRM×1 C ∈ R 1 × M C \in \mathbb{R}^{1×M} CR

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值