Vision Mamba：高效视觉表示学习双向状态空间模型，超越Vision Transformer！

最新推荐文章于 2026-04-26 14:55:16 发布

原创

最新推荐文章于 2026-04-26 14:55:16 发布 · 5.5k 阅读

标签

#学习 #transformer #深度学习

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享，与你一起了解前沿深度学习信息！

在这里插入图片描述

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

引言：探索视觉领域的新方向

在计算机视觉领域，传统的卷积神经网络（CNN）和最近兴起的视觉变换器（ViT）已经取得了显著的成就。然而，随着图像分辨率的不断提高和计算资源的限制，这些模型在处理高分辨率图像时面临着速度和内存效率的挑战。最近的研究表明，状态空间模型（SSM）提供了一种新的视角来处理长序列数据，展示出处理高维视觉数据的潜力。特别是，Mamba模型通过引入时间变化的参数和硬件感知的设计，显著提高了模型的训练和推理效率。这启发我们探索将SSM应用于视觉领域，尤其是在不依赖自注意力机制的情况下，如何有效地处理图像和视频数据。

在这篇博客中，我们将深入探讨如何通过双向状态空间模型（Bidirectional SSM）和位置嵌入来构建一个新的视觉基础模型——Vision Mamba（Vim）。Vim模型不仅在图像分类、对象检测和语义分割等标准视觉任务上超越了现有的最优视觉变换器模型，如DeiT，而且在处理高分辨率图像时，展现出更高的计算和内存效率。通过这些探索，我们希望为未来的视觉模型提供一种新的方向，使其能够更高效地处理大规模和高分辨率的视觉数据。

论文标题: Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

机构: Huazhong University of Science and Technology, Horizon Robotics, Beijing Academy of Artificial Intelligence

论文链接: Vision Mamba Paper

项目地址