Agent Magma:论AI智能体在网络世界和现实世界的阴阳调和
引言
AI 代理的快速发展正在改变我们与数字和物理环境互动的方式。Magma VLA 模型作为一种多模态 AI 代理基础模型,旨在弥合网络世界(如虚拟界面)和现实世界(如机器人操作)之间的差距,两条看似差距甚远的应用场景实际上是源自同一种需求和上层逻辑,即 操作人类所构建的工具,在人类所构筑的环境中交互并辅助人类完成任务。其核心目标是通过整合视觉、语言和行动能力,创建能够适应多种环境的通用智能体。本报告将分析其技术细节,并探讨其在双域中的应用前景。
论文分析

Magma 模型的论文“Magma: A Foundation Model for Multimodal AI Agents”详细介绍了其设计和性能。该研究由 Microsoft Research、University of Maryland 等机构完成,发布于 2025 年 2 月 18 日。
主要贡献
-
多模态理解与行动执行:
- Magma 扩展了传统的视觉-语言(VL)模型,增加了空间和时间智能,使其不仅能理解多模态输入,还能规划和执行视觉-空间环境中的行动。
- 它适用于从 UI 导航(如网页点击)到机器人操作(如物体抓取)等多种代理任务。
-
创新性标记技术:
- Set-of-Mark (SoM):用于图像上的行动接地,标识数字界面中的可点击按钮或物理环境中的可操作物体。
- Trace-of-Mark (ToM):用于视频上的行动规划,捕捉动作的时序动态,如机器人手臂的移动轨迹。
-
多样化预训练数据:
- 模型预训练数据包括 UI 导航数据(2.7M 屏幕截图)、机器人数据(970K 轨迹,9.4M 图像-语言-行动三元组)、教学视频(25M 样本)和图像-文本对(1.2M 对)。
- 这种多样性使其能够泛化到不同环境,弥合数字与物理世界的差距。
-
性能表现:
- 在 UI 导航基准(如 Mind2Web、AITW)上达到最新状态(State-of-the-Art, SOTA)。
- 在机器人操作基准(如 SimplerEnv、LIBERO)上超越领域特定模型和通用大模型(如 LLaVA、Qwen-VL)。
- 在视觉-语言任务(如 VQAv2、GQA)上表现与 SOTA 大模型相当,尽管其训练数据规模较小。
模型架构与训练
- 基础模型:基于 LLaMA-2-7B 语言模型,添加视觉输入处理组件。
- 视觉编码:使用视觉变换器(Vision Tr


1391

被折叠的 条评论
为什么被折叠?



