Agent Magma：论AI智能体在网络世界和现实世界的阴阳调和

最新推荐文章于 2026-06-25 20:29:15 发布

原创

最新推荐文章于 2026-06-25 20:29:15 发布 · 1k 阅读

标签

#人工智能 #python #信息与通信 #机器人 #经验分享

Agent Magma：论AI智能体在网络世界和现实世界的阴阳调和

引言

AI 代理的快速发展正在改变我们与数字和物理环境互动的方式。Magma VLA 模型作为一种多模态 AI 代理基础模型，旨在弥合网络世界（如虚拟界面）和现实世界（如机器人操作）之间的差距，两条看似差距甚远的应用场景实际上是源自同一种需求和上层逻辑，即 操作人类所构建的工具，在人类所构筑的环境中交互并辅助人类完成任务。其核心目标是通过整合视觉、语言和行动能力，创建能够适应多种环境的通用智能体。本报告将分析其技术细节，并探讨其在双域中的应用前景。

论文分析

在这里插入图片描述

Magma 模型的论文“Magma: A Foundation Model for Multimodal AI Agents”详细介绍了其设计和性能。该研究由 Microsoft Research、University of Maryland 等机构完成，发布于 2025 年 2 月 18 日。

主要贡献

多模态理解与行动执行：
- Magma 扩展了传统的视觉-语言（VL）模型，增加了空间和时间智能，使其不仅能理解多模态输入，还能规划和执行视觉-空间环境中的行动。
- 它适用于从 UI 导航（如网页点击）到机器人操作（如物体抓取）等多种代理任务。
创新性标记技术：
- Set-of-Mark (SoM)：用于图像上的行动接地，标识数字界面中的可点击按钮或物理环境中的可操作物体。
- Trace-of-Mark (ToM)：用于视频上的行动规划，捕捉动作的时序动态，如机器人手臂的移动轨迹。
多样化预训练数据：
- 模型预训练数据包括 UI 导航数据（2.7M 屏幕截图）、机器人数据（970K 轨迹，9.4M 图像-语言-行动三元组）、教学视频（25M 样本）和图像-文本对（1.2M 对）。
- 这种多样性使其能够泛化到不同环境，弥合数字与物理世界的差距。
性能表现：
- 在 UI 导航基准（如 Mind2Web、AITW）上达到最新状态（State-of-the-Art, SOTA）。
- 在机器人操作基准（如 SimplerEnv、LIBERO）上超越领域特定模型和通用大模型（如 LLaVA、Qwen-VL）。
- 在视觉-语言任务（如 VQAv2、GQA）上表现与 SOTA 大模型相当，尽管其训练数据规模较小。