Guava：一种用于具身操作的高效通用驾驭

原创于 2026-06-25 00:15:00 发布 · 578 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#guava #人工智能 #机器人 #深度学习 #机器学习

大模型同时被 3 个专栏收录

1271 篇文章

订阅专栏

智能体

1071 篇文章

订阅专栏

机器学习

867 篇文章

订阅专栏

26年6月来自马里兰大学、UIUC、滑铁卢大学、阿联酋MBZUAI、UPenn和Amazon公司FAR的论文“Guava: An Effective and Universal Harness for Embodied Manipulation”。

基于大规模视觉-语言数据训练的语言模型在具身智体领域展现出巨大潜力。通过“具身工具使用”来驾驭这些模型，结合高层推理与负责感知、规划及控制的外部模块，为端到端的视觉-语言-动作系统提供一种极具前景的替代方案。然而，究竟什么样的机制能有效驾驭具身操作，以及这种机制能在多大程度上激发各类推理模型的具身能力，目前尚不明确。本研究提出 Guava，这是一个专为具身工具使用而设计的驾驭框架；该框架是通过对智体工作流、动作空间及观测空间的设计空间进行系统性探索而构建的。其研究确定构建高效具身智体的三个关键要素：迭代式的“感知-推理-动作”循环、语义化的动作抽象以及多模态观测。为了探究这些设计原则是否同样适用于小型模型，其开发一套端到端训练流程，利用完全在仿真环境中收集的不到 2000 条轨迹，将具身操作能力蒸馏至一个 40 亿参数（4B）的开源模型中。在仿真和真实环境中的实验结果表明，该模型不仅性能可媲美前沿的闭源模型，还在面对未见过物体、新指令及长程任务时展现出了强大的泛化能力。研究结果表明，设计良好的驾驭机制可作为具身操作领域一种可扩展且与模型无关的接口，使轻量级开源模型仅需极少量训练数据，即可展现出强大的涌现具身能力。

近期在“Harness工程”（OpenAI, 2026b）方面的进展，使得基础模型能够在日益复杂的领域中运行，包括个性化工作流（Steinberger and The OpenClaw Community, 2026）、软件开发（Anthropic, 2026; OpenAI, 2026c）以及科学发现（Karpathy, 2026）。

利用Harness而非进行大规模微调来应用模型，为构建具备自主操作能力的智体系统提供一条有前景的途径（Shi et al., 2025; Fu et al., 2026）。这种基于Harness的系统无需模型内化所有底层的感知、规划和控制能力（Sapkota et al., 2026），而是允许语言模型调用外部模块来实现机器人操作。这种模块化设计特别适用于具身操作：专用的底层工具封装机器人技能，而语言模型则专注于高层推理、工具选择和任务分解。Maestro（Shi et al., 2025）和同期研究Cap-X（Fu et al., 2026）代表这一方向上的早期探索。尽管取得了进展，但什么样的Harness才适合具身操作尚不明确。现有系统往往依赖于“一次性”代码生成，或是将特定领域的流水线与强大的前沿模型相结合，这使得在低推理延迟和低成本的前提下，实现稳健的长程行为和故障恢复变得困难。因此，本文提出一个根本性问题：构建一个有效且通用的具身智体Harness，其关键要素是什么？

为了回答这一问题，其探索具身智体的设计空间，并确定对有效操作至关重要的三个原则。首先，迭代式的ReAct（Yao et al., 2023）循环对于适应执行结果和从故障中恢复至关重要。其次，语义动作抽象，允许语言模型专注于任务分解和规划，而无需处理底层的机器人控制。第三，丰富的多模态观测提供具身推理所需的环境上下文。基于这些发现，本文开发Guava——一个用于具身工具使用的Harness框架，它将ReAct风格的交互、语义操作工具和多模态观测整合到一个统一的智体架构中。

如图1 Guava 概览。Guava 定义具身智体与其环境之间结构化的交互策略，旨在促进具身推理及用于操控任务的工具调用能力。基于这一框架，在仿真环境中训练出一个小型智体，该智体可直接部署于现实世界，并适用于多种评估场景。
请添加图片描述

利用智体实现机器人操作。诸如 Code-as-Policies (Liang et al., 2022) 和 ProgPrompt (Singh et al., 2023) 等开创性研究表明，语言模型能够将感知输出、控制原语和特定任务 API 组合成可执行策略或情境化任务规划。这些“驾驭框架“（harnessing frameworks）继承传统机器人系统的模块化特性：感知、规划和控制可表示为可调用的工具，而语言模型则将其组合成针对特定任务的行为。近期研究已将这一范式扩展至多模态和多智体场景。RoboCodeX (Mu et al., 2024) 通过多模态代码生成，将高级指令和场景理解转化为可执行的机器人程序；而 RoCo 及相关研究 (Mandi et al., 2024; Chen et al., 2025) 则将生成的代码与多机器人协作及运动规划相结合。近期的 Maestro (Shi et al., 2025) 和同期研究 Cap-X (Fu et al., 2026) 进一步扩展这一范式，使机器人能够通过编写程序来调用多样化的感知与控制工具。然而，现有的此类框架大多依赖于“一次性”的代码生成与执行，导致智体难以根据执行结果做出反应或从故障中恢复。相比之下，本文研究如何通过一种持续交织感知、推理和动作执行的 ReAct 风格工作流 (Yao et al., 2023)，利用这种驾驭框架设计来实现有效的具身操作。此外，其还探讨此类驾驭框架能否作为通用接口，将具身能力迁移至小型开放模型中。

1 设计有效的交互框架

机器人操作需要在具有随机性的执行过程中保持持续的“具身接地”（grounding）：抓取可能失败，物体位置可能发生意外偏移，且环境往往偏离模型的初始预测。有效且鲁棒的驾驭框架（harnesses）具有三个关键特性。首先，诸如 ReAct (Yao et al., 2023) 之类的迭代式工作流通过允许模型在执行失败后重新规划，并在任务执行期间整合更新后的观测信息，显著提高了相比单轮规划的鲁棒性。VLM 不再基于单一观测预测完整轨迹，而是采用闭环推理过程，从而支持从抓取失败和状态偏差中恢复。其次，语义级动作空间减轻 VLM 在低级几何与物理推理方面的负担 (Tong et al., 2024; Guan et al., 2024)。模型不直接生成关节空间的控制指令，而是输出面向任务和对象的操作技能，同时将运动规划交由底层控制器处理。这种抽象使得 VLM 能够专注于语义层面的任务分解，而非执行层面的可行性。

在表 1 中列出所有可用工具，这些工具定义具有明确语义含义的动作，结合高度抽象的工具（如 grasp()）与底层工具（如 move()），以便在必要时涵盖细粒度动作。第三，多模态观测为具身推理提供了互补信息。视觉观测捕捉空间关系和物体布局，而文本状态表示则提供关于机器人状态和任务进度的简洁符号化描述。结合这两种模态可增强具身接地效果，并减少序列决策过程中的歧义。综合来看，这些设计选择将操作任务从开环预测问题转变为具身闭环交互过程，从而显著提升了前沿 VLM 在具身环境中的可靠性。
请添加图片描述

图 2 验证了设计选择：该图展示 GPT-5.4 (OpenAI, 2026a) 在 Robosuite (Zhu et al., 2020) 实现的六项长程任务中，采用不同驾驭配置时的性能表现；结果显示，在迭代式工作流中采用多模态设置，在各项任务中均表现出持续更优的性能。
请添加图片描述

2 学习高效且具泛化能力的具身智体推理能力

尽管 Guava 结合前沿视觉-语言模型（VLM）能实现卓越的操作性能，但由于闭环执行过程中频繁调用多模态 API 带来的高延迟与高成本，直接部署此类模型往往代价高昂。因此，探讨能否将 Guava 赋予的具身能力蒸馏至轻量级开源模型中。为此，开发一套数据高效的训练流程，仅利用不到 2000 条完全在仿真环境中采集的轨迹，即可将具身工具使用行为从前沿 VLM 迁移至目标模型。

Guava 作为数据引擎。将具身能力迁移至轻量级模型的一个关键挑战在于获取多样化且高质量的演示数据。为此，开发一个数据生成引擎，用于收集前沿 VLM 在 Guava 框架下运行时的交互轨迹（如图 3所示）。生成的数据涵盖广泛的操作技能与具身推理行为，包括抓取、推动、空间推理及任务规划。值得注意的是，显式纳入“恢复轨迹”（即展示如何从执行失败中恢复）能显著提升模型的鲁棒性。具体而言，在成功演示的基础上，利用受扰动后的执行状态生成恢复轨迹进行数据增强，从而让模型在训练阶段接触到失败及偏离预定轨迹的情境。经过数据清洗与平衡处理，所得数据集为学习具身策略的泛化能力提供了多样化的监督信号。令人瞩目的是，仅需不到 2000 条完全源自仿真的轨迹，便足以将具身能力从前沿 VLM 成功迁移至参数量为 40 亿（4B）的轻量级模型。
请添加图片描述

训练流程。采用两阶段流程对模型进行后训练。首先，利用具身数据引擎采集的轨迹（包含成功轨迹与恢复轨迹）进行监督微调（SFT）。这使策略模型既能习得操作技能，又能掌握针对执行失败的纠正行为。随后，采用“组相对策略优化”（GRPO）算法，并结合稀疏的任务成功奖励机制，这一做法借鉴近期针对推理模型的强化学习（RL）后训练方法（Shao et al., 2024; Zhou et al., 2025）。强化学习阶段主要针对更具挑战性的长程任务，这些任务要求模型具备迭代规划、工具使用以及适应执行误差的能力。

设置

基于参数量为 40 亿（4B）的视觉-语言模型（VLM）——Qwen3.5-4B（Qwen Team, 2026）——构建 Guava 系统，并采用两阶段优化流程进行训练，同时冻结视觉编码器和对齐模块（aligner）。所有训练均在 8 块 NVIDIA H100 80GB GPU 上使用 bfloat16 精度进行。

在仿真环境和真实世界中对模型进行评估。仿真方面，用 Robosuite（Zhu et al., 2020）；真实世界实验则部署在 Franka Research 3 机械臂（Franka Robotics GmbH, 2026）上，并配备经过校准的 Intel RealSense D435 RGB-D 相机。评估集涵盖多种物体几何形状、空间布局及操作策略，包括非抓取类任务和长程（long-horizon）任务。将任务分为四类：分布内（ID）任务（任务类型与训练集相同，但场景配置不同）、OOD 物体任务（涉及未见过的物体或物体名称）、OOD 指令任务（要求遵循新语言指令或任务规范）以及 OOD 长程任务（要求在较长的交互序列中组合多种操作技能）。

采用任务成功率作为主要评估指标。若智体在执行时限内完成指令指定的任务，则视为该次尝试成功。将本方法与三个具有代表性的基线模型进行比较。Qwen3.5-4B 代表在 Guava 框架下运行的基础模型，未经过具身智能后训练。GPT-5.4 作为一种强大的专有 VLM 基线，配备了相同的观测空间、工具集和智能体框架。最后，CaP-Agent0 是一种同样基于框架的操作智体，执行单次（one-shot）代码生成与运行。所有方法均在相同环境下进行评估。为确保比较公平，在条件允许的情况下，所有智体方法均使用相同的观测输入和工具 API；CaP-Agent0 则使用其原生的执行接口。