强化学习与双系统具身大模型的共舞

最新推荐文章于 2026-05-06 12:55:36 发布

原创

最新推荐文章于 2026-05-06 12:55:36 发布 · 918 阅读

标签

#强化学习 #人工智能 #python #机器人 #机器学习

引言

双系统视觉-语言-动作（VLA）框架是一种新兴的机器人操控方法，旨在通过分离高层次推理和低层次控制来处理复杂任务。这种框架受到认知科学双过程理论的启发，其中大型系统（System 2）负责复杂的规划和决策，而小型系统（System 1）专注于实时运动控制和感官处理。强化学习（RL）作为一种通过试错学习以最大化奖励函数的机器学习范式，在机器人领域已被广泛用于学习控制策略，尤其是在任务难以明确编程的情况下。本文分析RL如何提升双系统VLA的性能，基于2025年3月26日提供的五份PDF附件内容，涵盖了多个相关研究。

双系统VLA的定义与背景

双系统VLA的概念在近期机器人研究中逐渐受到关注，例如一个双过程VLA：利用VLM实现高效机器人操控中提出的DP-VLA框架。该框架使用大型System 2模型进行复杂推理和决策，而小型System 1模型则处理实时运动控制和感官处理，旨在提高计算效率和实时性能。附件中的“GROOT N1：通用人形机器人开放基础模型”白皮书也描述了类似的双系统架构，System 2为视觉-语言模块，System 1为扩散变换器模块，用于生成实时动作。

RL在机器人领域的应用

RL是一种代理通过与环境交互，基于奖励函数学习最优策略的范式。在机器人领域，RL已被用于学习从简单操控到复杂导航的各种任务。例如，附件“Plan-Seq-Learn：语言模型指导的RL解决长时程机器人任务”展示了RL如何用于学习低层次控制策略，特别适用于接触丰富的长时程任务。RL的优点在于其从经验中学习的能力，使其适合那些难以通过传统编程解决的任务。

RL在双系统VLA中的具体角色

1. 训练低层次控制策略

RL在双系统VLA中主要用于训练System 1，以学习精确的实时运动控制策略。通过定义适当的奖励函数，RL可以优化机器人的动作以实现期望结果。例如，在“Plan-Seq-Learn”研究中，RL用于学习短时间范围内的接触丰富交互策略，从局部观察中提升机器人处理复杂任务的能力。该研究在Meta-World、Obstructed Suite、Kitchen和Robosuite等四个基准上测试了超过25个任务，成功率超过85%，特别是在接触丰富任务如NutAssembly中达到96%的成功率。这表明RL不仅提高了任务成功率，还能显著缩短学习时间，尤其是在动态和接触性任务中。

2. 优化高层次规划的潜力

虽然当前双系统VLA的高层次规划通常依赖预训练的语言模型（如LLM），但RL有可能用于基于任务结果对这些模型进行微调。例如，如果某个计划导致任务失败，RL可以调整规划模块以在类似情况下生成更好的计划。这需要定义评估计划有效性的奖励函数，并将规划过程视为更高层次RL框架中的一个动作。尽管附件中未直接展示这种应用，但它是未来研究的一个有前景的方向。例如，“Hi Robot：基于层次视觉-语言-动作模型的开放式指令跟随”提到高层次政策生成中间语言命令，但未明确使用RL训练，更多依赖模仿学习。

3. 端到端训练

端到端训练整个双系统VLA使用RL可以优化规划和执行组件之间的交互，确保两者协同工作。例如，“GROOT N1”白皮书描述了使用流匹配损失端到端训练双系统架构，虽然流匹配更像是生成建模而非传统RL，但它可以视为一种优化整个系统的策略学习方法。该模型在模拟基准（如RoboCasa、DexMimicGen）和现实世界测试中表现优于模仿学习基线，尤其在低数据场景下，显示出高数据效率和泛化能力。

4. 人机交互RL

通过整合人类反馈，RL可以进一步提升双系统VLA的性能。例如，“精确和灵巧的机器人操控：基于人机交互的强化学习”展示了HIL-SERL系统如何利用人类操作者的实时纠正来指导RL政策学习。该系统在七个任务中实现了近乎完美的成功率（100%）和超人类循环时间（平均快1.8倍），在1至2.5小时的训练内完成，特别是在动态操控（如翻转物体）和精密组装（如主板组件）任务中表现突出。这表明人机交互RL结合了人类直觉和RL的学习能力，显著提升了任务的鲁棒性和效率。

以下是针对 Plan-Seq-Learn 和 HIL-SERL 中强化学习（RL）方法的数学表达式推导和代码示例的补充解释。这些内容旨在帮助理解两种方法中RL的具体实现及其背后的原理。

Plan-Seq-Learn 中的 RL 方法

方法概述

在 Plan-Seq-Learn 中，强化学习（RL）用于训练低层次控制策略，其核心思想是利用语言模型（LLM）生成的计划来指导RL代理学习执行任务的动作序列。语言模型提供高层次的任务分解（如“打开门，拿起杯子”），而RL则负责学习每个子任务的具体动作。

数学推导

RL的基本框架基于马尔可夫决策过程（MDP），由以下元素定义：

状态空间 $\mathcal{S}$ ：描述环境的可能状态。
动作空间 $\mathcal{A}$ ：代理可执行的动作集合。
转移概率 $p (s^{'} ∣ s, a)$ ：从状态 $s$ 执行动作 $a$ 后转移到状态 $s^{'}$ 的概率。
奖励函数 $r (s, a)$ ：执行动作后的即时奖励。
折扣因子 $\gamma \in [0,1)$ ：衡量未来奖励的重要性。

代理的目标是学习一个策略 $\pi(a|s)$ ，以最大化期望累积折扣奖励：
$J(\pi) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \mid s_0, \pi \right]$

在 Plan-Seq-Learn 中，语言模型生成的计划 $[z_1, z_2, \dots, z_K]$ （例如 $z_1 =$ “打开门”， $z_2 =$ “拿起杯子”）被分解为一系列子任务。每个子任务 ( z_k ) 对应一个低层次策略 $\pi_k(a|s)$ 。代理根据当前状态 $s$ 和当前子任务 $z_k$ 选择动作：
$\sim \pi_k(\cdot|s)$

最低0.47元/天解锁文章