引言
双系统视觉-语言-动作(VLA)框架是一种新兴的机器人操控方法,旨在通过分离高层次推理和低层次控制来处理复杂任务。这种框架受到认知科学双过程理论的启发,其中大型系统(System 2)负责复杂的规划和决策,而小型系统(System 1)专注于实时运动控制和感官处理。强化学习(RL)作为一种通过试错学习以最大化奖励函数的机器学习范式,在机器人领域已被广泛用于学习控制策略,尤其是在任务难以明确编程的情况下。本文分析RL如何提升双系统VLA的性能,基于2025年3月26日提供的五份PDF附件内容,涵盖了多个相关研究。
双系统VLA的定义与背景
双系统VLA的概念在近期机器人研究中逐渐受到关注,例如一个双过程VLA:利用VLM实现高效机器人操控中提出的DP-VLA框架。该框架使用大型System 2模型进行复杂推理和决策,而小型System 1模型则处理实时运动控制和感官处理,旨在提高计算效率和实时性能。附件中的“GROOT N1:通用人形机器人开放基础模型”白皮书也描述了类似的双系统架构,System 2为视觉-语言模块,System 1为扩散变换器模块,用于生成实时动作。
RL在机器人领域的应用
RL是一种代理通过与环境交互,基于奖励函数学习最优策略的范式。在机器人领域,RL已被用于学习从简单操控到复杂导航的各种任务。例如,附件“Plan-Seq-Learn:语言模型指导的RL解决长时程机器人任务”展示了RL如何用于学习低层次控制策略,特别适用于接触丰富的长时程任务。RL的优点在于其从经验中学习的能力,使其适合那些难以通过传统编程解决的任务。
RL在双系统VLA中的具体角色
1. 训练低层次控制策略
RL在双系统VLA中主要用于训练System 1,以学习精确的实时运动控制策略。通过定义适当的奖励函数,RL可以优化机器人的动作以实现期望结果。例如,在“Plan-Seq-Learn”研究中,RL用于学习短时间范围内的接触丰富交互策略,从局部观察中提升机器人处理复杂任务的能力。该研究在Meta-World、Obstructed Suite、Kitchen和Robosuite等四个基准上测试了超过25个任务,成功率超过85%,特别是在接触丰富任务如NutAssembly中达到96%的成功率。这表明RL不仅提高了任务成功率,还能显著缩短学习时间,尤其是在动态和接触性任务中。
2. 优化高层次规划的潜力
虽然当前双系统VLA的高层次规划通常依赖预训练的语言模型(如LLM),但RL有可能用于基于任务结果对这些模型进行微调。例如,如果某个计划导致任务失败,RL可以调整规划模块以在类似情况下生成更好的计划。这需要定义评估计划有效性的奖励函数,并将规划过程视为更高层次RL框架中的一个动作。尽管附件中未直接展示这种应用,但它是未来研究的一个有前景的方向。例如,“Hi Robot:基于层次视觉-语言-动作模型的开放式指令跟随”提到高层次政策生成中间语言命令,但未明确使用RL训练,更多依赖模仿学习。
3. 端到端训练
端到端训练整个双系统VLA使用RL可以优化规划和执行组件之间的交互,确保两者协同工作。例如,“GROOT N1”白皮书描述了使用流匹配损失端到端训练双系统架构,虽然流匹配更像是生成建模而非传统RL,但它可以视为一种优化整个系统的策略学习方法。该模型在模拟基准(如RoboCasa、DexMimicGen)和现实世界测试中表现优于模仿学习基线,尤其在低数据场景下,显示出高数据效率和泛化能力。
4. 人机交互RL
通过整合人类反馈,RL可以进一步提升双系统VLA的性能。例如,“精确和灵巧的机器人操控:基于人机交互的强化学习”展示了HIL-SERL系统如何利用人类操作者的实时纠正来指导RL政策学习。该系统在七个任务中实现了近乎完美的成功率(100%)和超人类循环时间(平均快1.8倍),在1至2.5小时的训练内完成,特别是在动态操控(如翻转物体)和精密组装(如主板组件)任务中表现突出。这表明人机交互RL结合了人类直觉和RL的学习能力,显著提升了任务的鲁棒性和效率。
以下是针对 Plan-Seq-Learn 和 HIL-SERL 中强化学习(RL)方法的数学表达式推导和代码示例的补充解释。这些内容旨在帮助理解两种方法中RL的具体实现及其背后的原理。
Plan-Seq-Learn 中的 RL 方法
方法概述
在 Plan-Seq-Learn 中,强化学习(RL)用于训练低层次控制策略,其核心思想是利用语言模型(LLM)生成的计划来指导RL代理学习执行任务的动作序列。语言模型提供高层次的任务分解(如“打开门,拿起杯子”),而RL则负责学习每个子任务的具体动作。
数学推导
RL的基本框架基于马尔可夫决策过程(MDP),由以下元素定义:
- 状态空间 S \mathcal{S} S:描述环境的可能状态。
- 动作空间 A \mathcal{A} A:代理可执行的动作集合。
- 转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a):从状态 s s s 执行动作 a a a 后转移到状态 s ′ s' s′ 的概率。
- 奖励函数 r ( s , a ) r(s,a) r(s,a):执行动作后的即时奖励。
- 折扣因子 γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ∈[0,1):衡量未来奖励的重要性。
代理的目标是学习一个策略 π ( a ∣ s ) \pi(a|s) π(a∣s),以最大化期望累积折扣奖励:
J ( π ) = E [ ∑ t = 0 ∞ γ t r ( s t , a t ) ∣ s 0 , π ] J(\pi) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \mid s_0, \pi \right] J(π)=E[t=0∑∞γtr(st,at)∣s0,π]
在 Plan-Seq-Learn 中,语言模型生成的计划 z = [ z 1 , z 2 , … , z K ] z = [z_1, z_2, \dots, z_K] z=[z1,z2,…,zK](例如 z 1 = z_1 = z1= “打开门”, z 2 = z_2 = z2=“拿起杯子”)被分解为一系列子任务。每个子任务 ( z_k ) 对应一个低层次策略 π k ( a ∣ s ) \pi_k(a|s) πk(a∣s)。代理根据当前状态 s s s 和当前子任务 z k z_k zk 选择动作:
a ∼ π k ( ⋅ ∣ s ) a \sim \pi_k(\cdot|s) a∼π


2181

被折叠的 条评论
为什么被折叠?



