名词
1) VLA / VLM / IL / SFT / BC
VLA(Vision-Language-Action)
- 是什么:把“看见的图像 + 语言指令”直接映射成“机器人动作”的端到端策略模型。论文强调它把感知、语言理解、动作生成统一在一个框架里,而不是传统那种“感知模块 + 规划模块 + 控制模块”拼装。
- 在 RL-VLA 里干什么:VLA 的“policy decoder”输出动作;RL 的作用是让这个端到端策略在交互反馈下变得更稳、更能适应新情况(尤其是 OOD)。
- 容易误解点:VLA 不是“只会语言的机器人”;它的关键是动作头(action head):可以是离散 token(自回归)也可以是连续轨迹生成(扩散/flow)。
VLM(Vision-Language Model)
- 是什么:视觉-语言预训练骨干,用来把图像与指令编码成“可融合的表征”;VLA 通常“站在 VLM 的肩膀上”。
- 在 RL-VLA 里干什么:举例:在线 RL 时,有工作用 VLM 做“robotic process reward model”,帮助解决稀疏奖励问题。
IL(Imitation Learning)/ SFT(Supervised Fine-Tuning)/ BC(Behavior Cloning)
- 是什么:VLA 最主流的预训练方式是 IL,通常实现为 SFT 或 BC:用遥操作/专家数据,让策略最大化“给定观测下专家动作的似然”。
- 为什么不够:论文明确说它受限于演示数据的质量与覆盖,在 domain shift / OOD 情况下仍会出问题,因此才引入 RL 来增强适应性与鲁棒性。
2) MDP / State / Action chunk:RL-VLA 到底在优化什么?
MDP(Markov Decision Process)
- 是什么:机器人操控被形式化为 ((S,A,p,r,γ))((S, A, p, r, \gamma))((S,A,p,r,γ));RL 学的是策略(πθ(at∣st))(\pi_\theta(a_t|s_t))(πθ(at∣st))最大化折扣回报。
- RL-VLA 的特殊点:状态 (s_t) 不是低维向量,而是多模态高维:视觉观测 + 本体感知(关节角、末端位姿等)+ 语言指令。
Action chunk(动作分块)
- 是什么:VLA 往往不是一步一动作,而是一次输出一段动作 (at:t+k−1)(a_{t:t+k-1})(at:t+k−1)(动作块),通过扩散解码器或 action tokenizer 来实现。
- 为什么重要:这会直接影响 RL 目标怎么写——传统 TD/策略梯度默认一步动作,但动作分块会让“信用分配”和“稳定训练”更难,于是才出现 CO-RFT 这类专门兼容 action chunking 的离线 RL 设计。
3) Offline / Online / Test-time RL:三种“把 RL 接到 VLA 上”的范式
Offline RL
- 定义:在静态数据集上训练,不与环境交互,适合高风险/资源有限设置。
- 它比 IL 强在哪:不是“模仿演示”,而是用过去经验去优化长期回报,从而提高 OOD 泛化。
- 数据要求苛刻:需要包含完整 MDP tuple 的大数据集,但很多现有数据来自 IL/SFT,缺奖励、动力学、失败案例,限制了价值估计与泛化。
Online RL
- 定义:通过试错主动收集新经验来改进策略。
- 典型用法:以 VLA-RL、SimpleVLA-RL 为例:通过交互与奖励信号,使策略能发现演示数据之外的新模式。
Test-time RL(部署时适应)
- 定义:部署时通过轻量更新/adapter 或推理期机制进行适应,避免昂贵的全模型微调。
- 三大类机制:价值引导、记忆库引导、结构化规划。
4) DQN / PPO / SAC / Actor-Critic / On-policy / Off-policy / MF / MB:RL 算法家族谱
DQN(Deep Q-Network)
- 是什么:价值型方法,学 (Q(s,a)) 或 (V(s)),用它决定动作。
- 在 RL-VLA 里常见角色:更像“价值评估器/打分器”的思想来源(比如 test-time rerank 用 value)。
PPO(Proximal Policy Optimization)
- 是什么:策略梯度方法,直接对策略参数做优化。
- 为什么常用:在大模型策略上训练相对稳定(所以很多在线 RL-VLA 选它)。
SAC(Soft Actor-Critic)与 Actor-Critic
- Actor-Critic 是什么:同时学策略(actor)和价值(critic)。
- SAC 是什么:一种 actor-critic;论文用它当典型例子。
On-policy vs Off-policy
- 定义:on-policy 用当前策略采的数据学;off-policy 用回放池等历史数据学。
MF / MB(Model-Free / Model-Based)
- MF:不显式学环境转移模型,直接从交互学策略。
- MB:先学或利用转移模型 (p(st+1∣st,at))(p(s_{t+1}|s_t,a_t))(p(st+1∣st,at)) 再规划/生成 rollouts;论文也强调“预测性 world model”是未来提升样本效率的重要方向。
5) AR / Diffusion / Flow;D / S:动作头与奖励密度
AR(Autoregressive,自回归动作)
- 是什么:把动作离散化成 token,像语言模型一样逐 token 预测。
- RL-VLA 里为什么方便:因为 AR 模型天然有“token 预测概率”,RL 可以直接利用这些概率做更稳定的优化
Diffusion(扩散动作头)
- 是什么:直接生成动作轨迹(去噪生成),更适合连续轨迹一致性。
- 难点:扩散/生成式动作头没有显式动作概率,RL 目标不容易写,需要“重参数化/近似概率”。
Flow(Flow-matching 动作头)
- 是什么:另一类生成式动作头(flow matching),同样生成轨迹。
- 与 RL 的对接方式:典型思路是通过 Flow-SDE 等方式得到近似概率或等价训练信号。
D / S(Dense / Sparse Reward)
- 是什么:稠密奖励 vs 稀疏奖励。
- RL-VLA 里常见组合: reward 往往是“成功的稀疏二值信号 + 过程型稠密奖励(如距离目标)”。
6) TD / CO-RFT / TGRPO:为“动作分块 + 大模型动作 token”量身定制的 RL 目标
TD(Temporal Difference)
- 是什么:用“下一步的估计”来更新当前的价值估计,是很多离线 RL 的核心。
- 怎么用:CO-RFT 把 TD 学习扩展到能兼容 VLA 的 action chunking。
CO-RFT(Chunked RL / Chunked RL Fine-Tuning)
- 核心点:它不是“换一个 RL 算法名字”,而是解决“VLA 一次输出动作块”导致 TD/一致性不适配的问题。
TGRPO(Trajectory-wise Group Relative Policy Optimization)
- 核心点:把策略梯度目标改写成token 级别的交叉熵损失,再用 advantage 加权,从而在不改变动作头形式的情况下稳定做 RL 微调。
7) πRL / Flow-SDE / FPO / ARFM:生成式动作头如何“被 RL 监督”
Flow-SDE
- 是什么(在文中语境):一种把生成/去噪过程连续化建模的方式,用来构造可用于 RL 更新的近似概率信号。
πRL
- 核心点:用 Flow-SDE 或 Flow-Noise 干预来去噪,从而生成“动作分配的近似概率”,使其能对齐现有 RL policy update。
FPO(Flow Policy Optimization)
- 核心点:用“每个样本的变化”来替代动作概率,缩小 flow-matching head 与 RL 更新策略之间的 gap,提高收敛稳定性。
ARFM(Adaptive Reinforced Flow Matching)
- 核心点:通过动态调整缩放因子来更新样本权重,提高样本利用效率并让 RL-VLA 训练更稳定。
8) Test-time 相关缩写:V-GPS / Hume / STRAP / RA-DT / ReSA / MCTS / BGR
A) Value Guidance:V-GPS / Hume
- V-GPS(Value-Guided Policy Steering):用预训练 value function 给 base policy 产生的动作候选重排,选预测价值最高的那个;关键是不更新权重。
- Hume:双系统架构里的“value-guided thinking”:生成多个动作候选,用专门的 value-query head 选最有希望的。
B) Memory Buffer Guidance:STRAP / RA-DT / ReSA
- STRAP:维护一个紧凑但表达力强的“pattern library”,推理时按相似度检索并取出轨迹子片段辅助决策。
- RA-DT(Retrieval-Augmented Decision Transformer):保存外部记忆,从过去经验里检索相关子轨迹,做 in-context 决策。
- ReSA:从 replay buffer 里用“内在质量评估”挑选高质量成功轨迹进行选择性模仿,确保不偏离任务目标。
C) Planning-guided:MCTS / BGR / VLA-Reasoner
- MCTS(Monte Carlo Tree Search):在线树搜索;VLA-Reasoner 用 base policy 的初始动作预测作起点,模拟未来结果来搜更优动作。
- BGR(Bellman-Guided Retrials):用单独训练的 value function 估计 time-to-completion,并在测试时监测自身预测是否不一致;一旦检测到偏离成功轨迹就触发纠错动作。
9) 安全与真机:HiL / HIL-SERL / CR-DAgger / CMDP / ISA,以及评测指标缩写
HiL(Human-in-the-Loop)
- 定义:把人类专家“接入训练回路”,用纠错、复位、课程设计等加速收敛并降低危险探索。
- Human corrective intervention / recovery assistance / curriculum design 这些都是 HiL 的细分形式,论文逐条解释了。
HIL-SERL / CR-DAgger
- HIL-SERL:引入人类实时纠错反馈来快速学精细/高灵巧操控。
- CR-DAgger:提供柔顺、力敏接口让人类平滑纠错,并学习 residual policy 用力反馈提升接触丰富操控。
CMDP(Constrained MDP)/ ISA(Integrated Safety Approach)
- CMDP 是什么:在 MDP 上加“安全/风险约束”。“Real-time safety enforcement”里明确提到用 CMDP 范式来做安全优化。
- ISA 是什么:SafeVLA 的“集成式安全方法”,用 min-max 视角对抗被引出的安全风险,在安全与性能间权衡。
评测指标里那些缩写/术语
- Safety Cost:SafeVLA 引入,用来量化训练/部署时的风险或约束违反(不安全动作、碰撞、危险状态转移等)。
- Cycle Time:RLDG 与 CO-RFT 引入,衡量“采数→更新→部署”一轮真实学习周期的时间效率。
- Episode Length:ConRFT 用它当鲁棒性代理,太短往往意味着不稳定或不安全探索。
- Intervention Rate:ConRFT 引入,衡量人类介入频率;越低意味着越自治、越安全。
10) DT 的“双重含义”:Decision Transformer vs Digital Twin
- DT(Decision Transformer):DT 作为算法缩写之一(与 RTG 等并列)。
- DT(Digital Twin,数字孪生):在 sim-to-real/平台部分,用高保真数字孪生做 real-to-sim-to-real(例如 DREAM 里“create high-fidelity DTs”)。
方法
1) GRPO(Group Relative Policy Optimization)
- 是什么 → Group Relative Policy Optimization(组相对策略优化)。
- 在 RL-VLA 里干什么 → 被用作在线 RL-VLA 的策略优化算法: SimpleVLA-RL 用 GRPO 做更“稳定”的策略更新,并在 LIBERO 上收益明显;同时 RLVLA 也对比了 DPO / PPO / GRPO 在在线 RL 微调 VLA 时对 OOD 泛化的影响。
- 坑点 → 在线 RL-VLA 的通用大坑:真实环境非平稳+多模态噪声会让“本来在仿真/静态基准上设计的优化法”也很难保持稳定更新。
2) LOOP(Leave-One-Out Proximal Policy Optimization)
- 是什么 → Leave-One-Out Proximal Policy Optimization。
- 在 RL-VLA 里干什么 → 把它放在“世界模型/想象轨迹”那条线上:World-Env 管线里,VLA 产出动作序列→世界模型预测未来观测→VLM做语义反思,然后用 LOOP 做策略精炼。
- 坑点 → 世界模型路线的核心坑:世界模型对新场景/新形体/新机器人形态泛化差,想象轨迹一旦“偏”,后面再怎么优化也可能在错误的世界里越走越远。
3) TPO(Trajectory-wise Preference Optimization)
-
是什么 → Trajectory-wise Preference Optimization(按“整段轨迹”做偏好优化)。
-
在 RL-VLA 里干什么 → 用于“偏好对齐/对齐到想要的行为”: GRAPE 通过生成定制化 cost,在轨迹级数据上优化,从而按偏好对齐 VLA。
-
坑点 → 轨迹级方法最常见的两类坑:
- 偏好信号稀疏/延迟(轨迹结束才知道好坏),会让优化更难;
- 真实任务动作空间巨大且动态,轨迹级优化更容易受噪声与非平稳影响,更新不稳。
4) PA-RL(Policy-Agnostic RL)
- 是什么 → Policy-Agnostic RL。
- 在 RL-VLA 里干什么 → 把它归到“Training Stability(训练稳定性)”相关工作里。
- 坑点 → 主要就是“训练稳定性”那套通用问题:真实环境噪声、非平稳、导致更新不可靠。
5) SACfD(Soft Actor-Critic from Demonstrations)
- 是什么 → Soft Actor-Critic from Demonstrations。
- 在 RL-VLA 里干什么 → 典型用法是“用演示数据/示教先验提高样本效率”, iRe-VLA 的算法就是 SACfD + SFT。
- 坑点 → 在线 RL-VLA 里样本昂贵,大家都在“榨干演示先验”;但:样本效率仍受限,很多方法只在特定任务/环境里提高数据利用,难以跨域迁移。
6) RECAP(综述里作为算法名出现)
- 是什么 → 把 RECAP 列为 π0.6 [88] 的算法(但表头并未给出 RECAP 的英文全称展开)。
- 在 RL-VLA 里干什么 → 放在 Offline RL-VLA 的 “Customized Representation(定制化表征/信号改造)” 路线:综述明确说 π*0.6 用预训练 value function 把 value“二值化”来条件化 VLA,同时利用失败与成功数据。
- 坑点 → 离线 RL-VLA 的核心坑来自“数据集长什么样”:数据质量与结构不平衡会加剧分布偏移;任务覆盖不均、奖励信号不全会让 OOD 泛化变差。
7) PLD(综述里作为方法名出现:Residual RL 做数据生成)
- 是什么 → PLD [81] 这篇工作的标题是 “Self-improving VLA models with data generation via residual RL”(用 residual RL 做数据生成、推动自我提升)。
- 在 RL-VLA 里干什么 → 把它放进 **Online RL-VLA 的 Active Exploration(主动探索)**方向;表 I 里 PLD 以 Cal-QL + SAC 作为算法组合出现。
- 坑点 → 主动探索类方法的硬坑通常不是“会不会动”,而是:探索到的数据是否能跨任务/跨域复用。当前在线 RL-VLA 的样本效率与可扩展性仍有限,且难以把经验迁移到多样目标/域。
8) SRPO(Self-Referential Policy Optimization)
-
是什么 → SRPO:Self-Referential Policy Optimization(自指式策略优化)。
-
在 RL-VLA 里干什么 → 关键的一句话:用策略自己成功的轨迹作为“自参照”,产生渐进式奖励,不需要人工奖励标注。
-
坑点 → 两个典型风险:
- 自举偏差:如果“成功轨迹”定义或筛选带偏,奖励就会越滚越偏;
- 样本效率/泛化仍是瓶颈(同上,在线 RL-VLA 经验难迁移)。
PPO(Proximal Policy Optimization)
- 是什么 → 综述在 RL 基础里把 PPO归为 policy-gradient 代表算法。
- 在 RL-VLA 里干什么 → 大量在线后训练工作把 PPO 当“基础款”:FLaRe、RLRC、VLA-RL 等都用 PPO 做 post-training。
- 坑点 → 真实环境非平稳+噪声→更新不稳;动作空间变大→优化更难。
DPO(Direct Preference Optimization)
- 是什么 → Direct Preference Optimization。
- 在 RL-VLA 里干什么 → 用于偏好对齐/离线对齐:举例 NORA-1.5 用 offline DPO 来优化 VLA(用模型生成奖励)。
- 坑点 → 偏好/奖励质量强依赖数据与生成器;离线数据不均衡会导致分布偏移。
FPO(Flow Policy Optimization)与 ARFM(Adaptive Reinforced Flow Matching)
- 是什么 → FPO:Flow Policy Optimization;ARFM:Adaptive Reinforced Flow Matching。
- 在 RL-VLA 里干什么 → 面向 **flow-matching 这类“生成式动作头”**的专用优化:FPO 用“每个样本的变化”替代 action probability,缩小 flow-head 与 RL 更新策略的差距、提高收敛稳定性;ARFM 用动态缩放因子调样本权重,提升样本利用与稳定训练。
- 坑点 → 生成式 VLA 的密度/概率是近似的,只在高回报区域调参会导致局部信号累积失配,多步生成+迭代更新后可能扭曲甚至“塌缩”原动作分布。
Cal-QL / CQL / BC(离线 RL 常见三件套)
- 是什么 → CQL:Conservative Q-Learning;Cal-QL:Calibrated Q-Learning;BC:Behavior Cloning。
- 在 RL-VLA 里干什么 → “保守约束”路线:限制策略更新不偏离数据分布,减少离线外推带来的分布偏移;ConRFT 把 BC + Cal-QL 结合来做更稳定的 value 估计,并缓解分布偏移。
- 坑点 → 离线数据集若任务覆盖不均、奖励不完整,会直接拖垮 OOD 泛化。
RLOO(Leave-One-Out advantage,出现在 RIPT-VLA)
- 是什么 → RLOO(leave-one-out)优势估计(综述在正文里点到“Leave-One-Out advantage estimation”。)
- 在 RL-VLA 里干什么 → 和 PPO 组合用于 post-training,使学习更高效,且不需要 shaped reward 或 value function。
- 坑点 → 仍绕不开在线 RL-VLA 的稳定性与现实噪声问题。

23

被折叠的 条评论
为什么被折叠?



