RL-VLA中一些英文缩写的介绍和解释

名词

1) VLA / VLM / IL / SFT / BC

VLA(Vision-Language-Action)

  • 是什么:把“看见的图像 + 语言指令”直接映射成“机器人动作”的端到端策略模型。论文强调它把感知、语言理解、动作生成统一在一个框架里,而不是传统那种“感知模块 + 规划模块 + 控制模块”拼装。
  • 在 RL-VLA 里干什么:VLA 的“policy decoder”输出动作;RL 的作用是让这个端到端策略在交互反馈下变得更稳、更能适应新情况(尤其是 OOD)。
  • 容易误解点:VLA 不是“只会语言的机器人”;它的关键是动作头(action head):可以是离散 token(自回归)也可以是连续轨迹生成(扩散/flow)。

VLM(Vision-Language Model)

  • 是什么:视觉-语言预训练骨干,用来把图像与指令编码成“可融合的表征”;VLA 通常“站在 VLM 的肩膀上”。
  • 在 RL-VLA 里干什么:举例:在线 RL 时,有工作用 VLM 做“robotic process reward model”,帮助解决稀疏奖励问题。

IL(Imitation Learning)/ SFT(Supervised Fine-Tuning)/ BC(Behavior Cloning)

  • 是什么:VLA 最主流的预训练方式是 IL,通常实现为 SFT 或 BC:用遥操作/专家数据,让策略最大化“给定观测下专家动作的似然”。
  • 为什么不够:论文明确说它受限于演示数据的质量与覆盖,在 domain shift / OOD 情况下仍会出问题,因此才引入 RL 来增强适应性与鲁棒性。

2) MDP / State / Action chunk:RL-VLA 到底在优化什么?

MDP(Markov Decision Process)

  • 是什么:机器人操控被形式化为 ((S,A,p,r,γ))((S, A, p, r, \gamma))((S,A,p,r,γ));RL 学的是策略(πθ(at∣st))(\pi_\theta(a_t|s_t))(πθ(atst))最大化折扣回报。
  • RL-VLA 的特殊点:状态 (s_t) 不是低维向量,而是多模态高维:视觉观测 + 本体感知(关节角、末端位姿等)+ 语言指令。

Action chunk(动作分块)

  • 是什么:VLA 往往不是一步一动作,而是一次输出一段动作 (at:t+k−1)(a_{t:t+k-1})(at:t+k1)(动作块),通过扩散解码器或 action tokenizer 来实现。
  • 为什么重要:这会直接影响 RL 目标怎么写——传统 TD/策略梯度默认一步动作,但动作分块会让“信用分配”和“稳定训练”更难,于是才出现 CO-RFT 这类专门兼容 action chunking 的离线 RL 设计。

3) Offline / Online / Test-time RL:三种“把 RL 接到 VLA 上”的范式

Offline RL

  • 定义:在静态数据集上训练,不与环境交互,适合高风险/资源有限设置。
  • 它比 IL 强在哪:不是“模仿演示”,而是用过去经验去优化长期回报,从而提高 OOD 泛化。
  • 数据要求苛刻:需要包含完整 MDP tuple 的大数据集,但很多现有数据来自 IL/SFT,缺奖励、动力学、失败案例,限制了价值估计与泛化。

Online RL

  • 定义:通过试错主动收集新经验来改进策略。
  • 典型用法:以 VLA-RL、SimpleVLA-RL 为例:通过交互与奖励信号,使策略能发现演示数据之外的新模式。

Test-time RL(部署时适应)

  • 定义:部署时通过轻量更新/adapter 或推理期机制进行适应,避免昂贵的全模型微调。
  • 三大类机制:价值引导、记忆库引导、结构化规划。

4) DQN / PPO / SAC / Actor-Critic / On-policy / Off-policy / MF / MB:RL 算法家族谱

DQN(Deep Q-Network)

  • 是什么:价值型方法,学 (Q(s,a)) 或 (V(s)),用它决定动作。
  • 在 RL-VLA 里常见角色:更像“价值评估器/打分器”的思想来源(比如 test-time rerank 用 value)。

PPO(Proximal Policy Optimization)

  • 是什么:策略梯度方法,直接对策略参数做优化。
  • 为什么常用:在大模型策略上训练相对稳定(所以很多在线 RL-VLA 选它)。

SAC(Soft Actor-Critic)与 Actor-Critic

  • Actor-Critic 是什么:同时学策略(actor)和价值(critic)。
  • SAC 是什么:一种 actor-critic;论文用它当典型例子。

On-policy vs Off-policy

  • 定义:on-policy 用当前策略采的数据学;off-policy 用回放池等历史数据学。

MF / MB(Model-Free / Model-Based)

  • MF:不显式学环境转移模型,直接从交互学策略。
  • MB:先学或利用转移模型 (p(st+1∣st,at))(p(s_{t+1}|s_t,a_t))(p(st+1st,at)) 再规划/生成 rollouts;论文也强调“预测性 world model”是未来提升样本效率的重要方向。

5) AR / Diffusion / Flow;D / S:动作头与奖励密度

AR(Autoregressive,自回归动作)

  • 是什么:把动作离散化成 token,像语言模型一样逐 token 预测。
  • RL-VLA 里为什么方便:因为 AR 模型天然有“token 预测概率”,RL 可以直接利用这些概率做更稳定的优化

Diffusion(扩散动作头)

  • 是什么:直接生成动作轨迹(去噪生成),更适合连续轨迹一致性。
  • 难点:扩散/生成式动作头没有显式动作概率,RL 目标不容易写,需要“重参数化/近似概率”。

Flow(Flow-matching 动作头)

  • 是什么:另一类生成式动作头(flow matching),同样生成轨迹。
  • 与 RL 的对接方式:典型思路是通过 Flow-SDE 等方式得到近似概率或等价训练信号。

D / S(Dense / Sparse Reward)

  • 是什么:稠密奖励 vs 稀疏奖励。
  • RL-VLA 里常见组合: reward 往往是“成功的稀疏二值信号 + 过程型稠密奖励(如距离目标)”。

6) TD / CO-RFT / TGRPO:为“动作分块 + 大模型动作 token”量身定制的 RL 目标

TD(Temporal Difference)

  • 是什么:用“下一步的估计”来更新当前的价值估计,是很多离线 RL 的核心。
  • 怎么用:CO-RFT 把 TD 学习扩展到能兼容 VLA 的 action chunking。

CO-RFT(Chunked RL / Chunked RL Fine-Tuning)

  • 核心点:它不是“换一个 RL 算法名字”,而是解决“VLA 一次输出动作块”导致 TD/一致性不适配的问题。

TGRPO(Trajectory-wise Group Relative Policy Optimization)

  • 核心点:把策略梯度目标改写成token 级别的交叉熵损失,再用 advantage 加权,从而在不改变动作头形式的情况下稳定做 RL 微调。

7) πRL / Flow-SDE / FPO / ARFM:生成式动作头如何“被 RL 监督”

Flow-SDE

  • 是什么(在文中语境):一种把生成/去噪过程连续化建模的方式,用来构造可用于 RL 更新的近似概率信号。

πRL

  • 核心点:用 Flow-SDE 或 Flow-Noise 干预来去噪,从而生成“动作分配的近似概率”,使其能对齐现有 RL policy update。

FPO(Flow Policy Optimization)

  • 核心点:用“每个样本的变化”来替代动作概率,缩小 flow-matching head 与 RL 更新策略之间的 gap,提高收敛稳定性。

ARFM(Adaptive Reinforced Flow Matching)

  • 核心点:通过动态调整缩放因子来更新样本权重,提高样本利用效率并让 RL-VLA 训练更稳定。

8) Test-time 相关缩写:V-GPS / Hume / STRAP / RA-DT / ReSA / MCTS / BGR

A) Value Guidance:V-GPS / Hume

  • V-GPS(Value-Guided Policy Steering):用预训练 value function 给 base policy 产生的动作候选重排,选预测价值最高的那个;关键是不更新权重
  • Hume:双系统架构里的“value-guided thinking”:生成多个动作候选,用专门的 value-query head 选最有希望的。

B) Memory Buffer Guidance:STRAP / RA-DT / ReSA

  • STRAP:维护一个紧凑但表达力强的“pattern library”,推理时按相似度检索并取出轨迹子片段辅助决策。
  • RA-DT(Retrieval-Augmented Decision Transformer):保存外部记忆,从过去经验里检索相关子轨迹,做 in-context 决策。
  • ReSA:从 replay buffer 里用“内在质量评估”挑选高质量成功轨迹进行选择性模仿,确保不偏离任务目标。

C) Planning-guided:MCTS / BGR / VLA-Reasoner

  • MCTS(Monte Carlo Tree Search):在线树搜索;VLA-Reasoner 用 base policy 的初始动作预测作起点,模拟未来结果来搜更优动作。
  • BGR(Bellman-Guided Retrials):用单独训练的 value function 估计 time-to-completion,并在测试时监测自身预测是否不一致;一旦检测到偏离成功轨迹就触发纠错动作。

9) 安全与真机:HiL / HIL-SERL / CR-DAgger / CMDP / ISA,以及评测指标缩写

HiL(Human-in-the-Loop)

  • 定义:把人类专家“接入训练回路”,用纠错、复位、课程设计等加速收敛并降低危险探索。
  • Human corrective intervention / recovery assistance / curriculum design 这些都是 HiL 的细分形式,论文逐条解释了。

HIL-SERL / CR-DAgger

  • HIL-SERL:引入人类实时纠错反馈来快速学精细/高灵巧操控。
  • CR-DAgger:提供柔顺、力敏接口让人类平滑纠错,并学习 residual policy 用力反馈提升接触丰富操控。

CMDP(Constrained MDP)/ ISA(Integrated Safety Approach)

  • CMDP 是什么:在 MDP 上加“安全/风险约束”。“Real-time safety enforcement”里明确提到用 CMDP 范式来做安全优化。
  • ISA 是什么:SafeVLA 的“集成式安全方法”,用 min-max 视角对抗被引出的安全风险,在安全与性能间权衡。

评测指标里那些缩写/术语

  • Safety Cost:SafeVLA 引入,用来量化训练/部署时的风险或约束违反(不安全动作、碰撞、危险状态转移等)。
  • Cycle Time:RLDG 与 CO-RFT 引入,衡量“采数→更新→部署”一轮真实学习周期的时间效率。
  • Episode Length:ConRFT 用它当鲁棒性代理,太短往往意味着不稳定或不安全探索。
  • Intervention Rate:ConRFT 引入,衡量人类介入频率;越低意味着越自治、越安全。

10) DT 的“双重含义”:Decision Transformer vs Digital Twin

  • DT(Decision Transformer):DT 作为算法缩写之一(与 RTG 等并列)。
  • DT(Digital Twin,数字孪生):在 sim-to-real/平台部分,用高保真数字孪生做 real-to-sim-to-real(例如 DREAM 里“create high-fidelity DTs”)。

方法


1) GRPO(Group Relative Policy Optimization)

  • 是什么Group Relative Policy Optimization(组相对策略优化)。
  • 在 RL-VLA 里干什么 → 被用作在线 RL-VLA 的策略优化算法: SimpleVLA-RL 用 GRPO 做更“稳定”的策略更新,并在 LIBERO 上收益明显;同时 RLVLA 也对比了 DPO / PPO / GRPO 在在线 RL 微调 VLA 时对 OOD 泛化的影响。
  • 坑点 → 在线 RL-VLA 的通用大坑:真实环境非平稳+多模态噪声会让“本来在仿真/静态基准上设计的优化法”也很难保持稳定更新。

2) LOOP(Leave-One-Out Proximal Policy Optimization)

  • 是什么Leave-One-Out Proximal Policy Optimization
  • 在 RL-VLA 里干什么 → 把它放在“世界模型/想象轨迹”那条线上:World-Env 管线里,VLA 产出动作序列→世界模型预测未来观测→VLM做语义反思,然后用 LOOP 做策略精炼
  • 坑点 → 世界模型路线的核心坑:世界模型对新场景/新形体/新机器人形态泛化差,想象轨迹一旦“偏”,后面再怎么优化也可能在错误的世界里越走越远。

3) TPO(Trajectory-wise Preference Optimization)

  • 是什么Trajectory-wise Preference Optimization(按“整段轨迹”做偏好优化)。

  • 在 RL-VLA 里干什么 → 用于“偏好对齐/对齐到想要的行为”: GRAPE 通过生成定制化 cost,在轨迹级数据上优化,从而按偏好对齐 VLA

  • 坑点 → 轨迹级方法最常见的两类坑:

    1. 偏好信号稀疏/延迟(轨迹结束才知道好坏),会让优化更难;
    2. 真实任务动作空间巨大且动态,轨迹级优化更容易受噪声与非平稳影响,更新不稳。

4) PA-RL(Policy-Agnostic RL)

  • 是什么Policy-Agnostic RL
  • 在 RL-VLA 里干什么 → 把它归到“Training Stability(训练稳定性)”相关工作里。
  • 坑点 → 主要就是“训练稳定性”那套通用问题:真实环境噪声、非平稳、导致更新不可靠。

5) SACfD(Soft Actor-Critic from Demonstrations)

  • 是什么Soft Actor-Critic from Demonstrations
  • 在 RL-VLA 里干什么 → 典型用法是“用演示数据/示教先验提高样本效率”, iRe-VLA 的算法就是 SACfD + SFT
  • 坑点 → 在线 RL-VLA 里样本昂贵,大家都在“榨干演示先验”;但:样本效率仍受限,很多方法只在特定任务/环境里提高数据利用,难以跨域迁移

6) RECAP(综述里作为算法名出现)

  • 是什么 → 把 RECAP 列为 π0.6 [88] 的算法(但表头并未给出 RECAP 的英文全称展开)。
  • 在 RL-VLA 里干什么 → 放在 Offline RL-VLA 的 “Customized Representation(定制化表征/信号改造)” 路线:综述明确说 π*0.6 用预训练 value function 把 value“二值化”来条件化 VLA,同时利用失败与成功数据
  • 坑点 → 离线 RL-VLA 的核心坑来自“数据集长什么样”:数据质量与结构不平衡会加剧分布偏移;任务覆盖不均、奖励信号不全会让 OOD 泛化变差。

7) PLD(综述里作为方法名出现:Residual RL 做数据生成)

  • 是什么 → PLD [81] 这篇工作的标题是 “Self-improving VLA models with data generation via residual RL”(用 residual RL 做数据生成、推动自我提升)。
  • 在 RL-VLA 里干什么 → 把它放进 **Online RL-VLA 的 Active Exploration(主动探索)**方向;表 I 里 PLD 以 Cal-QL + SAC 作为算法组合出现。
  • 坑点 → 主动探索类方法的硬坑通常不是“会不会动”,而是:探索到的数据是否能跨任务/跨域复用。当前在线 RL-VLA 的样本效率与可扩展性仍有限,且难以把经验迁移到多样目标/域。

8) SRPO(Self-Referential Policy Optimization)

  • 是什么 → SRPO:Self-Referential Policy Optimization(自指式策略优化)。

  • 在 RL-VLA 里干什么 → 关键的一句话:用策略自己成功的轨迹作为“自参照”,产生渐进式奖励,不需要人工奖励标注

  • 坑点 → 两个典型风险:

    1. 自举偏差:如果“成功轨迹”定义或筛选带偏,奖励就会越滚越偏;
    2. 样本效率/泛化仍是瓶颈(同上,在线 RL-VLA 经验难迁移)。

PPO(Proximal Policy Optimization)

  • 是什么 → 综述在 RL 基础里把 PPO归为 policy-gradient 代表算法。
  • 在 RL-VLA 里干什么 → 大量在线后训练工作把 PPO 当“基础款”:FLaRe、RLRC、VLA-RL 等都用 PPO 做 post-training。
  • 坑点 → 真实环境非平稳+噪声→更新不稳;动作空间变大→优化更难。

DPO(Direct Preference Optimization)

  • 是什么Direct Preference Optimization
  • 在 RL-VLA 里干什么 → 用于偏好对齐/离线对齐:举例 NORA-1.5 用 offline DPO 来优化 VLA(用模型生成奖励)
  • 坑点 → 偏好/奖励质量强依赖数据与生成器;离线数据不均衡会导致分布偏移。

FPO(Flow Policy Optimization)与 ARFM(Adaptive Reinforced Flow Matching)

  • 是什么 → FPO:Flow Policy Optimization;ARFM:Adaptive Reinforced Flow Matching
  • 在 RL-VLA 里干什么 → 面向 **flow-matching 这类“生成式动作头”**的专用优化:FPO 用“每个样本的变化”替代 action probability,缩小 flow-head 与 RL 更新策略的差距、提高收敛稳定性;ARFM 用动态缩放因子调样本权重,提升样本利用与稳定训练。
  • 坑点 → 生成式 VLA 的密度/概率是近似的,只在高回报区域调参会导致局部信号累积失配,多步生成+迭代更新后可能扭曲甚至“塌缩”原动作分布。

Cal-QL / CQL / BC(离线 RL 常见三件套)

  • 是什么 → CQL:Conservative Q-Learning;Cal-QL:Calibrated Q-Learning;BC:Behavior Cloning
  • 在 RL-VLA 里干什么 → “保守约束”路线:限制策略更新不偏离数据分布,减少离线外推带来的分布偏移;ConRFT 把 BC + Cal-QL 结合来做更稳定的 value 估计,并缓解分布偏移。
  • 坑点 → 离线数据集若任务覆盖不均、奖励不完整,会直接拖垮 OOD 泛化。

RLOO(Leave-One-Out advantage,出现在 RIPT-VLA)

  • 是什么 → RLOO(leave-one-out)优势估计(综述在正文里点到“Leave-One-Out advantage estimation”。)
  • 在 RL-VLA 里干什么 → 和 PPO 组合用于 post-training,使学习更高效,且不需要 shaped reward 或 value function
  • 坑点 → 仍绕不开在线 RL-VLA 的稳定性与现实噪声问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值