RL-VLA中一些英文缩写的介绍和解释

最新推荐文章于 2026-03-24 15:45:16 发布

原创最新推荐文章于 2026-03-24 15:45:16 发布 · 1.2k 阅读

·

25

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#VLA #RL #人工智能 #机器人 #Robotics

名词

1) VLA / VLM / IL / SFT / BC

VLA（Vision-Language-Action）

是什么：把“看见的图像 + 语言指令”直接映射成“机器人动作”的端到端策略模型。论文强调它把感知、语言理解、动作生成统一在一个框架里，而不是传统那种“感知模块 + 规划模块 + 控制模块”拼装。
在 RL-VLA 里干什么：VLA 的“policy decoder”输出动作；RL 的作用是让这个端到端策略在交互反馈下变得更稳、更能适应新情况（尤其是 OOD）。
容易误解点：VLA 不是“只会语言的机器人”；它的关键是动作头（action head）：可以是离散 token（自回归）也可以是连续轨迹生成（扩散/flow）。

VLM（Vision-Language Model）

是什么：视觉-语言预训练骨干，用来把图像与指令编码成“可融合的表征”；VLA 通常“站在 VLM 的肩膀上”。
在 RL-VLA 里干什么：举例：在线 RL 时，有工作用 VLM 做“robotic process reward model”，帮助解决稀疏奖励问题。

IL（Imitation Learning）/ SFT（Supervised Fine-Tuning）/ BC（Behavior Cloning）

是什么：VLA 最主流的预训练方式是 IL，通常实现为 SFT 或 BC：用遥操作/专家数据，让策略最大化“给定观测下专家动作的似然”。
为什么不够：论文明确说它受限于演示数据的质量与覆盖，在 domain shift / OOD 情况下仍会出问题，因此才引入 RL 来增强适应性与鲁棒性。

2) MDP / State / Action chunk：RL-VLA 到底在优化什么？

MDP（Markov Decision Process）

是什么：机器人操控被形式化为 $\gamma))$ ；RL 学的是策略 $(πθ(at∣st))(\pi_\theta(a_t|s_t))$ 最大化折扣回报。
RL-VLA 的特殊点：状态 (s_t) 不是低维向量，而是多模态高维：视觉观测 + 本体感知（关节角、末端位姿等）+ 语言指令。

Action chunk（动作分块）

是什么：VLA 往往不是一步一动作，而是一次输出一段动作 $a_{t:t+k-1})$ （动作块），通过扩散解码器或 action tokenizer 来实现。
为什么重要：这会直接影响 RL 目标怎么写——传统 TD/策略梯度默认一步动作，但动作分块会让“信用分配”和“稳定训练”更难，于是才出现 CO-RFT 这类专门兼容 action chunking 的离线 RL 设计。

3) Offline / Online / Test-time RL：三种“把 RL 接到 VLA 上”的范式

Offline RL

定义：在静态数据集上训练，不与环境交互，适合高风险/资源有限设置。
它比 IL 强在哪：不是“模仿演示”，而是用过去经验去优化长期回报，从而提高 OOD 泛化。
数据要求苛刻：需要包含完整 MDP tuple 的大数据集，但很多现有数据来自 IL/SFT，缺奖励、动力学、失败案例，限制了价值估计与泛化。

Online RL

定义：通过试错主动收集新经验来改进策略。
典型用法：以 VLA-RL、SimpleVLA-RL 为例：通过交互与奖励信号，使策略能发现演示数据之外的新模式。

Test-time RL（部署时适应）

定义：部署时通过轻量更新/adapter 或推理期机制进行适应，避免昂贵的全模型微调。
三大类机制：价值引导、记忆库引导、结构化规划。

4) DQN / PPO / SAC / Actor-Critic / On-policy / Off-policy / MF / MB：RL 算法家族谱

DQN（Deep Q-Network）

是什么：价值型方法，学 (Q(s,a)) 或 (V(s))，用它决定动作。
在 RL-VLA 里常见角色：更像“价值评估器/打分器”的思想来源（比如 test-time rerank 用 value）。

PPO（Proximal Policy Optimization）

是什么：策略梯度方法，直接对策略参数做优化。
为什么常用：在大模型策略上训练相对稳定（所以很多在线 RL-VLA 选它）。

SAC（Soft Actor-Critic）与 Actor-Critic

Actor-Critic 是什么：同时学策略（actor）和价值（critic）。
SAC 是什么：一种 actor-critic；论文用它当典型例子。

On-policy vs Off-policy

定义：on-policy 用当前策略采的数据学；off-policy 用回放池等历史数据学。

MF / MB（Model-Free / Model-Based）

MF：不显式学环境转移模型，直接从交互学策略。
MB：先学或利用转移模型 $p(s_{t+1}|s_t,a_t))$ 再规划/生成 rollouts；论文也强调“预测性 world model”是未来提升样本效率的重要方向。

5) AR / Diffusion / Flow；D / S：动作头与奖励密度

AR（Autoregressive，自回归动作）

是什么：把动作离散化成 token，像语言模型一样逐 token 预测。
RL-VLA 里为什么方便：因为 AR 模型天然有“token 预测概率”，RL 可以直接利用这些概率做更稳定的优化

Diffusion（扩散动作头）

是什么：直接生成动作轨迹（去噪生成），更适合连续轨迹一致性。
难点：扩散/生成式动作头没有显式动作概率，RL 目标不容易写，需要“重参数化/近似概率”。

Flow（Flow-matching 动作头）

是什么：另一类生成式动作头（flow matching），同样生成轨迹。
与 RL 的对接方式：典型思路是通过 Flow-SDE 等方式得到近似概率或等价训练信号。

D / S（Dense / Sparse Reward）

是什么：稠密奖励 vs 稀疏奖励。
RL-VLA 里常见组合： reward 往往是“成功的稀疏二值信号 + 过程型稠密奖励（如距离目标）”。

6) TD / CO-RFT / TGRPO：为“动作分块 + 大模型动作 token”量身定制的 RL 目标

TD（Temporal Difference）

是什么：用“下一步的估计”来更新当前的价值估计，是很多离线 RL 的核心。
怎么用：CO-RFT 把 TD 学习扩展到能兼容 VLA 的 action chunking。

CO-RFT（Chunked RL / Chunked RL Fine-Tuning）

核心点：它不是“换一个 RL 算法名字”，而是解决“VLA 一次输出动作块”导致 TD/一致性不适配的问题。

TGRPO（Trajectory-wise Group Relative Policy Optimization）

核心点：把策略梯度目标改写成token 级别的交叉熵损失，再用 advantage 加权，从而在不改变动作头形式的情况下稳定做 RL 微调。

7) πRL / Flow-SDE / FPO / ARFM：生成式动作头如何“被 RL 监督”

Flow-SDE

是什么（在文中语境）：一种把生成/去噪过程连续化建模的方式，用来构造可用于 RL 更新的近似概率信号。

πRL

核心点：用 Flow-SDE 或 Flow-Noise 干预来去噪，从而生成“动作分配的近似概率”，使其能对齐现有 RL policy update。

FPO（Flow Policy Optimization）

核心点：用“每个样本的变化”来替代动作概率，缩小 flow-matching head 与 RL 更新策略之间的 gap，提高收敛稳定性。

ARFM（Adaptive Reinforced Flow Matching）

核心点：通过动态调整缩放因子来更新样本权重，提高样本利用效率并让 RL-VLA 训练更稳定。

8) Test-time 相关缩写：V-GPS / Hume / STRAP / RA-DT / ReSA / MCTS / BGR

A) Value Guidance：V-GPS / Hume

V-GPS（Value-Guided Policy Steering）：用预训练 value function 给 base policy 产生的动作候选重排，选预测价值最高的那个；关键是不更新权重。
Hume：双系统架构里的“value-guided thinking”：生成多个动作候选，用专门的 value-query head 选最有希望的。

B) Memory Buffer Guidance：STRAP / RA-DT / ReSA

STRAP：维护一个紧凑但表达力强的“pattern library”，推理时按相似度检索并取出轨迹子片段辅助决策。
RA-DT（Retrieval-Augmented Decision Transformer）：保存外部记忆，从过去经验里检索相关子轨迹，做 in-context 决策。
ReSA：从 replay buffer 里用“内在质量评估”挑选高质量成功轨迹进行选择性模仿，确保不偏离任务目标。

C) Planning-guided：MCTS / BGR / VLA-Reasoner

MCTS（Monte Carlo Tree Search）：在线树搜索；VLA-Reasoner 用 base policy 的初始动作预测作起点，模拟未来结果来搜更优动作。
BGR（Bellman-Guided Retrials）：用单独训练的 value function 估计 time-to-completion，并在测试时监测自身预测是否不一致；一旦检测到偏离成功轨迹就触发纠错动作。

9) 安全与真机：HiL / HIL-SERL / CR-DAgger / CMDP / ISA，以及评测指标缩写

HiL（Human-in-the-Loop）

定义：把人类专家“接入训练回路”，用纠错、复位、课程设计等加速收敛并降低危险探索。
Human corrective intervention / recovery assistance / curriculum design 这些都是 HiL 的细分形式，论文逐条解释了。

HIL-SERL / CR-DAgger

HIL-SERL：引入人类实时纠错反馈来快速学精细/高灵巧操控。
CR-DAgger：提供柔顺、力敏接口让人类平滑纠错，并学习 residual policy 用力反馈提升接触丰富操控。

CMDP（Constrained MDP）/ ISA（Integrated Safety Approach）

CMDP 是什么：在 MDP 上加“安全/风险约束”。“Real-time safety enforcement”里明确提到用 CMDP 范式来做安全优化。
ISA 是什么：SafeVLA 的“集成式安全方法”，用 min-max 视角对抗被引出的安全风险，在安全与性能间权衡。

评测指标里那些缩写/术语

Safety Cost：SafeVLA 引入，用来量化训练/部署时的风险或约束违反（不安全动作、碰撞、危险状态转移等）。
Cycle Time：RLDG 与 CO-RFT 引入，衡量“采数→更新→部署”一轮真实学习周期的时间效率。
Episode Length：ConRFT 用它当鲁棒性代理，太短往往意味着不稳定或不安全探索。
Intervention Rate：ConRFT 引入，衡量人类介入频率；越低意味着越自治、越安全。

10) DT 的“双重含义”：Decision Transformer vs Digital Twin

DT（Decision Transformer）：DT 作为算法缩写之一（与 RTG 等并列）。
DT（Digital Twin，数字孪生）：在 sim-to-real/平台部分，用高保真数字孪生做 real-to-sim-to-real（例如 DREAM 里“create high-fidelity DTs”）。

方法

1) GRPO（Group Relative Policy Optimization）

是什么 → Group Relative Policy Optimization（组相对策略优化）。
在 RL-VLA 里干什么 → 被用作在线 RL-VLA 的策略优化算法： SimpleVLA-RL 用 GRPO 做更“稳定”的策略更新，并在 LIBERO 上收益明显；同时 RLVLA 也对比了 DPO / PPO / GRPO 在在线 RL 微调 VLA 时对 OOD 泛化的影响。
坑点 → 在线 RL-VLA 的通用大坑：真实环境非平稳+多模态噪声会让“本来在仿真/静态基准上设计的优化法”也很难保持稳定更新。

2) LOOP（Leave-One-Out Proximal Policy Optimization）

是什么 → Leave-One-Out Proximal Policy Optimization。
在 RL-VLA 里干什么 → 把它放在“世界模型/想象轨迹”那条线上：World-Env 管线里，VLA 产出动作序列→世界模型预测未来观测→VLM做语义反思，然后用 LOOP 做策略精炼。
坑点 → 世界模型路线的核心坑：世界模型对新场景/新形体/新机器人形态泛化差，想象轨迹一旦“偏”，后面再怎么优化也可能在错误的世界里越走越远。

3) TPO（Trajectory-wise Preference Optimization）

是什么 → Trajectory-wise Preference Optimization（按“整段轨迹”做偏好优化）。
在 RL-VLA 里干什么 → 用于“偏好对齐/对齐到想要的行为”： GRAPE 通过生成定制化 cost，在轨迹级数据上优化，从而按偏好对齐 VLA。
坑点 → 轨迹级方法最常见的两类坑：
1. 偏好信号稀疏/延迟（轨迹结束才知道好坏），会让优化更难；
2. 真实任务动作空间巨大且动态，轨迹级优化更容易受噪声与非平稳影响，更新不稳。

4) PA-RL（Policy-Agnostic RL）

是什么 → Policy-Agnostic RL。
在 RL-VLA 里干什么 → 把它归到“Training Stability（训练稳定性）”相关工作里。
坑点 → 主要就是“训练稳定性”那套通用问题：真实环境噪声、非平稳、导致更新不可靠。

5) SACfD（Soft Actor-Critic from Demonstrations）

是什么 → Soft Actor-Critic from Demonstrations。
在 RL-VLA 里干什么 → 典型用法是“用演示数据/示教先验提高样本效率”， iRe-VLA 的算法就是 SACfD + SFT。
坑点 → 在线 RL-VLA 里样本昂贵，大家都在“榨干演示先验”；但：样本效率仍受限，很多方法只在特定任务/环境里提高数据利用，难以跨域迁移。

6) RECAP（综述里作为算法名出现）

是什么 → 把 RECAP 列为 π0.6 [88] 的算法（但表头并未给出 RECAP 的英文全称展开）。
在 RL-VLA 里干什么 → 放在 Offline RL-VLA 的 “Customized Representation（定制化表征/信号改造）” 路线：综述明确说 π*0.6 用预训练 value function 把 value“二值化”来条件化 VLA，同时利用失败与成功数据。
坑点 → 离线 RL-VLA 的核心坑来自“数据集长什么样”：数据质量与结构不平衡会加剧分布偏移；任务覆盖不均、奖励信号不全会让 OOD 泛化变差。

7) PLD（综述里作为方法名出现：Residual RL 做数据生成）

是什么 → PLD [81] 这篇工作的标题是 “Self-improving VLA models with data generation via residual RL”（用 residual RL 做数据生成、推动自我提升）。
在 RL-VLA 里干什么 → 把它放进 **Online RL-VLA 的 Active Exploration（主动探索）**方向；表 I 里 PLD 以 Cal-QL + SAC 作为算法组合出现。
坑点 → 主动探索类方法的硬坑通常不是“会不会动”，而是：探索到的数据是否能跨任务/跨域复用。当前在线 RL-VLA 的样本效率与可扩展性仍有限，且难以把经验迁移到多样目标/域。

8) SRPO（Self-Referential Policy Optimization）

是什么 → SRPO：Self-Referential Policy Optimization（自指式策略优化）。
在 RL-VLA 里干什么 → 关键的一句话：用策略自己成功的轨迹作为“自参照”，产生渐进式奖励，不需要人工奖励标注。
坑点 → 两个典型风险：
1. 自举偏差：如果“成功轨迹”定义或筛选带偏，奖励就会越滚越偏；
2. 样本效率/泛化仍是瓶颈（同上，在线 RL-VLA 经验难迁移）。

PPO（Proximal Policy Optimization）

是什么 → 综述在 RL 基础里把 PPO归为 policy-gradient 代表算法。
在 RL-VLA 里干什么 → 大量在线后训练工作把 PPO 当“基础款”：FLaRe、RLRC、VLA-RL 等都用 PPO 做 post-training。
坑点 → 真实环境非平稳+噪声→更新不稳；动作空间变大→优化更难。

DPO（Direct Preference Optimization）

是什么 → Direct Preference Optimization。
在 RL-VLA 里干什么 → 用于偏好对齐/离线对齐：举例 NORA-1.5 用 offline DPO 来优化 VLA（用模型生成奖励）。
坑点 → 偏好/奖励质量强依赖数据与生成器；离线数据不均衡会导致分布偏移。

FPO（Flow Policy Optimization）与 ARFM（Adaptive Reinforced Flow Matching）

是什么 → FPO：Flow Policy Optimization；ARFM：Adaptive Reinforced Flow Matching。
在 RL-VLA 里干什么 → 面向 **flow-matching 这类“生成式动作头”**的专用优化：FPO 用“每个样本的变化”替代 action probability，缩小 flow-head 与 RL 更新策略的差距、提高收敛稳定性；ARFM 用动态缩放因子调样本权重，提升样本利用与稳定训练。
坑点 → 生成式 VLA 的密度/概率是近似的，只在高回报区域调参会导致局部信号累积失配，多步生成+迭代更新后可能扭曲甚至“塌缩”原动作分布。

Cal-QL / CQL / BC（离线 RL 常见三件套）

是什么 → CQL：Conservative Q-Learning；Cal-QL：Calibrated Q-Learning；BC：Behavior Cloning。
在 RL-VLA 里干什么 → “保守约束”路线：限制策略更新不偏离数据分布，减少离线外推带来的分布偏移；ConRFT 把 BC + Cal-QL 结合来做更稳定的 value 估计，并缓解分布偏移。
坑点 → 离线数据集若任务覆盖不均、奖励不完整，会直接拖垮 OOD 泛化。

RLOO（Leave-One-Out advantage，出现在 RIPT-VLA）

是什么 → RLOO（leave-one-out）优势估计（综述在正文里点到“Leave-One-Out advantage estimation”。）
在 RL-VLA 里干什么 → 和 PPO 组合用于 post-training，使学习更高效，且不需要 shaped reward 或 value function。
坑点 → 仍绕不开在线 RL-VLA 的稳定性与现实噪声问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。