引言
具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标,而视觉 - 语言 - 动作(VLA)模型作为其中的关键技术,近年来备受关注。VLA 模型能够处理视觉、语言和动作信息,使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容,对主流的 VLA 方案进行总结,包括其开源项目、核心思想、结论共识以及未来发展方向,希望能为关注具身智能领域的读者提供有价值的参考。
一、VLA 方案总览
(一)基于经典 Transformer 结构方案
- 代表性开源项目:ALOHA(ACT)系列、RT-1、HPT等。
- 核心思想:利用强化学习轨迹与序列建模问题结构的自然对齐性,采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模,有效提升了模型在复杂环境中的决策能力。例如,在机器人控制任务中,模型可以根据过去的状态和动作序列,预测未来的最优动作,从而更好地适应复杂环境中的变化。
(二)基于预训练 LLM/VLM 方案
- 代表性开源项目:RT - 2、OpenVLA 等。
- 核心思想:将 VLA 任务视为一个序列到序列的生成问题,利用预训练的语言模型(LLM)或视觉语言模型(VLM)来处理视觉和语言信息,并生成相应的动作。以 RT - 2 为例,它通过共同微调,使模型适应互联网规模的视觉问答数据和机器人数据,从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时,能够借助预训练模型对语言和视觉信息的理解,更准确地生成合适的动作指令,为机器人在复杂任务中的执行提供了有力支持。
(三)基于扩散模型方案
- 代表性开源项目:Diffusion Policy、RDT - 1B 等。
- 核心思想:将机器人策略建模为去噪扩散概率模型(DDPM),通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术,如后退视域控制、视觉条件和时间序列扩散变压器,在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时,该模型能够有效地生成稳定且多样化的动作,为机器人在复杂环境中的动作生成提供了新的思路和方法。
(四)LLM + 扩散模型方案
- 代表性开源项目:Octoπ0 等。
- 核心思想:结合 LLM 和扩散模型的优势,LLM 用于压缩多模态表征,扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合,在不同机器人和任务中实现了正向转移和泛化,提高了模型在复杂任务中的性能和适应性。例如,在多模态信息处理中,LLM 可以对视觉和语言信息进行初步的理解和整合,然后扩散模型根据这些信息生成精确的动作轨迹,使机器人能够更好地完成任务。
(五)视频生成 + 逆运动学方案
- 代表性开源项目:UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
- 核心思想:先根据首帧和指令生成运动视频,再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态,然后利用逆运动学将预测的状态转换为可执行的动作,提高了动作生成的可解释性和准确性。以 UniPiRo 为例,它根据给定的初始帧和指令生成运动视频,该视频展示了机器人在未来一段时间内的预期运动轨迹,然后通过逆运动学将视频中的状态转换为具体的关节动作,使机器人能够按照预期轨迹运动,在机器人控制任务中具



9011

被折叠的 条评论
为什么被折叠?



