具身智能中 VLA 主流方案

最新推荐文章于 2026-03-29 18:08:30 发布

原创

最新推荐文章于 2026-03-29 18:08:30 发布 · 5k 阅读

标签

#人工智能 #机器人

引言

具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标，而视觉 - 语言 - 动作（VLA）模型作为其中的关键技术，近年来备受关注。VLA 模型能够处理视觉、语言和动作信息，使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容，对主流的 VLA 方案进行总结，包括其开源项目、核心思想、结论共识以及未来发展方向，希望能为关注具身智能领域的读者提供有价值的参考。

一、VLA 方案总览

（一）基于经典 Transformer 结构方案

代表性开源项目：ALOHA(ACT)系列、RT-1、HPT等。
核心思想：利用强化学习轨迹与序列建模问题结构的自然对齐性，采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模，有效提升了模型在复杂环境中的决策能力。例如，在机器人控制任务中，模型可以根据过去的状态和动作序列，预测未来的最优动作，从而更好地适应复杂环境中的变化。

（二）基于预训练 LLM/VLM 方案

代表性开源项目：RT - 2、OpenVLA 等。
核心思想：将 VLA 任务视为一个序列到序列的生成问题，利用预训练的语言模型（LLM）或视觉语言模型（VLM）来处理视觉和语言信息，并生成相应的动作。以 RT - 2 为例，它通过共同微调，使模型适应互联网规模的视觉问答数据和机器人数据，从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时，能够借助预训练模型对语言和视觉信息的理解，更准确地生成合适的动作指令，为机器人在复杂任务中的执行提供了有力支持。

（三）基于扩散模型方案

代表性开源项目：Diffusion Policy、RDT - 1B 等。
核心思想：将机器人策略建模为去噪扩散概率模型（DDPM），通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术，如后退视域控制、视觉条件和时间序列扩散变压器，在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时，该模型能够有效地生成稳定且多样化的动作，为机器人在复杂环境中的动作生成提供了新的思路和方法。

（四）LLM + 扩散模型方案

代表性开源项目：Octoπ0 等。
核心思想：结合 LLM 和扩散模型的优势，LLM 用于压缩多模态表征，扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合，在不同机器人和任务中实现了正向转移和泛化，提高了模型在复杂任务中的性能和适应性。例如，在多模态信息处理中，LLM 可以对视觉和语言信息进行初步的理解和整合，然后扩散模型根据这些信息生成精确的动作轨迹，使机器人能够更好地完成任务。

（五）视频生成 + 逆运动学方案

代表性开源项目：UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
核心思想：先根据首帧和指令生成运动视频，再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态，然后利用逆运动学将预测的状态转换为可执行的动作，提高了动作生成的可解释性和准确性。以 UniPiRo 为例，它根据给定的初始帧和指令生成运动视频，该视频展示了机器人在未来一段时间内的预期运动轨迹，然后通过逆运动学将视频中的状态转换为具体的关节动作，使机器人能够按照预期轨迹运动，在机器人控制任务中具