VLA (视觉-语言-动作) 模型学习路线规划

原创已于 2025-11-20 14:24:34 修改 · 1.8k 阅读

52 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#学习 #人工智能

于 2025-11-20 14:13:12 首次发布

VLA 专栏收录该内容

2 篇文章

订阅专栏

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

「The Leather Archive」是一个基于 Anything V5 与 Stable Yogi 皮衣系列 LoRA 构建的高端 AI 穿搭实验室。与传统的工具化界面不同，本项目采用了非对称剪贴报布局 (Asymmetrical Zine Layout)，旨在为 AI 绘画提供一种如时尚杂志内页般的沉浸式创作体验。

Qwen 推荐路线

作为2025年最热门的机器人AI研究方向之一，VLA（Vision-Language-Action）确实值得深入学习。根据最新研究动态，规划一条从入门到进阶的学习路线。

一、预备知识（1-2个月）

在深入VLA前，需要打好以下基础：

计算机视觉基础
- 目标检测、语义分割、姿态估计
- 推荐资源：CS231n (Stanford) 课程、《深度学习计算机视觉》
自然语言处理基础
- Transformer架构、预训练语言模型
- 推荐资源：CS224n (Stanford) 课程、Hugging Face教程
机器人学基础
- 机器人运动学、控制理论
- 推荐资源：《机器人学导论》(Siciliano)、ROS教程
深度学习进阶知识
- 多模态学习、表示学习
- 推荐资源：《深度学习》(花书) 相关章节

二、VLA核心概念与技术（2-3个月）

基础概念

VLA严格定义：使用在互联网规模视觉-语言数据上预训练的骨干网络，能将视觉观察+语言指令映射到机器人动作
与相关概念的区别：
- 多模态策略(Multimodal Policies)：没有经过视觉-语言联合预训练
- 大型行为模型(LBMs)：强调在大量机器人演示数据上训练

关键技术模块

跨模态融合架构
- 参数高效融合技术
- 视觉-语言对齐方法
动作表示学习
- 动作分词器(Action Tokenizer)
- ActionVAE等动作编码技术
预训练-微调范式
- 互联网规模预训练
- 机器人领域适应

三、必读论文与开源项目（持续更新）

入门必读（按学习顺序）

基础性工作
- 《RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Manipulation》 (Google, 2023)
- 《VIMA: General Robot Manipulation with Multimodal Prompts》 (Stanford, 2022)
最新突破（2025年）
- 《RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation》 (阿里达摩院，2025)
  - 亮点：通过1200万段人类第一人称视频学习，三阶段训练框架
- 《DISCRETE DIFFUSION VLA》 (ICLR 2026)
- 《ACTIONS AS LANGUAGE》 (ICLR 2026)
综述文献
- 《ICLR 2026 VLA研究现状深度剖析》 (Moritz Reuss, 2025)
- 《最火VLA，看这一篇综述就够了》(CSDN技术社区，2025)

开源项目

RynnVLA-001 (阿里达摩院)
OpenVLA (社区维护的开源VLA框架)
dVLA (离散扩散VLA实现)

四、实践项目路线

初级项目（3-4周）

环境搭建
- 安装ROS2、PyTorch、RLBench或ManiSkill仿真环境
- 配置基础VLA模型推理环境
简单任务实现
- 在仿真环境中实现简单的"拾取-放置"任务
- 尝试使用预训练的开源VLA模型完成指定任务

中级项目（1-2个月）

RynnVLA-001复现
- 在简化环境中实现其三阶段训练流程
- 重点理解从人类视频到机器人动作的知识迁移
具身思维链(ECoT)实验
- 实现一个简单的"先想后做"机制
- 比较有/无ECoT的性能差异

高级项目（2-3个月）

跨体态学习实验
- 尝试让一个VLA模型适应不同机械臂构型
- 探索软提示(soft-prompting)或适配器(adapter)方案
真实机器人部署
- 在小型桌面机械臂上部署简单VLA模型
- 分析Sim2Real差距及解决方案

五、2025-2026年热点方向（选择1-2个深入）

根据ICLR 2026投稿趋势，以下方向最具潜力：

离散扩散VLA：解决自回归生成效率瓶颈
具身思维链(ECoT)：提升复杂任务推理能力
人类视频到机器人技能迁移：如RynnVLA-001的路线
高效VLA：降低计算成本，适合边缘部署
上下文学习(In-context Learning)：少样本适应新任务

六、学习社区与资源

学术会议
- 重点关注：ICLR、RSS、CoRL、NeurIPS、CVPR
- 特别推荐：ICLR 2026的VLA专题(投稿量同比增长18倍!)
开源社区
- Hugging Face机器人专区
- GitHub上的VLA相关项目
- RoboGym挑战赛
行业动态
- 阿里达摩院、Google Robotics、特斯拉的VLA进展
- 小鹏汽车VLA 2.0等工业界实现

七、实用建议

避免常见误区
- 不要过度关注仿真基准分数(LIBERO等已被饱和)
- 重视真实世界能力而非仅关注模型规模
学习节奏
- 前3个月：专注基础+1-2篇核心论文精读
- 4-6个月：完成1-2个中级项目
- 6个月后：选择热点方向深入研究
就业/研究方向选择
- 工业界：关注效率优化、Sim2Real迁移、工程落地
- 学术界：探索基础架构创新、新评测基准、跨领域迁移

八、资源汇总表

类别	资源名称	链接/获取方式	适合阶段
课程	CS330 (多模态学习)	Stanford Online	基础阶段
代码库	RynnVLA-001官方实现	https://github.com/alibaba-damo-academy/RynnVLA-001	中级
仿真环境	RLBench	pip install rlbench	初级
评测基准	LIBERO	https://libero-benchmark.github.io	中级
论文集	ICLR 2026 VLA投稿	OpenReview	进阶

特别提示：根据最新研究，RynnVLA-001的成功表明视频预训练和轨迹感知是VLA性能突破的关键。初学者建议从理解其三阶段训练流程入手，这比单纯追求模型规模更能提升真实世界性能。

希望这条学习路线对你有所帮助！VLA领域发展迅速，建议每2-3个月重新评估研究热点，调整学习重点。

Google Gemin 推荐路线

欢迎来到 具身智能 (Embodied AI) 的世界！VLA (Vision-Language-Action) 模型是当前机器人学习皇冠上的明珠，它试图让机器人像 ChatGPT 理解文本一样，通过视觉观察世界，理解语言指令，并直接输出机械臂的动作。

作为一个初学者，直接阅读所有论文容易迷失。为了帮你高效入门，我将为你梳理一条从 基础原理 到 前沿模型 的学习路线，并重点介绍必须精读的核心论文。

🚀 VLA 学习路线图 (Roadmap)

为了系统性掌握 VLA，建议按照以下四个阶段进阶：

第一阶段：地基搭建 (基础知识)

不要急着看 VLA，先理解它的三个组成部分：

Vision (视觉): 了解 ViT (Vision Transformer) 和 CLIP。VLA 极其依赖 CLIP 将图像和文本对齐。
Language (语言): 理解 Transformer 的 Decoder 架构 (GPT) 和 Tokenization (分词) 机制。
Action (动作): 了解 Imitation Learning (模仿学习) 和 Behavior Cloning (行为克隆) 的基本概念。

第二阶段：开山之作 (必读经典)

这一阶段主要关注 Google DeepMind 的工作，它们定义了 VLA 的范式。

核心思想: 将“动作”也视为一种“语言”，把 $\to Action$ 变成一个 Token 预测问题。

第三阶段：开源爆发 (当前主流)

Google 的模型通常闭源，这一阶段你需要学习开源社区的成果，这些是目前最活跃的研究方向。

重点: 通用性 (Generalization) 和跨形态 (Cross-Embodiment)。

第四阶段：前沿与挑战 (进阶研究)

方向: 数据集 (Open X-Embodiment)、推理加速、以及 Sim-to-Real (仿真到现实)。

📚 核心论文与关键技术整理

以下我为你精选了从入门到进阶的必读论文，按重要性排序：

1. 定义时代的里程碑 (Google DeepMind 系列)

模型名称	论文标题	核心贡献 (一句话总结)
RT-1	RT-1: Robotics Transformer for Real-World Control at Scale	VLA的前身。证明了 Transformer 可以通过 Tokenize 图像和动作指令来通过行为克隆控制机器人。
PaLM-E	PaLM-E: An Embodied Multimodal Language Model	多模态注入。将图像作为连续向量注入 LLM，让 LLM 具备“看图说话”并进行逻辑规划的能力，但不直接输出底层动作。
RT-2	RT-2: Vision-Language-Action Models	VLA 的真正定义者。直接微调 VLM，将机器人的动作离散化为 Token (例如: “Move hand 10, 12”)，与文本 Token 一起训练。拥有了 LLM 的泛化能力。

💡 学习重点: 阅读 RT-2 时，重点理解它是如何将连续的机械臂动作 (x, y, z, yaw, pitch, roll) 转化成离散的 Token (Integers) 的。这是 VLA 的核心魔法。

2. 开源社区的崛起 (2023-2024 必读)

Google 的模型太大且不开源，以下模型更适合学术研究和复现：

Octo
- 论文: Octo: An Open-Source Generalist Robot Policy
- 特点: 基于 Transformer Diffusion Policy。它不是基于 LLM 的 VLA，但它是目前最强的开源通用策略模型，使用了由 Open X-Embodiment (最大的机器人数据集) 训练而来。
- 为什么学: 它是目前开源界的基准 (Baseline)。
OpenVLA (🔥 最新热门)
- 论文: OpenVLA: An Open-Source Vision-Language-Action Model
- 特点: 基于 Llama 2/3 和 Prismatic VLM 微调。
- 创新: 相比 RT-2，它使用了 Action Detokenization 的技巧，并且通过量化 (Quantization) 可以在消费级显卡上运行。
- 地位: 目前最强的开源 VLA 模型之一。
ACT / Mobile ALOHA (虽然不是纯 VLA，但必须了解)
- 论文: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
- 核心: Action Chunking Transformer (ACT)。
- 为什么学: 它解决了动作生成的平滑性和精度问题，现在的 VLA 研究经常会结合 ACT 的思想。

3. 数据集 (燃料)

没有数据就没有 VLA。你需要了解数据的来源：

Open X-Embodiment: 机器人领域的 ImageNet。汇集了全球实验室的机器人数据，旨在训练通用的 Robot Brain。

🛠️ 建议的起步实践 (Hands-on)

只读论文是不够的，建议按以下步骤动手：

玩转 Hugging Face: 去 Hugging Face 上找 OpenVLA 的模型页面，尝试跑通它的推理 Demo (Inference)。
配置环境: 尝试配置 SimplerEnv 或 Maniskill2。这是两个主流的仿真环境，你可以在不用买实体机器人的情况下，测试 VLA 模型的性能。
微调 (Fine-tuning): 下载一个小规模数据集 (例如 BridgeData V2)，尝试用 LoRA (Low-Rank Adaptation) 技术微调一个小的 VLM 模型来输出动作。

📝 总结：你的第一周学习计划

Day 1-2: 阅读 RT-1 和 RT-2 的论文。不要纠结数学细节，看懂架构图 (Architecture Figure)。
Day 3: 阅读 OpenVLA 论文，这是你目前最可能用到的模型。
Day 4: 了解 Open X-Embodiment 数据集项目，理解为什么“跨形态”训练很难。
Day 5: 在 GitHub 上搜索 OpenVLA 的代码库，尝试 Clone 下来读一读 inference.py，看看代码里是怎么把图片变成动作的。