Qwen 推荐路线
作为2025年最热门的机器人AI研究方向之一,VLA(Vision-Language-Action)确实值得深入学习。根据最新研究动态,规划一条从入门到进阶的学习路线。
一、预备知识(1-2个月)
在深入VLA前,需要打好以下基础:
-
计算机视觉基础
- 目标检测、语义分割、姿态估计
- 推荐资源:CS231n (Stanford) 课程、《深度学习计算机视觉》
-
自然语言处理基础
- Transformer架构、预训练语言模型
- 推荐资源:CS224n (Stanford) 课程、Hugging Face教程
-
机器人学基础
- 机器人运动学、控制理论
- 推荐资源:《机器人学导论》(Siciliano)、ROS教程
-
深度学习进阶知识
- 多模态学习、表示学习
- 推荐资源:《深度学习》(花书) 相关章节
二、VLA核心概念与技术(2-3个月)
基础概念
- VLA严格定义:使用在互联网规模视觉-语言数据上预训练的骨干网络,能将视觉观察+语言指令映射到机器人动作
- 与相关概念的区别:
- 多模态策略(Multimodal Policies):没有经过视觉-语言联合预训练
- 大型行为模型(LBMs):强调在大量机器人演示数据上训练
关键技术模块
-
跨模态融合架构
- 参数高效融合技术
- 视觉-语言对齐方法
-
动作表示学习
- 动作分词器(Action Tokenizer)
- ActionVAE等动作编码技术
-
预训练-微调范式
- 互联网规模预训练
- 机器人领域适应
三、必读论文与开源项目(持续更新)
入门必读(按学习顺序)
-
基础性工作
-
最新突破(2025年)
- 《RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation》 (阿里达摩院,2025)
- 亮点:通过1200万段人类第一人称视频学习,三阶段训练框架
- 《DISCRETE DIFFUSION VLA》 (ICLR 2026)
- 《ACTIONS AS LANGUAGE》 (ICLR 2026)
- 《RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation》 (阿里达摩院,2025)
-
综述文献
- 《ICLR 2026 VLA研究现状深度剖析》 (Moritz Reuss, 2025)
- 《最火VLA,看这一篇综述就够了》(CSDN技术社区,2025)
开源项目
- RynnVLA-001 (阿里达摩院)
- OpenVLA (社区维护的开源VLA框架)
- dVLA (离散扩散VLA实现)
四、实践项目路线
初级项目(3-4周)
-
环境搭建
- 安装ROS2、PyTorch、RLBench或ManiSkill仿真环境
- 配置基础VLA模型推理环境
-
简单任务实现
- 在仿真环境中实现简单的"拾取-放置"任务
- 尝试使用预训练的开源VLA模型完成指定任务
中级项目(1-2个月)
-
RynnVLA-001复现
- 在简化环境中实现其三阶段训练流程
- 重点理解从人类视频到机器人动作的知识迁移
-
具身思维链(ECoT)实验
- 实现一个简单的"先想后做"机制
- 比较有/无ECoT的性能差异
高级项目(2-3个月)
-
跨体态学习实验
- 尝试让一个VLA模型适应不同机械臂构型
- 探索软提示(soft-prompting)或适配器(adapter)方案
-
真实机器人部署
- 在小型桌面机械臂上部署简单VLA模型
- 分析Sim2Real差距及解决方案
五、2025-2026年热点方向(选择1-2个深入)
根据ICLR 2026投稿趋势,以下方向最具潜力:
- 离散扩散VLA:解决自回归生成效率瓶颈
- 具身思维链(ECoT):提升复杂任务推理能力
- 人类视频到机器人技能迁移:如RynnVLA-001的路线
- 高效VLA:降低计算成本,适合边缘部署
- 上下文学习(In-context Learning):少样本适应新任务
六、学习社区与资源
-
学术会议
- 重点关注:ICLR、RSS、CoRL、NeurIPS、CVPR
- 特别推荐:ICLR 2026的VLA专题(投稿量同比增长18倍!)
-
开源社区
- Hugging Face机器人专区
- GitHub上的VLA相关项目
- RoboGym挑战赛
-
行业动态
- 阿里达摩院、Google Robotics、特斯拉的VLA进展
- 小鹏汽车VLA 2.0等工业界实现
七、实用建议
-
避免常见误区
- 不要过度关注仿真基准分数(LIBERO等已被饱和)
- 重视真实世界能力而非仅关注模型规模
-
学习节奏
- 前3个月:专注基础+1-2篇核心论文精读
- 4-6个月:完成1-2个中级项目
- 6个月后:选择热点方向深入研究
-
就业/研究方向选择
- 工业界:关注效率优化、Sim2Real迁移、工程落地
- 学术界:探索基础架构创新、新评测基准、跨领域迁移
八、资源汇总表
| 类别 | 资源名称 | 链接/获取方式 | 适合阶段 |
|---|---|---|---|
| 课程 | CS330 (多模态学习) | Stanford Online | 基础阶段 |
| 代码库 | RynnVLA-001官方实现 | https://github.com/alibaba-damo-academy/RynnVLA-001 | 中级 |
| 仿真环境 | RLBench | pip install rlbench | 初级 |
| 评测基准 | LIBERO | https://libero-benchmark.github.io | 中级 |
| 论文集 | ICLR 2026 VLA投稿 | OpenReview | 进阶 |
特别提示:根据最新研究,RynnVLA-001的成功表明视频预训练和轨迹感知是VLA性能突破的关键。初学者建议从理解其三阶段训练流程入手,这比单纯追求模型规模更能提升真实世界性能。
希望这条学习路线对你有所帮助!VLA领域发展迅速,建议每2-3个月重新评估研究热点,调整学习重点。
Google Gemin 推荐路线
欢迎来到 具身智能 (Embodied AI) 的世界!VLA (Vision-Language-Action) 模型是当前机器人学习皇冠上的明珠,它试图让机器人像 ChatGPT 理解文本一样,通过视觉观察世界,理解语言指令,并直接输出机械臂的动作。
作为一个初学者,直接阅读所有论文容易迷失。为了帮你高效入门,我将为你梳理一条从 基础原理 到 前沿模型 的学习路线,并重点介绍必须精读的核心论文。
🚀 VLA 学习路线图 (Roadmap)
为了系统性掌握 VLA,建议按照以下四个阶段进阶:
第一阶段:地基搭建 (基础知识)
不要急着看 VLA,先理解它的三个组成部分:
- Vision (视觉): 了解 ViT (Vision Transformer) 和 CLIP。VLA 极其依赖 CLIP 将图像和文本对齐。
- Language (语言): 理解 Transformer 的 Decoder 架构 (GPT) 和 Tokenization (分词) 机制。
- Action (动作): 了解 Imitation Learning (模仿学习) 和 Behavior Cloning (行为克隆) 的基本概念。
第二阶段:开山之作 (必读经典)
这一阶段主要关注 Google DeepMind 的工作,它们定义了 VLA 的范式。
- 核心思想: 将“动作”也视为一种“语言”,把 ( I m a g e , T e x t ) → A c t i o n (Image, Text) \to Action (Image,Text)→Action 变成一个 Token 预测问题。
第三阶段:开源爆发 (当前主流)
Google 的模型通常闭源,这一阶段你需要学习开源社区的成果,这些是目前最活跃的研究方向。
- 重点: 通用性 (Generalization) 和 跨形态 (Cross-Embodiment)。
第四阶段:前沿与挑战 (进阶研究)
- 方向: 数据集 (Open X-Embodiment)、推理加速、以及 Sim-to-Real (仿真到现实)。
📚 核心论文与关键技术整理
以下我为你精选了从入门到进阶的必读论文,按重要性排序:
1. 定义时代的里程碑 (Google DeepMind 系列)
| 模型名称 | 论文标题 | 核心贡献 (一句话总结) |
|---|---|---|
| RT-1 | RT-1: Robotics Transformer for Real-World Control at Scale | VLA的前身。证明了 Transformer 可以通过 Tokenize 图像和动作指令来通过行为克隆控制机器人。 |
| PaLM-E | PaLM-E: An Embodied Multimodal Language Model | 多模态注入。将图像作为连续向量注入 LLM,让 LLM 具备“看图说话”并进行逻辑规划的能力,但不直接输出底层动作。 |
| RT-2 | RT-2: Vision-Language-Action Models | VLA 的真正定义者。直接微调 VLM,将机器人的动作离散化为 Token (例如: “Move hand 10, 12”),与文本 Token 一起训练。拥有了 LLM 的泛化能力。 |
💡 学习重点: 阅读 RT-2 时,重点理解它是如何将连续的机械臂动作 (x, y, z, yaw, pitch, roll) 转化成离散的 Token (Integers) 的。这是 VLA 的核心魔法。
2. 开源社区的崛起 (2023-2024 必读)
Google 的模型太大且不开源,以下模型更适合学术研究和复现:
-
Octo
- 论文: Octo: An Open-Source Generalist Robot Policy
- 特点: 基于 Transformer Diffusion Policy。它不是基于 LLM 的 VLA,但它是目前最强的开源通用策略模型,使用了由 Open X-Embodiment (最大的机器人数据集) 训练而来。
- 为什么学: 它是目前开源界的基准 (Baseline)。
-
OpenVLA (🔥 最新热门)
- 论文: OpenVLA: An Open-Source Vision-Language-Action Model
- 特点: 基于 Llama 2/3 和 Prismatic VLM 微调。
- 创新: 相比 RT-2,它使用了 Action Detokenization 的技巧,并且通过量化 (Quantization) 可以在消费级显卡上运行。
- 地位: 目前最强的开源 VLA 模型之一。
-
ACT / Mobile ALOHA (虽然不是纯 VLA,但必须了解)
- 论文: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
- 核心: Action Chunking Transformer (ACT)。
- 为什么学: 它解决了动作生成的平滑性和精度问题,现在的 VLA 研究经常会结合 ACT 的思想。
3. 数据集 (燃料)
没有数据就没有 VLA。你需要了解数据的来源:
- Open X-Embodiment: 机器人领域的 ImageNet。汇集了全球实验室的机器人数据,旨在训练通用的 Robot Brain。
🛠️ 建议的起步实践 (Hands-on)
只读论文是不够的,建议按以下步骤动手:
- 玩转 Hugging Face: 去 Hugging Face 上找 OpenVLA 的模型页面,尝试跑通它的推理 Demo (Inference)。
- 配置环境: 尝试配置 SimplerEnv 或 Maniskill2。这是两个主流的仿真环境,你可以在不用买实体机器人的情况下,测试 VLA 模型的性能。
- 微调 (Fine-tuning): 下载一个小规模数据集 (例如 BridgeData V2),尝试用 LoRA (Low-Rank Adaptation) 技术微调一个小的 VLM 模型来输出动作。
📝 总结:你的第一周学习计划
- Day 1-2: 阅读 RT-1 和 RT-2 的论文。不要纠结数学细节,看懂架构图 (Architecture Figure)。
- Day 3: 阅读 OpenVLA 论文,这是你目前最可能用到的模型。
- Day 4: 了解 Open X-Embodiment 数据集项目,理解为什么“跨形态”训练很难。
- Day 5: 在 GitHub 上搜索 OpenVLA 的代码库,尝试 Clone 下来读一读
inference.py,看看代码里是怎么把图片变成动作的。

9026

被折叠的 条评论
为什么被折叠?



