高德ABot-N0 深度拆解:5 合 1 具身导航模型,真的领先了吗?

🎨 Class Qwen3: 多模态对话视觉黑板报

🎨 Class Qwen3: 多模态对话视觉黑板报

图文对话
Qwen
Qwen3

Class Qwen3: 多模态对话视觉黑板报 是一款将顶尖视觉大模型 (Qwen3-VL) 与 怀旧动漫校园风 完美融合的 AI 对话终端。我们抛弃了传统 AI 工具厚重的控制面板,采用了类似于 DeepSeek 的极简布局,让您在清新、自然的黑板手绘氛围中,开启一段智能化的视觉探索之旅。

高德 ABot-N0 深度拆解:5 合 1 具身导航模型,真的领先了吗?

摘要:2026 年 2 月,高德地图 CV 实验室发布 ABot-N0——首个统一 5 类导航任务的 VLA 基础模型,采用 Qwen3-4B 作为认知大脑,在 7 个 benchmark 上取得 SOTA,并成功部署于 Unitree Go2 机器狗。但它真的解决了真实环境中的核心问题吗?本文从架构设计、训练策略、真机部署三个维度进行深度解读。

发布时间:2026 年 2 月
阅读预计:15 分钟
备注:可以私聊获取论文中文版

一、引言

1.1 背景

视觉语言导航(Vision-Language Navigation, VLN)是具身智能的核心任务之一,旨在让机器人理解自然语言指令并在真实环境中完成导航。过去几年,研究者针对不同类型的导航任务提出了各自独立的模型:

任务类型代表工作模型独立
Point-GoalSPOT, SocialNav
Object-GoalOVON, HM3D-OVON
Instruction-FollowingVLN-CE, RxR
POI-GoalBridgeNav
Person-FollowingEVT-Bench

问题:每个任务需要一个独立模型,部署成本高、泛化能力差。

1.2 ABot-N0 的突破

2026 年 2 月,高德地图 CV 实验室发布 ABot-N0(A Unified VLA Foundation Model for Versatile Embodied Navigation),实现了以下突破:

  • 5 合 1 任务统一:单个模型支持 5 类核心导航任务
  • SOTA 性能:在 7 个权威 benchmark 上刷新最佳成绩
  • 真机部署:成功部署于 Unitree Go2,推理频率 2Hz
  • 大规模数据:1690 万专家轨迹 + 500 万推理样本

论文ABot-N0 Technical Report
项目主页ABot-Navigation GitHub


二、核心架构:Brain-Action 分层设计

在这里插入图片描述

Figure 2 给出了 ABot-N0 的完整系统架构,论文中称其为 Hierarchical “Brain-Action” Design —— 一种将语义理解与运动控制彻底分离、但又紧密协作的架构,数据流如下:


Current Observation
+ Episodic Memory
+ Target Encoding
+ Task Token
        ↓
Universal Encoder
        ↓
Brain Model (LLM)
        ↓
       If 触发?
   ↓Yes         ↓No
Reasoning       Action Head
   ↓
AR Head 生成 CoT
   ↓
Action Head
        ↓
Action Expert (Flow Matching)
        ↓
Trajectory Distribution
        ↓
  GRPO 优化

下面我们从上到下逐层、按照信息流来解释这张图。

ABot-N0 采用分层的"Brain-Action"架构,将高层语义理解与底层运动控制解耦。整体架构如下图所示:

┌──────────────────────────────────────────────────┐
│ Universal Multi-Modal Encoder │
│ (统一多模态编码器:RGB/视觉历史/目标 → 潜在空间) │
└─────────────────────┬────────────────────────────┘

┌─────────────────────▼───────────────────────────┐
│ Cognitive Brain (Qwen3-4B) │
│ ┌──────────────────┐ ┌──────────────────────────┐ │
│ │ Reasoning Head │ │ Action Head │ │
│ │ (语义理解 + 推理) │ │ (运动规划决策) │ │
│ └──────────────────┘ └──────────────────────────┘ │
└─────────────────────┬────────────────────────────┘

┌─────────────────────▼────────────────────────────┐
│ Action Expert (Flow Matching) │
│ (生成 5 个路点:位置 + 偏航角,连续轨迹控制) │
└───────────────────────────────────────────────────┘

2.1 Universal Multi-Modal Encoder

功能:把来自不同任务的多模态观测和目标信息映射到统一潜在 token 序列。

输入类型具体形式编码方式
视觉输入全景图 / 前视图 RGBViT 特征提取
视觉历史过去 N 帧观测时序 Transformer
目标编码文本指令 / 坐标点 / 物体类别任务特定嵌入
创新点:支持灵活的任务切换,同一套编码器处理 5 类任务的输入。

2.2 Cognitive Brain(认知大脑)

基于 Qwen3-4B 预训练 LLM,采用双头设计:
Reasoning Head(推理头)

  • 输出:自然语言推理结果(CoT 形式)
  • 用途:理解复杂指令、空间关系推理、社会规则判断;以低频(约2Hz)执行,这避免了大语言模型的推理过程拖慢系统整体速度
  • 示例:“去客厅左边第二个房间” → 解析为空间关系链
    Action Head(动作头)
  • 输出:潜在动作 token 序列
  • 用途:为 Action Expert 提供高层规划信息;高频(约10Hz)控制
  • 频率:与 Reasoning Head 异步执行(降低延迟)

2.3 Action Expert(动作专家)

采用 Flow Matching(流匹配)生成连续轨迹:
输入:Action Head 的潜在 token + 当前观测
输出:5 个路点 (x, y, z, yaw) + 置信度分布
优势

  • 相比传统离散动作空间,支持更精细的控制
  • 生成多模态轨迹分布,可评估不确定性
  • 与底层控制器无缝衔接(>10Hz)

三、数据引擎:1690 万轨迹的规模化生产

ABot-N0 的性能突破离不开大规模高质量数据。团队构建了具身导航领域最大的数据引擎:

3.1 高保真 3D 场景生态系统

场景类型数量覆盖面积示例
室内5000+6.2 km²家庭、办公室、商场、车站
室外2800+4.1 km²路口、公园、虚拟城市
总计780210.3 km²-

3.2 通用轨迹数据集

  • 1690 万 专家轨迹
  • 覆盖 5 类导航任务
  • 每条轨迹包含:观测序列 + 语言指令 + 专家动作

3.3 认知推理数据集

  • 500 万 推理样本
  • 包含空间关系、社会规则、长程规划等标注
  • 用于训练 Reasoning Head 的推理能力
    数据生成效率:单 GPU 每日可生成 2500+ 条轨迹(采用特权信息加速)

四、训练策略:三阶段课程学习

ABot-N0 采用三阶段渐进式训练策略:
Phase 1: Cognitive Warm-up (认知预热)

Phase 2: Unified Sensorimotor SFT (联合传感器 - 运动微调)

Phase 3: SAFE-GRPO (社会感知强化学习)

4.1 Phase 1: Cognitive Warm-up

目标:让 LLM 学会"怎么看"和"怎么推理"
方法

  • 冻结 Action Head,只训练 Reasoning Head
  • 使用 500 万推理样本进行监督微调
  • 任务:空间关系理解、指令解析、场景描述
    输出:具备基本推理能力的认知大脑

4.2 Phase 2: Unified Sensorimotor SFT

目标:联合优化推理与动作生成
方法

  • 同时训练 Reasoning Head + Action Head
  • 使用 1690 万轨迹进行多任务联合训练
  • Action Expert 采用 Flow Matching 损失
    关键技巧
  • 异步推理:Reasoning Head 低频执行(2Hz),Action Head 高频执行(10Hz+)
  • 潜在 token 桥接:用紧凑表示连接双头,降低通信开销

4.3 Phase 3: SAFE-GRPO

目标:让机器人学会"社交合规"
方法

  • GRPO (Group Relative Policy Optimization) 强化学习
  • 奖励函数包含:任务成功率 + 社会合规性 + 安全性
  • 社会合规性:与人保持距离、礼让行人、不闯入禁区
    效果:机器人在人群中的导航行为更自然、更安全

五、真机部署:GO2 机器狗上的 VLA 系统

ABot-N0 不仅停留在仿真,还成功部署于真实机器人平台。

5.1 硬件配置

组件型号参数
机器人Unitree Go2四足机器狗
计算单元NVIDIA Jetson Orin NX157 TOPS
传感器RGB 摄像头 + 激光雷达前视 RGB + 360° LiDAR
VLA 推理ABot-N02Hz
底层控制Neural Controller>10Hz

5.2 系统架构

┌───────────────────────────────────────────────────┐
│ Agentic Planner │
│ (VLM 意图分解 + CoT 推理 + 自反思闭环) │
└─────────────────────┬─────────────────────────────┘

┌─────────────────────▼────────────────────────────┐
│ Topo-Memory (Map-as-Memory) │
│ 分层拓扑记忆:街区 → 道路 → 功能 → 物体/POI │
└─────────────────────┬────────────────────────────┘

┌─────────────────────▼────────────────────────────┐
│ Neural Controller │
│ 高速反应控制 (>10Hz),桥接战略路点与实时执行 │
└──────────────────────────────────────────────────┘

5.3 关键挑战与解决方案

挑战解决方案
计算资源有限模型量化(INT8)+ 算子融合
推理延迟高异步推理 + 潜在 token 压缩
真实环境噪声域随机化 + 在线自适应
动态障碍物Topo-Memory 实时更新 + 局部重规划

六、Benchmark 成绩

ABot-N0 在 7 个权威 benchmark 上取得 SOTA:

Benchmark任务类型指标ABot-N0前 SOTA提升
CityWalkerPoint-GoalSR78.2%72.1%+6.1%
SocNavPoint-LoopSR82.5%76.3%+6.2%
VLN-CE R2RInstructionSR65.8%59.2%+6.6%
VLN-CE RxRInstructionSR58.3%52.1%+6.2%
HM3D-OVONObject-GoalSR42.1%37.8%+4.3%
BridgeNavPOI-GoalSR71.5%65.2%+6.3%
EVT-BenchPerson-FollowSR85.2%78.9%+6.3%

SR = Success Rate(成功率)

七、个人见解与对比分析

7.1 与 NaVILA/JanusVLN/DualVLN 的对比

特性ABot-N0NaVILAJanusVLNDualVLN
任务统一5 合 1 多任务统一(Point/Object/Instruction/POI/Follow)3 合 1 多任务统一(Point/Object/Instruction)2 合 1 双任务(Point + Instruction)2 合 1 双任务(Point + Instruction)
基础模型Qwen3-4BVILA-7BJanus-1.3BVLM+DiT
架构范式Brain-Action 分层 + LLM 认知VLM 统一建模双编码器 + Transformer双系统(System1 扩散 + System2 VLN)
动作空间连续路点生成(Flow Matching)离散动作离散动作连续 + 离散混合
控制解耦设计认知 2Hz + 控制 >10Hz统一前向推理统一前向推理规划-控制双系统
训练数据来源大规模仿真 + 推理标注仿真数据为主仿真为主仿真为主
真机部署Go2Go2/Booster T1/G1仿真GO2/G1
推理频率2Hz3Hz5Hz4Hz
数据规模1690 万850 万420 万380 万
设计目标倾向通用导航基础模型多任务统一轻量快速推理扩散式精细控制

分析:
ABot-N0 在任务统一性和数据规模上领先,真机部署经验最丰富
NaVILA/JanusVLN 在推理速度上有优势

7.2 可借鉴的技术点

如果你也在做 VLN 相关研究,以下技术值得参考:

  • 双头异步设计:Reasoning Head 低频 + Action Head 高频,平衡性能与延迟 Flow Matching
  • 轨迹生成:比传统 Diffusion 更稳定,适合连续控制 分层拓扑记忆:跨尺度空间知识表示,适合长程导航
  • 社会感知强化学习:让机器人学会"社交礼仪",提升人机交互体验

7.3 待改进方向

⚠️ 推理速度:2Hz 对于动态场景可能不够(NaVILA 达到 3-5Hz)
⚠️ 开源进度:代码/数据尚未完全开源(计划中)
⚠️ 泛化能力:跨场景/跨机器人迁移效果待验证

八、总结与展望

8.1 核心贡献

  • 首个 5 合 1 VLA 导航模型,统一多任务学习
  • Brain-Action 分层架构,解耦推理与控制
  • 1690 万轨迹数据引擎,规模化训练
  • 真机部署验证,Go2+Orin NX 实战方案

8.2 开源计划

阶段内容状态
Phase 1技术报告✅ 已发布
Phase 2数据集🔜 Coming Soon
Phase 3代码🔜 Coming Soon

8.3 未来方向

更高推理频率(目标 5Hz+)
更多机器人平台支持(轮式、人形)
更长程任务(跨楼层、跨建筑)
更强交互能力(多轮对话、任务协商)

参考链接

项目主页:https://github.com/amap-cvlab/ABot-Navigation

作者简介:

机器人具身智能算法工程师,专注传统规控与 VLN 方向。
欢迎交流:如有问题或合作意向,欢迎私信或评论区留言 🤝

您可能感兴趣的与本文相关的镜像

🎨 Class Qwen3: 多模态对话视觉黑板报

🎨 Class Qwen3: 多模态对话视觉黑板报

图文对话
Qwen
Qwen3

Class Qwen3: 多模态对话视觉黑板报 是一款将顶尖视觉大模型 (Qwen3-VL) 与 怀旧动漫校园风 完美融合的 AI 对话终端。我们抛弃了传统 AI 工具厚重的控制面板,采用了类似于 DeepSeek 的极简布局,让您在清新、自然的黑板手绘氛围中,开启一段智能化的视觉探索之旅。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李霁明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值