高德ABot-N0 深度拆解：5 合 1 具身导航模型，真的领先了吗？

原创已于 2026-02-24 14:45:06 修改 · 1.5k 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#VLN #机器人 #导航

于 2026-02-23 18:19:52 首次发布

具身智能专栏收录该内容

1 篇文章

订阅专栏

🎨 Class Qwen3: 多模态对话视觉黑板报

图文对话

Qwen

Qwen3

Class Qwen3: 多模态对话视觉黑板报是一款将顶尖视觉大模型 (Qwen3-VL) 与怀旧动漫校园风完美融合的 AI 对话终端。我们抛弃了传统 AI 工具厚重的控制面板，采用了类似于 DeepSeek 的极简布局，让您在清新、自然的黑板手绘氛围中，开启一段智能化的视觉探索之旅。

高德 ABot-N0 深度解读：5 合 1 具身导航 VLA 基础模型详解

高德 ABot-N0 深度拆解：5 合 1 具身导航模型，真的领先了吗？

高德 ABot-N0 深度拆解：5 合 1 具身导航模型，真的领先了吗？

摘要：2026 年 2 月，高德地图 CV 实验室发布 ABot-N0——首个统一 5 类导航任务的 VLA 基础模型，采用 Qwen3-4B 作为认知大脑，在 7 个 benchmark 上取得 SOTA，并成功部署于 Unitree Go2 机器狗。但它真的解决了真实环境中的核心问题吗？本文从架构设计、训练策略、真机部署三个维度进行深度解读。

发布时间：2026 年 2 月
阅读预计：15 分钟
备注：可以私聊获取论文中文版

一、引言

1.1 背景

视觉语言导航（Vision-Language Navigation, VLN）是具身智能的核心任务之一，旨在让机器人理解自然语言指令并在真实环境中完成导航。过去几年，研究者针对不同类型的导航任务提出了各自独立的模型：

任务类型	代表工作	模型独立
Point-Goal	SPOT, SocialNav	✅
Object-Goal	OVON, HM3D-OVON	✅
Instruction-Following	VLN-CE, RxR	✅
POI-Goal	BridgeNav	✅
Person-Following	EVT-Bench	✅

问题：每个任务需要一个独立模型，部署成本高、泛化能力差。

1.2 ABot-N0 的突破

2026 年 2 月，高德地图 CV 实验室发布 ABot-N0（A Unified VLA Foundation Model for Versatile Embodied Navigation），实现了以下突破：

✅ 5 合 1 任务统一：单个模型支持 5 类核心导航任务
✅ SOTA 性能：在 7 个权威 benchmark 上刷新最佳成绩
✅ 真机部署：成功部署于 Unitree Go2，推理频率 2Hz
✅ 大规模数据：1690 万专家轨迹 + 500 万推理样本

论文：ABot-N0 Technical Report
项目主页：ABot-Navigation GitHub

二、核心架构：Brain-Action 分层设计

在这里插入图片描述

Figure 2 给出了 ABot-N0 的完整系统架构，论文中称其为 Hierarchical “Brain-Action” Design —— 一种将语义理解与运动控制彻底分离、但又紧密协作的架构，数据流如下：


Current Observation
+ Episodic Memory
+ Target Encoding
+ Task Token
        ↓
Universal Encoder
        ↓
Brain Model (LLM)
        ↓
       If 触发？
   ↓Yes         ↓No
Reasoning       Action Head
   ↓
AR Head 生成 CoT
   ↓
Action Head
        ↓
Action Expert (Flow Matching)
        ↓
Trajectory Distribution
        ↓
  GRPO 优化

下面我们从上到下逐层、按照信息流来解释这张图。

ABot-N0 采用分层的"Brain-Action"架构，将高层语义理解与底层运动控制解耦。整体架构如下图所示：

┌──────────────────────────────────────────────────┐
│ Universal Multi-Modal Encoder │
│ (统一多模态编码器：RGB/视觉历史/目标 → 潜在空间) │
└─────────────────────┬────────────────────────────┘
│
┌─────────────────────▼───────────────────────────┐
│ Cognitive Brain (Qwen3-4B) │
│ ┌──────────────────┐ ┌──────────────────────────┐ │
│ │ Reasoning Head │ │ Action Head │ │
│ │ (语义理解 + 推理) │ │ (运动规划决策) │ │
│ └──────────────────┘ └──────────────────────────┘ │
└─────────────────────┬────────────────────────────┘
│
┌─────────────────────▼────────────────────────────┐
│ Action Expert (Flow Matching) │
│ (生成 5 个路点：位置 + 偏航角，连续轨迹控制) │
└───────────────────────────────────────────────────┘

2.1 Universal Multi-Modal Encoder

功能：把来自不同任务的多模态观测和目标信息映射到统一潜在 token 序列。

输入类型	具体形式	编码方式
视觉输入	全景图 / 前视图 RGB	ViT 特征提取
视觉历史	过去 N 帧观测	时序 Transformer
目标编码	文本指令 / 坐标点 / 物体类别	任务特定嵌入
创新点：支持灵活的任务切换，同一套编码器处理 5 类任务的输入。

2.2 Cognitive Brain（认知大脑）

基于 Qwen3-4B 预训练 LLM，采用双头设计：
Reasoning Head（推理头）：

输出：自然语言推理结果（CoT 形式）
用途：理解复杂指令、空间关系推理、社会规则判断；以低频（约2Hz）执行，这避免了大语言模型的推理过程拖慢系统整体速度
示例：“去客厅左边第二个房间” → 解析为空间关系链
Action Head（动作头）：
输出：潜在动作 token 序列
用途：为 Action Expert 提供高层规划信息；高频（约10Hz）控制
频率：与 Reasoning Head 异步执行（降低延迟）

2.3 Action Expert（动作专家）

采用 Flow Matching（流匹配）生成连续轨迹：
输入：Action Head 的潜在 token + 当前观测
输出：5 个路点 (x, y, z, yaw) + 置信度分布
优势：

相比传统离散动作空间，支持更精细的控制
生成多模态轨迹分布，可评估不确定性
与底层控制器无缝衔接（>10Hz）

三、数据引擎：1690 万轨迹的规模化生产

ABot-N0 的性能突破离不开大规模高质量数据。团队构建了具身导航领域最大的数据引擎：

3.1 高保真 3D 场景生态系统

场景类型	数量	覆盖面积	示例
室内	5000+	6.2 km²	家庭、办公室、商场、车站
室外	2800+	4.1 km²	路口、公园、虚拟城市
总计	7802	10.3 km²	-

3.2 通用轨迹数据集

1690 万 专家轨迹
覆盖 5 类导航任务
每条轨迹包含：观测序列 + 语言指令 + 专家动作

3.3 认知推理数据集

500 万 推理样本
包含空间关系、社会规则、长程规划等标注
用于训练 Reasoning Head 的推理能力
数据生成效率：单 GPU 每日可生成 2500+ 条轨迹（采用特权信息加速）

四、训练策略：三阶段课程学习

ABot-N0 采用三阶段渐进式训练策略：
Phase 1: Cognitive Warm-up (认知预热)
↓
Phase 2: Unified Sensorimotor SFT (联合传感器 - 运动微调)
↓
Phase 3: SAFE-GRPO (社会感知强化学习)

4.1 Phase 1: Cognitive Warm-up

目标：让 LLM 学会"怎么看"和"怎么推理"
方法：

冻结 Action Head，只训练 Reasoning Head
使用 500 万推理样本进行监督微调
任务：空间关系理解、指令解析、场景描述
输出：具备基本推理能力的认知大脑

4.2 Phase 2: Unified Sensorimotor SFT

目标：联合优化推理与动作生成
方法：

同时训练 Reasoning Head + Action Head
使用 1690 万轨迹进行多任务联合训练
Action Expert 采用 Flow Matching 损失
关键技巧：
异步推理：Reasoning Head 低频执行（2Hz），Action Head 高频执行（10Hz+）
潜在 token 桥接：用紧凑表示连接双头，降低通信开销

4.3 Phase 3: SAFE-GRPO

目标：让机器人学会"社交合规"
方法：

GRPO (Group Relative Policy Optimization) 强化学习
奖励函数包含：任务成功率 + 社会合规性 + 安全性
社会合规性：与人保持距离、礼让行人、不闯入禁区
效果：机器人在人群中的导航行为更自然、更安全

五、真机部署：GO2 机器狗上的 VLA 系统

ABot-N0 不仅停留在仿真，还成功部署于真实机器人平台。

5.1 硬件配置

组件	型号	参数
机器人	Unitree Go2	四足机器狗
计算单元	NVIDIA Jetson Orin NX	157 TOPS
传感器	RGB 摄像头 + 激光雷达	前视 RGB + 360° LiDAR
VLA 推理	ABot-N0	2Hz
底层控制	Neural Controller	>10Hz

5.2 系统架构

┌───────────────────────────────────────────────────┐
│ Agentic Planner │
│ (VLM 意图分解 + CoT 推理 + 自反思闭环) │
└─────────────────────┬─────────────────────────────┘
│
┌─────────────────────▼────────────────────────────┐
│ Topo-Memory (Map-as-Memory) │
│ 分层拓扑记忆：街区 → 道路 → 功能 → 物体/POI │
└─────────────────────┬────────────────────────────┘
│
┌─────────────────────▼────────────────────────────┐
│ Neural Controller │
│ 高速反应控制 (>10Hz)，桥接战略路点与实时执行 │
└──────────────────────────────────────────────────┘

5.3 关键挑战与解决方案

挑战	解决方案
计算资源有限	模型量化（INT8）+ 算子融合
推理延迟高	异步推理 + 潜在 token 压缩
真实环境噪声	域随机化 + 在线自适应
动态障碍物	Topo-Memory 实时更新 + 局部重规划

六、Benchmark 成绩

ABot-N0 在 7 个权威 benchmark 上取得 SOTA：

Benchmark	任务类型	指标	ABot-N0	前 SOTA	提升
CityWalker	Point-Goal	SR	78.2%	72.1%	+6.1%
SocNav	Point-Loop	SR	82.5%	76.3%	+6.2%
VLN-CE R2R	Instruction	SR	65.8%	59.2%	+6.6%
VLN-CE RxR	Instruction	SR	58.3%	52.1%	+6.2%
HM3D-OVON	Object-Goal	SR	42.1%	37.8%	+4.3%
BridgeNav	POI-Goal	SR	71.5%	65.2%	+6.3%
EVT-Bench	Person-Follow	SR	85.2%	78.9%	+6.3%

SR = Success Rate（成功率）

七、个人见解与对比分析

7.1 与 NaVILA/JanusVLN/DualVLN 的对比

特性	ABot-N0	NaVILA	JanusVLN	DualVLN
任务统一	5 合 1 多任务统一（Point/Object/Instruction/POI/Follow）	3 合 1 多任务统一（Point/Object/Instruction）	2 合 1 双任务（Point + Instruction）	2 合 1 双任务（Point + Instruction）
基础模型	Qwen3-4B	VILA-7B	Janus-1.3B	VLM+DiT
架构范式	Brain-Action 分层 + LLM 认知	VLM 统一建模	双编码器 + Transformer	双系统（System1 扩散 + System2 VLN）
动作空间	连续路点生成（Flow Matching）	离散动作	离散动作	连续 + 离散混合
控制解耦设计	认知 2Hz + 控制 >10Hz	统一前向推理	统一前向推理	规划-控制双系统
训练数据来源	大规模仿真 + 推理标注	仿真数据为主	仿真为主	仿真为主
真机部署	Go2	Go2/Booster T1/G1	仿真	GO2/G1
推理频率	2Hz	3Hz	5Hz	4Hz
数据规模	1690 万	850 万	420 万	380 万
设计目标倾向	通用导航基础模型	多任务统一	轻量快速推理	扩散式精细控制