论文阅读汇总

大语言模型类

AbsoluteZero

基座模型

VGGT

VLA

π0

π0.5

π*0.6

RoboRefer

提出了在RGB图像输入之外,引入深度输入,并且以独立的encoder进行编码,而非传统的将深度图以不同的颜色变成RGB图,从而提高了模型的空间理解能力。

XVLA

Igniting VLMs toward the Embodied Space

DSRL

RoboReward

Ego-centric

Emergence of Human to Robot Transfer in VLAs
ego-centric指的是人类通过可穿戴设备(比如腕部相机等)进行数据采集的方式。之前ego-centric的数据的使用方式主要有2种:

  1. 遮挡手部区域(masking out parts of the image)
  2. 通过生成模型把手变成夹爪

但是上述方法都需要额外的数据处理流程。

这篇文章在pi0.5预训练模型的基础上,在后训练过程中增加人类数据,发现模型可以直接学习人类手部动作,并且迁移到机械臂上,满足了可迁移性和泛化性。成功率整体接近翻倍(37% -> 59%)。
在这里插入图片描述

经TSNE方法分析,预训练数据越丰富,模型隐空间中机器人表征和人手表征的相似度越高,这说明模型学到了动作本身,而不依赖具体机械结构/人手结构。从而解答了为什么后训练中增加ego-centric数据会有大幅度增益。

动作专家

ACT

DP3

任务进度评估

GVL

数据采集

MOVE

其他

VLA-pilot

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值