大语言模型类
基座模型
VLA
提出了在RGB图像输入之外,引入深度输入,并且以独立的encoder进行编码,而非传统的将深度图以不同的颜色变成RGB图,从而提高了模型的空间理解能力。
Igniting VLMs toward the Embodied Space
Ego-centric
Emergence of Human to Robot Transfer in VLAs
ego-centric指的是人类通过可穿戴设备(比如腕部相机等)进行数据采集的方式。之前ego-centric的数据的使用方式主要有2种:
- 遮挡手部区域(masking out parts of the image)
- 通过生成模型把手变成夹爪
但是上述方法都需要额外的数据处理流程。
这篇文章在pi0.5预训练模型的基础上,在后训练过程中增加人类数据,发现模型可以直接学习人类手部动作,并且迁移到机械臂上,满足了可迁移性和泛化性。成功率整体接近翻倍(37% -> 59%)。

经TSNE方法分析,预训练数据越丰富,模型隐空间中机器人表征和人手表征的相似度越高,这说明模型学到了动作本身,而不依赖具体机械结构/人手结构。从而解答了为什么后训练中增加ego-centric数据会有大幅度增益。

4829

被折叠的 条评论
为什么被折叠?



