论文阅读汇总

原创已于 2026-02-23 20:18:27 修改 · 111 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#论文阅读

于 2026-01-22 14:42:58 首次发布

大语言模型类

基座模型

VLA

提出了在RGB图像输入之外，引入深度输入，并且以独立的encoder进行编码，而非传统的将深度图以不同的颜色变成RGB图，从而提高了模型的空间理解能力。

Igniting VLMs toward the Embodied Space

Ego-centric

Emergence of Human to Robot Transfer in VLAs
ego-centric指的是人类通过可穿戴设备（比如腕部相机等）进行数据采集的方式。之前ego-centric的数据的使用方式主要有2种：

遮挡手部区域（masking out parts of the image）
通过生成模型把手变成夹爪

但是上述方法都需要额外的数据处理流程。

这篇文章在pi0.5预训练模型的基础上，在后训练过程中增加人类数据，发现模型可以直接学习人类手部动作，并且迁移到机械臂上，满足了可迁移性和泛化性。成功率整体接近翻倍（37% -> 59%）。
在这里插入图片描述

经TSNE方法分析，预训练数据越丰富，模型隐空间中机器人表征和人手表征的相似度越高，这说明模型学到了动作本身，而不依赖具体机械结构/人手结构。从而解答了为什么后训练中增加ego-centric数据会有大幅度增益。

动作专家

任务进度评估

数据采集

其他

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。