示教学习强化学习用的标准数据集

层级平台/数据集目的推荐任务
基础仿真robosuite / robomimic证明方法在标准机器人操作任务上有效,便于和 BC、IQL、QFilter、SAC 等比较Lift, Can, Square, Transport, PickPlace, NutAssembly
多任务泛化Meta-World 或 ManiSkill证明不是只对 PandaPush/PickPlace 有效Push, PickPlace, DoorOpen, DrawerOpen, ButtonPress, PegInsertion
长时序/视觉任务RLBench / CALVIN证明 autonomy boundary 和 local prior 对长时序任务有价值StackBlocks, PutItemInDrawer, OpenDrawer, CloseJar, PickAndLift, PlaceIntoShapeSorter
真实/准真实验证真实 Franka/UR5 或 FurnitureBench证明 T-RO 级机器人部署价值Real Push, Real Pick-and-Place, DrawerOpen, PegInsertion / Assembly

1. robosuite / robomimic:最适合作为你的主实验基础平台

robosuite 是基于 MuJoCo 的机器人操作仿真框架,提供一组可复现的机器人操作 benchmark 环境。robomimic 则是专门面向 robot learning from demonstration 的框架,提供示教数据集、离线学习算法和统一评测流程。robomimic 官方定位就是提供机器人操作领域的 demonstration datasets 和 learning algorithms,目标是支持公平、可复现的 robot learning benchmark。

常见任务包括:

任务类型难度适合你的点
Lift基础抓取用来快速验证代码
Can / PickPlace抓取放置对应你现在 PickPlace
Square / NutAssembly插入/装配体现接触和精细操作
ToolHang / Transport长时序、多阶段很适合 T-RO 级别扩展

2. ManiSkill:适合多任务泛化和更复杂操作

ManiSkill 是基于 SAPIEN 的开源机器人仿真和训练框架,重点是 manipulation skills,并且现在发展很快,适合做多任务、多物体、不同机器人和高效仿真训练。官方说明它是 open-source robot simulation and training framework,focus on manipulation skills。

常见任务包括:

任务类型适合你的点
PickCube / PickSingle抓取对应基础示教学习
StackCube长时序验证局部 prior 是否能帮助多阶段任务
PushCube接触推动对应你现在 PandaPush
PegInsertion精细插入验证安全、接触、失败恢复
TurnFaucet / OpenCabinet约束操作验证支持分布偏移和人类干预

3. Meta-World:适合快速跑很多任务,但机器人真实感弱一些

Meta-World 是多任务/元强化学习领域非常常用的 benchmark,包含 50 个机器人操作任务。它的优势是任务多、运行相对轻量,适合做“多任务泛化”表格;缺点是物理真实性和示教学习标准化程度不如 robosuite/robomimic。Meta-World 论文将其定义为 50 个机器人 manipulation tasks 的 benchmark。

你可以用它做:

Push
PickPlace
DoorOpen
DrawerOpen
ButtonPress
PegInsertion

4. RLBench:适合长时序、视觉、多任务和少样本示教

RLBench 是机器人学习里很常用的长时序、多任务、视觉 benchmark。它包含 100 个手工设计任务,任务从简单 reaching、door opening 到 opening oven and placing tray 这种多阶段任务;它提供 proprioceptive、RGB、depth、segmentation 等多模态观测,并且每个任务可以通过 motion planner 生成大量 demonstrations。

常见任务包括:

任务类型适合你的点
PickAndLift基础抓取少量示教启动
OpenDrawer / PutItemInDrawer约束 + 长时序支持偏移、人类干预
StackBlocks多阶段action prior / subtask prior
CloseJar接触/约束精细操作
PlaceIntoShapeSorter精细放置失败恢复

5. CALVIN:适合语言条件、长时序、多步任务

CALVIN 全称是 Composing Actions from Language and Vision,是一个 language-conditioned long-horizon manipulation benchmark。它的目标是让机器人根据语言指令和视觉观测完成长时序任务。官方说明它是 open-source simulated benchmark,用于学习 long-horizon language-conditioned tasks。

它适合:


语言指令 + 多步操作 + 长时序组合任务

6. LIBERO:适合 lifelong learning、多任务迁移和 VLA 方向

LIBERO 是面向 lifelong robot learning 的 benchmark,包含 Spatial、Object、Goal、Long 等 suite,并提供 LIBERO-100 这类多任务数据集。官方说它是 tailored to lifelong robot learning,核心关注 knowledge transfer。

它适合:

Suite作用
LIBERO-Spatial空间关系变化
LIBERO-Object物体变化
LIBERO-Goal目标变化
LIBERO-Long长时序任务
LIBERO-100大规模多任务学习

7. DROID:真实世界大规模机器人示教数据

DROID 是近几年非常重要的真实机器人 manipulation 数据集。官方介绍它包含 76k demonstration trajectories / 350h interaction data,覆盖 564 scenes 和 86 tasks,由 50 个数据采集者跨多个地区采集。

它的优势是:


真实世界、多场景、多任务、多采集者、大规模

它适合:

  • 训练视觉 encoder;
  • 预训练检索特征 ψ(o)\psi(o)ψ(o);
  • 分析 demonstration quality;
  • 做 offline prior memory;
  • 做真实数据上的离线泛化测试。

但它不适合直接证明你的 online human intervention 机制,因为 DROID 是已经采好的离线数据,不包含你自己部署过程中“何时请求人类、何时接管、接管前风险片段”的闭环实验。

8. BridgeData V2:真实数据泛化和多机构迁移

BridgeData V2 是 Berkeley/Rail 系列的大规模真实机器人数据集,包含约 60k 条机器人操作轨迹,覆盖 24 个环境,支持 goal image 或自然语言条件的多任务学习。官方强调它用于 scalable robot learning,并且技能可以泛化到新物体、新环境和跨机构场景。

它适合:

  • 预训练视觉/语言条件策略;
  • 做 goal-conditioned policy;
  • 做真实数据上的 prior retrieval;
  • 验证你的方法是否能利用外部真实示教库。

但和 DROID 一样,它主要是离线数据集,不能单独证明 online intervention。

9. FurnitureBench:最像 T-RO/IJRR 的真实长时序 benchmark,但难度最高

FurnitureBench 是真实世界家具装配 benchmark,目标是提供可复现的 long-horizon complex manipulation 任务。它提供 200+ 小时预采集数据、5000+ demonstrations、3D printable furniture models、真实环境搭建指南和 FurnitureSim 仿真器。

它的特点是:


真实机器人
长时序
装配任务
可复现硬件
有示教数据
有仿真器

这非常适合 T-RO/IJRR,但难度也很高。你如果能在 FurnitureBench 上做出结果,会很有说服力;但如果现在刚从会议版扩展,不建议第一阶段就上它。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啵啵鱼爱吃小猫咪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值