文章核心总结与翻译
主要内容
本文聚焦深度强化学习(DRL)在不同环境参数下的零样本泛化问题,提出基于上下文马尔可夫决策过程(CMDP)的解决方案。核心是通过引入上下文增强贝尔曼方程(CEBE) 和上下文样本增强(CSE) 方法,仅利用少量训练上下文(甚至单个),提升策略在未见过的测试上下文下的泛化性能。文章通过理论证明CEBE对Q函数的一阶逼近特性,并通过CSE实现高效数据增强,在多个连续控制环境中验证了方法的有效性,性能接近理想基准方法局部域随机化(LDR),显著优于传统DRL基线。
创新点
- 提出上下文增强贝尔曼方程(CEBE):基于训练上下文的线性化近似,捕获CMDP中转移和奖励函数的上下文规律性,为未见过的上下文提供Q函数估计。
- 推导上下文样本增强(CSE):一种高效数据增强方法,通过对单个训练上下文的样本进行扰动,生成邻近上下文的近似样本,无需额外构建环境。
- 完善理论支撑:证明CEBE在确定性和随机转移场景下均能提供一阶精度的Q函数逼近,且基于CEBE优化的策略在原始CMDP中接近最优。
- 广泛实验验证:在表格环境、简单控制环境、经典控制环境(如PendulumGoal)和MuJoCo环境(如CheetahVelocity)中验证,适配不同DRL算法(SAC、DQN)。

订阅专栏 解锁全文

451

被折叠的 条评论
为什么被折叠?



