2025_NIPS_Improving Model-Based Reinforcement Learning by Converging to Flatter Minima

一、文章主要内容总结

该研究聚焦于模型基强化学习(MBRL)中动力学模型的训练优化,核心目标是解决MBRL中模型误差在长轨迹预测中累积、泛化能力不足的关键问题。研究发现,引导模型训练收敛到平坦极小值(flat minima) 能显著提升下游控制性能,为此将锐度感知最小化(Sharpness-Aware Minimization, SAM)方法作为“即插即用”模块集成到MBRL的世界模型(world-model)训练中,未改动规划器和策略组件。

核心内容包括:
  1. 理论支撑:通过PAC-Bayesian边界推导,建立了一阶锐度(first-order sharpness)与价值估计误差、模型最优策略和真实最优策略的性能差距之间的关联,证明平坦极小值能收紧这两类误差边界。
  2. 方法设计:将SAM直接应用于动力学模型的损失函数优化,通过在参数邻域内最大化损失后再梯度下降,引导模型收敛到平坦极小值区域,无需修改MBRL的现有架构。
  3. 实验验证:在三类典型任务上验证效果——HumanoidBench(高自由度人形机器人控制)、Atari-100k(像素级离散控制)、DeepMind Control(高自由度连续控制),分别实现了+89.1%、+27.6%、+20.6%的平均回报提升,且在不同算法(TD-MPC2、TWISTER)、观测模态(状态、像素)和动作空间(连续、离散)中具有迁移性。
  4. 关键发现:SAM对动力学模型的优化效果最显著
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值