2025_NIPS_Improving Model-Based Reinforcement Learning by Converging to Flatter Minima

最新推荐文章于 2026-06-24 21:41:43 发布

原创最新推荐文章于 2026-06-24 21:41:43 发布 · 127 阅读

·

4

·

标签

#人工智能 #语言模型

LLM Daily 同时被 3 个专栏收录

1184 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

1009 篇文章

订阅专栏

213 篇文章

订阅专栏

一、文章主要内容总结

该研究聚焦于模型基强化学习（MBRL）中动力学模型的训练优化，核心目标是解决MBRL中模型误差在长轨迹预测中累积、泛化能力不足的关键问题。研究发现，引导模型训练收敛到平坦极小值（flat minima） 能显著提升下游控制性能，为此将锐度感知最小化（Sharpness-Aware Minimization, SAM）方法作为“即插即用”模块集成到MBRL的世界模型（world-model）训练中，未改动规划器和策略组件。

核心内容包括：

理论支撑：通过PAC-Bayesian边界推导，建立了一阶锐度（first-order sharpness）与价值估计误差、模型最优策略和真实最优策略的性能差距之间的关联，证明平坦极小值能收紧这两类误差边界。
方法设计：将SAM直接应用于动力学模型的损失函数优化，通过在参数邻域内最大化损失后再梯度下降，引导模型收敛到平坦极小值区域，无需修改MBRL的现有架构。
实验验证：在三类典型任务上验证效果——HumanoidBench（高自由度人形机器人控制）、Atari-100k（像素级离散控制）、DeepMind Control（高自由度连续控制），分别实现了+89.1%、+27.6%、+20.6%的平均回报提升，且在不同算法（TD-MPC2、TWISTER）、观测模态（状态、像素）和动作空间（连续、离散）中具有迁移性。
关键发现：SAM对动力学模型的优化效果最显著

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。