2025_NIPS_FANS: A Flatness-Aware Network Structure for Generalization in Offline Reinforcement Learn

文章核心内容、创新点总结及关键部分翻译

一、主要内容总结

该研究聚焦离线强化学习(Offline RL)的核心挑战——分布偏移导致的泛化能力不足与价值函数高估问题,提出了一种面向泛化的网络结构框架FANS(Flatness-Aware Network Structure)。

离线强化学习的核心目标是仅通过静态数据集学习最优策略,无需与环境在线交互,但数据集与部署环境间的分布差异易导致模型对分布外(OOD)数据泛化性能差、价值估计偏高等问题。现有方法多从数据约束、价值正则化等角度入手,而FANS则从网络架构设计出发,通过模块化结构引导优化过程趋向损失函数的平坦区域,从而提升模型稳定性与泛化能力。

FANS整合四大核心组件:1)残差块(Residual Blocks),保障梯度平滑流动,减少过拟合;2)高斯激活函数(Gaussian Activation),替换传统分段线性激活,促进连续梯度与平坦损失地形;3)层归一化(Layer Normalization),稳定优化动态,抑制尖锐激活;4)集成建模(Ensemble Modeling),聚合多模型预测,降低估计方差。

实验验证方面,将FANS集成到标准Actor-Critic框架(以TD3为基础),在D4RL MuJoCo locomotion基准任务中,性能显著优于TD3+BC、CQL、IQL等主流算法,平均归一化得分达96.0;通过针对性实验验证了FANS在缓解价值高估、提升OOD数据泛化能力上的有效性;消融实验表明四大组件均对性能有正向贡献,其中残差块与集成机制最为关键;在有限数据场景下,FANS仍能保持优异泛化性能,甚至优于基线算法在全量数据上的表现。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值