2025_NIPS_FANS: A Flatness-Aware Network Structure for Generalization in Offline Reinforcement Learn

最新推荐文章于 2026-06-25 20:29:15 发布

原创最新推荐文章于 2026-06-25 20:29:15 发布 · 43 阅读

0 GEO检测

标签

#人工智能 #大数据 #语言模型

LLM Daily 同时被 3 个专栏收录

2871 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

顶会论文

919 篇文章

订阅专栏

LLM RL

244 篇文章

订阅专栏

文章核心内容、创新点总结及关键部分翻译

一、主要内容总结

该研究聚焦离线强化学习（Offline RL）的核心挑战——分布偏移导致的泛化能力不足与价值函数高估问题，提出了一种面向泛化的网络结构框架FANS（Flatness-Aware Network Structure）。

离线强化学习的核心目标是仅通过静态数据集学习最优策略，无需与环境在线交互，但数据集与部署环境间的分布差异易导致模型对分布外（OOD）数据泛化性能差、价值估计偏高等问题。现有方法多从数据约束、价值正则化等角度入手，而FANS则从网络架构设计出发，通过模块化结构引导优化过程趋向损失函数的平坦区域，从而提升模型稳定性与泛化能力。

FANS整合四大核心组件：1）残差块（Residual Blocks），保障梯度平滑流动，减少过拟合；2）高斯激活函数（Gaussian Activation），替换传统分段线性激活，促进连续梯度与平坦损失地形；3）层归一化（Layer Normalization），稳定优化动态，抑制尖锐激活；4）集成建模（Ensemble Modeling），聚合多模型预测，降低估计方差。

实验验证方面，将FANS集成到标准Actor-Critic框架（以TD3为基础），在D4RL MuJoCo locomotion基准任务中，性能显著优于TD3+BC、CQL、IQL等主流算法，平均归一化得分达96.0；通过针对性实验验证了FANS在缓解价值高估、提升OOD数据泛化能力上的有效性；消融实验表明四大组件均对性能有正向贡献，其中残差块与集成机制最为关键；在有限数据场景下，FANS仍能保持优异泛化性能，甚至优于基线算法在全量数据上的表现。