文章核心内容、创新点总结及关键部分翻译
一、主要内容总结
该研究聚焦离线强化学习(Offline RL)的核心挑战——分布偏移导致的泛化能力不足与价值函数高估问题,提出了一种面向泛化的网络结构框架FANS(Flatness-Aware Network Structure)。
离线强化学习的核心目标是仅通过静态数据集学习最优策略,无需与环境在线交互,但数据集与部署环境间的分布差异易导致模型对分布外(OOD)数据泛化性能差、价值估计偏高等问题。现有方法多从数据约束、价值正则化等角度入手,而FANS则从网络架构设计出发,通过模块化结构引导优化过程趋向损失函数的平坦区域,从而提升模型稳定性与泛化能力。
FANS整合四大核心组件:1)残差块(Residual Blocks),保障梯度平滑流动,减少过拟合;2)高斯激活函数(Gaussian Activation),替换传统分段线性激活,促进连续梯度与平坦损失地形;3)层归一化(Layer Normalization),稳定优化动态,抑制尖锐激活;4)集成建模(Ensemble Modeling),聚合多模型预测,降低估计方差。
实验验证方面,将FANS集成到标准Actor-Critic框架(以TD3为基础),在D4RL MuJoCo locomotion基准任务中,性能显著优于TD3+BC、CQL、IQL等主流算法,平均归一化得分达96.0;通过针对性实验验证了FANS在缓解价值高估、提升OOD数据泛化能力上的有效性;消融实验表明四大组件均对性能有正向贡献,其中残差块与集成机制最为关键;在有限数据场景下,FANS仍能保持优异泛化性能,甚至优于基线算法在全量数据上的表现。
<

订阅专栏 解锁全文

449

被折叠的 条评论
为什么被折叠?



