2025_NIPS_General Munchausen Reinforcement Learning with Tsallis Kullback-Leibler Divergence

原创于 2026-06-20 11:30:00 发布 · 7 阅读

·

0

·

标签

#算法 #人工智能

LLM Daily 同时被 3 个专栏收录

2834 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

908 篇文章

订阅专栏

235 篇文章

订阅专栏

文章核心总结与翻译

一、主要内容

该研究聚焦强化学习中的策略优化问题，针对传统KL散度正则化存在易受异常值影响、理论保证与实际启发式方法冲突等缺陷，提出将Tsallis KL散度作为广义正则化项应用于强化学习。

理论基础：Tsallis KL散度通过q-对数和q-指数函数泛化了标准KL散度（q=1时等价于标准KL散度），q>1时可提供新的正则化选项，具有更强的模式覆盖性，能有效惩罚过大的策略比率。
核心推导：
- 证明了Tsallis熵正则化策略可通过q-指数函数表示，q值控制策略的截断程度（q越大，低价值动作概率越易被截断为0）；
- 验证了q=2时Tsallis KL正则化的强凸性，保证了值迭代的收敛性；
- 揭示了Tsallis KL正则化策略不仅对历史动作值进行加权平均，还考虑了值之间的交互作用，超越了传统KL散度的均匀平均特性。
算法设计：将Tsallis KL正则化融入Munchausen价值迭代（MVI），提出MVI(q)算法。该算法是MVI的严格泛化（q=1时还原为MVI），通过q-指数函数替代标准指数函数，采用动作差距（action gap）作为近似项解决伪可加性带来的计算难题。
实验验证：在35款Atari游戏上的实验表明，MVI(q=2)相较于标准MVI（q=1）在多数游戏中实现显著性能提升，尤其在学习速度和最终性能上表现更优；

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。