(DDPG)深度确定策略梯度调参体会

最新推荐文章于 2026-05-07 09:28:53 发布

原创

最新推荐文章于 2026-05-07 09:28:53 发布 · 1.8w 阅读

·

20

·

本文记录了作者在调参DDPG算法时的经验，探讨了学习率、正则化、激活函数、网络结构、初始化参数、经验回放和动作噪声等方面的选择和调整。通过实验，作者发现适当的参数调整可以提高模型的稳定性和学习速度。

花了一个星期，昨晚终于调出了还算能工作的模型，真的很难。赶紧记下来备忘。

直接使用论文中的参数，我没有把模型调出来，参数基本上都修改了。下图是论文对于参数的配置说明。
这里写图片描述

按论文说的来。
1， “a base learning rate of $10^{-3 }$ and $10^{-4}$ for the actor and critic respectively”。论文使用

最低0.47元/天解锁文章

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。