深度强化学习系列(13): 策略梯度（Policy Gradient）

最新推荐文章于 2026-04-08 20:19:29 发布

原创

最新推荐文章于 2026-04-08 20:19:29 发布 · 置顶 · 4.6k 阅读

标签

#策略梯度 #Policy Gradient #最大似然求解 #强化学习策略梯度 #策略梯度公式推导

收录于

对于DQN来说使用一个网络直接逼近了值函数，最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说，很难全部计算所有的值函数来得到最好的策略，那么直接计算策略的方法就别提出来了。

回顾一下前面几篇，所谓的策略，其实就是状态到动作的映射数学表达为 $π：s→a\pi ： s \to a$ ，
我们用 $τ\tau$ 表示状态s到最后一个状态的一个序列，表示为：
$\tau ： s_{t},s_{t+1}....s_{T}$
那么奖励 $R(τ)R(\tau)$ 是一个随机变量，没法直接作为目标函数被优化，因此采用了随机变量的期望作为目标函数：
$\int r(\tau)P_{\pi}(\tau)d\tau \tag{1}$
因此强化学习的目标是找到最好的 $max⁡π∫R(τ)Pπ(τ)dτ\max\limits_{\pi} \int R(\tau)P_{\pi}(\tau)d\tau$ ,从最优策略的角度来说，对于序列$ s_{t},s_{t+1}…s_{T} $, 最优的策略序列为：$ u_{0}^{ } \to u_{1}^{ } \to u_{2}^{ } \to…u_{T}^{ }$，总结为：找到最优策略： $π∗:s→u∗\pi^{*}:s \to u^{*}$ 。

继续从目标函数说起, 由于要用神经网络来计算策略梯度，需要用一个网络结构去逼近策略，在此处我们假设神经网络的结构参数为 $θ\theta$ ,将目标函数由公式-1变为：
$J(\theta) = E_{\tau \sim \pi_{\theta}(\tau)}[r(\tau)] = \int _{\tau \sim \pi_{\theta}(\tau)}\pi_{\theta}(\tau)r(\tau)d\tau \tag{2}$
推导原因： $f (x)$ 关于某分布 $P (x)$ 的期望，对于连续性变量，期望通过积分求得：
$E_{x \sim P}[f(x)]= \int p(x)f(x)dx \tag{3}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

@RichardWang

关注关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

深度确定性策略梯度（DDPG）

行者AI

03-30

4453

本文首发于行者AI 离散动作与连续动作离散动作与连续动作是相对的概念，前者可数，后者不可数。离散动作如LunarLander-v2环境，可以采取四种离散动作；连续动作如Pendulum-v1环境，动作是向左或向右转，用力矩衡量，范围为[-2,2]的连续空间。对于连续的动作控制空间，Q-learning与DQN等算法是无法处理的。我们无法用这些算法穷举出所有action的Q值，更无法取其中最大的Q值。那如何输出连续的动作呢，我们可以借用万能的神经网络来处理。在离散动作的场景下，比如输出上下左右

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

梅川鸡尾酒 2018.09.23
你好，博主，之前的那个问题我好像已经弄明白了，就应该是（logpai(s1)*v(s1)+logpai(s2)*v(s2)+...）;可是我不太明白前面的MC，N这个参数是指经历了很多回合后，才能更新theta么？我看代码就是每一回合结束后就更新theta，没有体现MC的思想恩，不解，还望解答

梅川鸡尾酒 2018.09.23
请教一下博主得到的最后策略梯度，是每一回合结束的r，是只有一个值；可我看其他人的代码为什么都有discount_reward函数？好像是把每个状态的奖励都计算出来了，然后与每一个状态的概率作乘机；就如[p(s1),p(s2),...]*[r(1),r(2)...],作为最后的loss;可是我看大家的推导不应该是（p(s1)+p(s1)+...）*(r(T))么？
- weixin_59903343回复梅川鸡尾酒 2023.04.01
  NIHAOnidong了吗可以聊聊吗