【详解+推导！！】Policy Gradient 策略梯度法

原创

已于 2024-08-23 11:21:55 修改 · 7.1k 阅读

标签

#policy gradient #策略梯度法 #强化学习

于 2021-04-07 22:23:30 首次发布

本文详细介绍了强化学习中的策略梯度法Policy Gradient，包括定义强化学习问题、Policy Network的构建与训练过程，以及实施过程中的关键技巧，如添加Baseline和适当地分配Credit。通过策略网络与环境的交互，最大化期望回报，实现智能体策略的优化。

Policy Gradient，策略梯度法是强化学习中的一种常用方法。
比较详细的推导可以看：https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=tips

文章目录

1. 定义强化学习的问题

强化学习由三个组件构成：Actor、Environment、Reward Function。
在这里插入图片描述 Actor 决定如何执行下一个动作；
Environment 就是电脑主机或者对手会根据Actor的动作产生变化；
Reward Function 会根据我们做的动作进行打分。

在强化学习里面 Environment 和 Reward Function 都是不可操作的，我们的目标就是调整Actor的策略（Policy）获得最大的奖励期望。

在这里插入图片描述

一场游戏叫做一个回合(episode) 或者试验(trial)；
过程就是Env先初始化一个状态 $s_1$ ，而后我们的Actor根据该初始状态做出动作;
产生一个Trajectory，我们用 $\tau$ 表示，如下：
$\tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t \}$

2. Policy Network

我们使用神经网络来完成动作的选择，以打电动游戏为例子：

我们有策略网络来实现策略 $\pi$ ，网络的参数为 $\theta$ ，输入为游戏的图像，输出的我们的操作。
在这里插入图片描述在一场游戏中（一个episode），我们的Actor可以与环境交互产生一个回合的记录序列 Trajectory：
$\tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t \}$
每一个 $\tau$ 产生的概率为：
$\begin{aligned} p_\theta(\tau) &= p(s_1)p_\theta(a_1|s_1)p(s_2|s_1, a_1)p_\theta(a_2|s_2)p(s_3|s_2,a_2)... \\ &=p(s_1)\prod_{t=1}^Tp_\theta(a_t|s_t)p(s_{t+1}|s_t, a_t) \end{aligned}$
每一个 $\tau$ 的总回报为：
$R(\tau) = \sum_{t=1}^Tr_t$
我们的 $\tau$ 是利用Actor与环境互动产生的，在动作选择过程中存在很多随机性，环境本身也存在很多随机性，所以 $R(\tau)$ 是一个随机变量（random variable）。

所以我们不能用 $R(\tau)$ 评价一个策略网络 $\theta$ 的好坏，但是我们可以使用 $R(\tau)$ 的期望评价：
$\begin{aligned} E[R(\tau)] = \bar{R}(\tau) = \sum_\tau R(\tau)p_\theta(\tau) = E_{\tau～p_\theta(\tau) }[R(\tau)] \end{aligned}$

最低0.47元/天解锁文章