Policy gradient(策略梯度详解)

最新推荐文章于 2026-04-08 20:19:29 发布

原创

最新推荐文章于 2026-04-08 20:19:29 发布 · 2.3w 阅读

266

标签

#神经网络 #人工智能 #深度学习 #强化学习

本文深入解析策略梯度在强化学习中的应用，介绍了如何利用神经网络输出动作概率，并通过梯度上升法调整网络参数以最大化累计奖励。此外，还探讨了通过增加基线和分配不同权重来改进损失函数的方法。

文章目录

策略梯度基本知识

什么是策略梯度？

直接根据状态输出动作或者动作的概率。那么怎么输出呢，最简单的就是使用神经网络啦！我们使用神经网络输入当前的状态，网络就可以输出我们在这个状态下采取每个动作的概率，那么网络应该如何训练来实现最终的收敛呢？我们之前在训练神经网络时，使用最多的方法就是反向传播算法，我们需要一个误差函数，通过梯度下降来使我们的损失最小。但对于强化学习来说，我们不知道动作的正确与否，只能通过奖励值来判断这个动作的相对好坏。基于上面的想法，我们有个非常简单的想法：如果一个动作得到的reward多，那么我们就使其出现的概率增加，如果一个动作得到的reward少，我们就使其出现的概率减小。

强化学习案例

在强化学习中，环境与rewardnfunction你是不能控制的，玩video game时，环境就是你的游戏机，然后reword function就是得分规则，你所能改的只有actor。下围棋也类似。
在这里插入图片描述
神经网络的输入是机器观察到的场景转化的向量或者矩阵，输出是每一个行为的概率。像这种彩图我们一般用CNN，然后取代了最早的查表方式，以前的actor是table，然后遇到某张图片就去table里找对应的行为，用在下棋里还可能穷举，如果在自动驾驶领域，这图片是无法用表存完的。可能你之前没有给神经网络看过某张图，但是它还是能得出比较靠谱的结果，所以他具有generalization的特性。
在这里插入图片描述
机器先观察画面，然后做出了一个action，向右移动，这个action的奖励是0，然后机器

最低0.47元/天解锁文章