强化学习：贝尔曼方程与马尔可夫决策过程_强化学习贝尔曼方程马尔可夫-CSDN博客

本文围绕强化学习中贝尔曼方程与马尔可夫决策过程展开。先介绍马尔可夫决策过程，通过两个假设简化模型；接着说明强化学习中的马尔可夫假设简化了状态转移矩阵。重点阐述贝尔曼方程，包括其推导、含义，以及动作价值函数和价值函数的关系，这些是后续算法的基础。

强化学习：贝尔曼方程与马尔可夫决策过程

一、简介

贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念，大部分强化学习算法都是围绕这两个概念进行操作。尤其是贝尔曼方程，对以后理解蒙特卡洛搜索、时序差分算法以及深度强化学习算法都至关重要。这篇文章主要介绍贝尔曼方程。

常用的资料：

《Reinforcement Learning: An Introduction》 author: Richard S.Sutton and Andrew G.Barto

UCL Course: https://www.davidsilver.uk/teaching/

博客园：https://www.cnblogs.com/pinard/

二、马尔可夫决策过程

熟悉自然语言处理的同学一定对马尔可夫（Markov）并不陌生，隐马尔科夫模型，条件随机场中都有利用到马尔可夫性质。马尔可夫描述这样一个随机过程：如果一个系统有 $N$ 个状态 $S_1,S_2,...,S_N$ ，随着时间的推移，该系统从某一个状态转移到另一个状态。如果用 $q_t$ 表示系统在时间 $t$ 的状态变量，那么 $t$ 时刻的状态取值为 $S_j$ 的概率取决于前 $t - 1$ 个时刻，该概率为：
$p(qt=Sj∣qt−1=Si,qt−2=sk,...)(1)\tag{1} p(q_t=S_j|q_{t-1}=S_i,q_{t-2}=s_k,...)$
意思很好理解，就是某一时刻状态的取值，取决于前面所有时刻的状态，画图表示为：
在这里插入图片描述

那么这个模型猛一看并没有什么问题，我此时此刻的状态是由前面所有时刻的状态所决定的。但是它的致命缺点则是，过于复杂。因为在计算某一个状态的概率时，你需要利用前面所有的状态值，那么多的参数模型肯定复杂。所以马尔可夫模型进行了两个重要的简化：1. 一阶独立性假设。任意一个时刻的状态仅仅依赖于前一个时刻的状态。这个很容易理解，用数学表示为：
$p(q_t=S_j|q_{t-1}=S_i,q_{t-2}=s_k,...) = p(q_t=S_j|q_{t-1}=S_i)\tag{2}$
画图表示为：

在这里插入图片描述

这样一看，模型就简化很多了，虽然可能会带来模型上的误差，但相比较于难以计算的复杂度，这点误差还是可以接受的。2. 时间独立性假设。可以设想这么一个情况，如果时刻 $j$ 和时刻 $j + 1$ 的状态是 $a$ 和 $b$ ，在 $i$ 和 $i + 1$ 时刻的状态也分别是 $a$ 和 $b$ ，那么时间独立性可以表示为：
$\begin{aligned} p_1&=p(q_{j+1}=b|q_j=a)\\ p_2&=p(q_{i+1}=b|q_i=a)\\\tag{3} p_1&=p_2 \end{aligned}$
也就是只要前一个时刻的状态是 $a$ ，那么后一个时刻的状态是 $b$ 的概率是固定的，此概率和 $a$ 所在的时刻（ $i$ 或者 $j$ ）无关。那么既然和时间是无关的，那么由状态 $a$ 转移到状态 $b$ 的概率就可以写作：
$p(b|a)\tag{4}$
从而，我们得到马尔可夫模型，一阶独立性假设和时间独立性假设。

三、强化学习中的马尔可夫决策过程

回想一下强化学习中的一个重要概念，概率转化模型，也就是 $pss,ap^a_{ss^,}$ ，代表的是，在状态 $s$ 下，采取动作 $a$ 后，转移到状态 $s^,$ 的概率。此变量的定义其实已经暗含了马尔科夫假设：状态 $s^,$ 发生的概率仅仅和上一时刻的状态 $s$ 相关。当然，还和动作 $a$ 相关，但这个动作 $a$ 可以看作是环境的输入（想一想条件随机场）。因此，可以用数学表达为：
$p_{ss^,}^a=p(s^,|s,a)\tag{5}$
这个假设极大的简化了强化学习的状态转移矩阵。此外，除了马尔可夫假设之外，还有一个比较重要的假设，就是对策略 $π\pi$ 的假设，回想一下策略 $π\pi$ 的定义，在状态 $s$ 下，agent采取动作 $a$ 的概率，表达为概率形式：
$\begin{aligned} \pi(a|s)=p(a|s) \end{aligned}$
其实也隐含了一个假设，那就是agent的动作