强化学习: 贝尔曼方程与马尔可夫决策过程

本文围绕强化学习中贝尔曼方程与马尔可夫决策过程展开。先介绍马尔可夫决策过程,通过两个假设简化模型;接着说明强化学习中的马尔可夫假设简化了状态转移矩阵。重点阐述贝尔曼方程,包括其推导、含义,以及动作价值函数和价值函数的关系,这些是后续算法的基础。

强化学习: 贝尔曼方程与马尔可夫决策过程

一、简介

贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念,大部分强化学习算法都是围绕这两个概念进行操作。尤其是贝尔曼方程,对以后理解蒙特卡洛搜索、时序差分算法以及深度强化学习算法都至关重要。这篇文章主要介绍贝尔曼方程。

常用的资料:

《Reinforcement Learning: An Introduction》 author: Richard S.Sutton and Andrew G.Barto

UCL Course: https://www.davidsilver.uk/teaching/

博客园:https://www.cnblogs.com/pinard/


二、马尔可夫决策过程

熟悉自然语言处理的同学一定对马尔可夫(Markov)并不陌生,隐马尔科夫模型,条件随机场中都有利用到马尔可夫性质。马尔可夫描述这样一个随机过程:如果一个系统有NNN个状态S1,S2,...,SNS_1,S_2,...,S_NS1,S2,...,SN,随着时间的推移,该系统从某一个状态转移到另一个状态。如果用qtq_tqt表示系统在时间ttt的状态变量,那么ttt时刻的状态取值为SjS_jSj的概率取决于前t−1t-1t1个时刻,该概率为:
p(qt=Sj∣qt−1=Si,qt−2=sk,...)(1)\tag{1} p(q_t=S_j|q_{t-1}=S_i,q_{t-2}=s_k,...) p(qt=Sjqt1=Si,qt2=sk,...)(1)
意思很好理解,就是某一时刻状态的取值,取决于前面所有时刻的状态,画图表示为:
在这里插入图片描述

那么这个模型猛一看并没有什么问题,我此时此刻的状态是由前面所有时刻的状态所决定的。但是它的致命缺点则是,过于复杂。因为在计算某一个状态的概率时,你需要利用前面所有的状态值,那么多的参数模型肯定复杂。所以马尔可夫模型进行了两个重要的简化:1. 一阶独立性假设。任意一个时刻的状态仅仅依赖于前一个时刻的状态。这个很容易理解,用数学表示为:
p(qt=Sj∣qt−1=Si,qt−2=sk,...)=p(qt=Sj∣qt−1=Si)(2) p(q_t=S_j|q_{t-1}=S_i,q_{t-2}=s_k,...) = p(q_t=S_j|q_{t-1}=S_i)\tag{2} p(qt=Sjqt1=Si,qt2=sk,...)=p(qt=Sjqt1=Si)(2)
画图表示为:

在这里插入图片描述

这样一看,模型就简化很多了,虽然可能会带来模型上的误差,但相比较于难以计算的复杂度,这点误差还是可以接受的。2. 时间独立性假设。可以设想这么一个情况,如果时刻jjj和时刻j+1j+1j+1的状态是aaabbb,在iiii+1i+1i+1时刻的状态也分别是aaabbb,那么时间独立性可以表示为:
p1=p(qj+1=b∣qj=a)p2=p(qi+1=b∣qi=a)p1=p2(3) \begin{aligned} p_1&=p(q_{j+1}=b|q_j=a)\\ p_2&=p(q_{i+1}=b|q_i=a)\\\tag{3} p_1&=p_2 \end{aligned} p1p2p1=p(qj+1=bqj=a)=p(qi+1=bqi=a)=p2(3)
也就是只要前一个时刻的状态是aaa,那么后一个时刻的状态是bbb的概率是固定的,此概率和aaa所在的时刻(iii或者jjj)无关。那么既然和时间是无关的,那么由状态aaa转移到状态bbb的概率就可以写作:
p(b∣a)(4) p(b|a)\tag{4} p(ba)(4)
从而,我们得到马尔可夫模型,一阶独立性假设和时间独立性假设。


三、强化学习中的马尔可夫决策过程

回想一下强化学习中的一个重要概念,概率转化模型,也就是pss,ap^a_{ss^,}pss,a,代表的是,在状态sss下,采取动作aaa后,转移到状态s,s^,s,的概率。此变量的定义其实已经暗含了马尔科夫假设:状态s,s^,s,发生的概率仅仅和上一时刻的状态sss相关。当然,还和动作aaa相关,但这个动作aaa可以看作是环境的输入(想一想条件随机场)。因此,可以用数学表达为:
pss,a=p(s,∣s,a)(5) p_{ss^,}^a=p(s^,|s,a)\tag{5} pss,a=p(s,s,a)(5)
这个假设极大的简化了强化学习的状态转移矩阵。此外,除了马尔可夫假设之外,还有一个比较重要的假设,就是对策略π\piπ的假设,回想一下策略π\piπ的定义,在状态sss下,agent采取动作aaa的概率,表达为概率形式:
π(a∣s)=p(a∣s) \begin{aligned} \pi(a|s)=p(a|s) \end{aligned} π(as)=p(as)
其实也隐含了一个假设,那就是agent的动作aa</

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值