强化学习方法分为Model-free和Model-based方法,那么这两种方法的区别在哪:
首先我们定义强化学习中的马尔可夫决策过程MDP,用四元组表示 <S,A,R,T> < S , A , R , T > :
- S S :环境的状态空间
- :agent可选择的动作空间
- R(s,a) R ( s , a ) :奖励函数,返回的值表示在 s s 状态下执行 动作的奖励
- T(s′|s,a) T ( s ′ | s , a ) : 状态转移概率函数,表示从 s s 状态执行 动作后环境转移至 s′ s ′ 状态的概率
我们的目标是:找到一个策略 π π 能够最大化我们的对未来奖励的期望 E(∑n<

本文解析了强化学习中的两种主要方法:Model-based和Model-free。Model-based方法通过建立环境模型来进行规划,而Model-free方法如Q-learning则直接通过交互学习价值函数。

5141

被折叠的 条评论
为什么被折叠?



