[强化学习]区分Model-free和Model-based方法

本文解析了强化学习中的两种主要方法:Model-based和Model-free。Model-based方法通过建立环境模型来进行规划,而Model-free方法如Q-learning则直接通过交互学习价值函数。

强化学习方法分为Model-free和Model-based方法,那么这两种方法的区别在哪:

首先我们定义强化学习中的马尔可夫决策过程MDP,用四元组表示 <S,A,R,T> < S , A , R , T >

  • S S :环境的状态空间
  • A :agent可选择的动作空间
  • Rsa R ( s , a ) :奖励函数,返回的值表示在 s s 状态下执行 a 动作的奖励
  • T(s|s,a) T ( s ′ | s , a ) : 状态转移概率函数,表示从 s s 状态执行 a 动作后环境转移至 s s ′ 状态的概率

我们的目标是:找到一个策略 π π 能够最大化我们的对未来奖励的期望 E(n<

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值