[强化学习]区分Model-free和Model-based方法

最新推荐文章于 2026-05-11 16:51:57 发布

原创

最新推荐文章于 2026-05-11 16:51:57 发布 · 5w 阅读

·

62

·

标签

#强化学习 #model-free #model-base #MDP

本文解析了强化学习中的两种主要方法：Model-based和Model-free。Model-based方法通过建立环境模型来进行规划，而Model-free方法如Q-learning则直接通过交互学习价值函数。

强化学习方法分为Model-free和Model-based方法，那么这两种方法的区别在哪：

首先我们定义强化学习中的马尔可夫决策过程MDP，用四元组表示：

$S$ ：环境的状态空间
$A$ ：agent可选择的动作空间
$R（s，a）$ ：奖励函数，返回的值表示在 $s$ 状态下执行 $a$ 动作的奖励
$T(s'|s,a)$ : 状态转移概率函数，表示从 $s$ 状态执行 $a$ 动作后环境转移至 $s'$ 状态的概率

我们的目标是：找到一个策略 $\pi$ 能够最大化我们的对未来奖励的期望 E(∑n<

最低0.47元/天解锁文章

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。