强化学习的数学原理（1-3）

最新推荐文章于 2026-04-27 15:19:33 发布

原创

最新推荐文章于 2026-04-27 15:19:33 发布 · 1.6k 阅读

标签

#动态规划 #深度学习

收录于

本课程笔记参考（西湖大学智能无人系统实验室-赵世钰）https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click

文献引用：S. Zhao, “Mathematical Foundations of Reinforcement Learning”, Tsinghua University Press and Springer Nature Press, 2024

课程介绍

一些推荐书籍（不一定适合初学者）
在这里插入图片描述
课程安排：

概念	英文表示	字母表示
状态	State	$s_i$
状态空间	State Space	$si}\mathcal{S}=\{s_i\}$
行动	Action	$a_i$
行动空间	Action Space	$ai}\mathcal{A}(s_i)=\{a_i\}$
状态转移	State Transition	$s1→a1s2s_1 \stackrel{a_1}{\to} s_2$
状态转移概率	State Transition Probability	$p(s2∣s1,a1)\mathcal{p}(s_2 \|s_1 ,a_1)$