本课程笔记参考(西湖大学智能无人系统实验室-赵世钰)https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click
文献引用:S. Zhao, “Mathematical Foundations of Reinforcement Learning”, Tsinghua University Press and Springer Nature Press, 2024
课程介绍
一些推荐书籍(不一定适合初学者)

课程安排:

第一课 基本概念
| 概念 | 英文表示 | 字母表示 |
|---|---|---|
| 状态 | State | sis_isi |
| 状态空间 | State Space | S={ si}\mathcal{S}=\{s_i\}S={ si} |
| 行动 | Action | aia_iai |
| 行动空间 | Action Space | A(si)={ ai}\mathcal{A}(s_i)=\{a_i\}A(si)={ ai} |
| 状态转移 | State Transition | s1→a1s2s_1 \stackrel{a_1}{\to} s_2s1→a1s2 |
| 状态转移概率 | State Transition Probability | p(s2∣s1,a1)\mathcal{p}(s_2 |s_1 ,a_1)p(s |

&spm=1001.2101.3001.5002&articleId=134874013&d=1&t=3&u=7b6dc05c6b774acbb95285a1bc428b24)
1414

被折叠的 条评论
为什么被折叠?



