强化学习的数学原理(1-3)

本课程笔记参考(西湖大学智能无人系统实验室-赵世钰)https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click

文献引用:S. Zhao, “Mathematical Foundations of Reinforcement Learning”, Tsinghua University Press and Springer Nature Press, 2024

课程介绍

一些推荐书籍(不一定适合初学者)
在这里插入图片描述
课程安排:
在这里插入图片描述

第一课 基本概念

概念 英文表示 字母表示
状态 State sis_isi
状态空间 State Space S={ si}\mathcal{S}=\{s_i\}S={ si}
行动 Action aia_iai
行动空间 Action Space A(si)={ ai}\mathcal{A}(s_i)=\{a_i\}A(si)={ ai}
状态转移 State Transition s1→a1s2s_1 \stackrel{a_1}{\to} s_2s1a1s2
状态转移概率 State Transition Probability p(s2∣s1,a1)\mathcal{p}(s_2 |s_1 ,a_1)p(s
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值