参考:
https://zhuanlan.zhihu.com/p/41217212
https://zhuanlan.zhihu.com/p/78720910?utm_source=wechat_session
Importance Sampling(以下简称IS)
IS是基于采样的,也就是基于所谓的蒙特卡洛法(Monte Carlo)。而MC,是一个利用随机采样对一个目标函数做近似,比如在强化学习的model-free中,通过MC方法去估计动作值函数Q,其就是个关于衰减累计奖励的期望。
概率论基本知识
数学期望(均值)EX表示对随机变量X的估计,其完全由R.V的分布决定,随机变量X服从某一分布,就称EX是这个分布下的数学期望。
离散R.V的期望定义:
、
,其中p为概率。</


8324

被折叠的 条评论
为什么被折叠?



