重要性采样(Importance Sampling)详细学习笔记

最新推荐文章于 2025-02-05 12:43:03 发布

原创

最新推荐文章于 2025-02-05 12:43:03 发布 · 置顶 · 1.8w 阅读

110

标签

#重要性采样 #off-policy #on-policy #RL #强化学习

本文详细介绍了重要性采样在强化学习中的应用，区分了on-policy和off-policy策略。on-policy指的是行动策略与评估策略相同，而off-policy则不同。重要性采样用于在off-policy中评估目标策略，通过加权来修正方差。文章讨论了加权重要性采样如何降低方差，并给出了具体算法的伪代码。此外，还探讨了在不同采样方法下的方差变化及其影响。

重要性采样(Importance Sampling)详细学习笔记

文章目录

重要性采样(Importance Sampling)详细学习笔记

前言：

重要性采样，我在众多算法中都看到的一个操作，比如PER，比如PPO。
由于我数学基础实在是太差了，每次看都是迷糊过去，希望下次能看懂，半年前看《深入浅出强化学习》的时候，是理解了的，但是没做笔记，再看的时候就记不起来了…
最近忍不了了，还是记下来再说。

参考主体：

强化学习入门第三讲蒙特卡罗方法
李宏毅强化学习ppo章节

on-policy 和 off-policy

若行动策略和评估及改善的策略是同一个策略，我们称之为on-policy,可翻译为同策略。

若行动策略和评估及改善的策略是不同的策略，我们称之为off-policy, 可翻译为异策略。

接下来我们重点理解这on-policy方法和off-policy方法。

On-policy:

同策略是指产生数据的策略与评估和要改善的策略是同一个策略模型。比如，要产生数据的策略和评估及要改进的策略都是 $\epsilon-soft$ 策略。其伪代码如图3.5所示在这里插入图片描述
图3.5 同策略蒙特卡罗强化学习

如图3.5产生数据的策略以及进行评估和改进的策略都是 $\epsilon$ - $s o f t$ 策略。

Off-policy:

异策略是指产生数据的策略与评估和改善的策略不是同一个策略。我们用 $\pi$ 表示用来评估和改进的策略，用 $\epsilon$ - $s o f t$ 表示产生样本数据的策略。

异策略可以保证充分的探索性。例如用来评估和改进的策略 $\pi$ 是贪婪策略，用于产生数据的探索性策略 $\mu$ 为探索性策略，如 $\epsilon$ - $s o f t$ 策略。

用于异策略的目标策略 $\pi$ 和行动策略 $\mu$ 并非任意选择的，而是必须满足一定的条件。这个条件是覆盖性条件即：行动策略 $\mu$ 产生的行为覆盖或包含目标策略 $\pi$ 产生的行为。利用式子表示即为：满足 $\pi(a|s)>0$ 的任何 $(s, a)$ 均满足 $\mu(a|s)>0$ 。

这个覆盖性的公式没太明白。我直观上理解是，目标策略 $\pi$ 有的动作，动作策略都会产生，即概率大于0。

重要性采样

利用行为策略产生的数据评估目标策略需要利用重要性采样方法。下面，我们来介绍重要性采样。
在这里插入图片描述
图3.6 重要性采样

我们利用图3.6来描述重要性采样的原理。重要性采样来源于求期望：
在这里插入图片描述

这里先提几个基础概念，（哇，这个基础概念我都弄错了，还好被师弟及时纠正），p(z)被称为变量z的概率密度函数，由于不在f(z)中进行采样，所以f(z)算是z的一个权重函数？另外概率分布F(x)和概率密度f(x)的关系，一般是 $F(x)=\int{1*f(x)dx}$ ，是一个定积分，求面积的关系。

在李宏毅的课程中，有这样的描述：
在x服从p(x)分布时，f(x)的期望为负，此时我们从q(x)中来采样少数的x，那么我们采样到的x很有可能都分布在右半部分，此时f(x)大于0，我们很容易得到f(x)的期望为正的结论，这就会出现问题，因此需要进行大量的采样
这里的服从p(x)分布和分布函数是不一样的概念。一般变量会根据概率密度函数p(x)采样来的，所以也会称为，变量x服从p(x)分布。