PPO与DQN的Replay Buffer之争:重要性采样的底层逻辑解析
在强化学习领域,PPO(Proximal Policy Optimization)和DQN(Deep Q-Network)作为两种主流算法,各自采用了截然不同的数据利用策略。许多刚接触PPO的开发者常会疑惑:为什么不能像DQN那样简单地复用历史数据?这背后隐藏着重要性采样这一关键数学工具的严格限制。
1. 算法设计哲学的根本差异
PPO和DQN虽然同属强化学习范畴,但它们的优化目标和实现路径存在本质区别。DQN作为价值函数逼近方法,其核心是学习状态-动作对的Q值函数。这种价值评估的特性使得它可以接受来自不同策略的数据——只要数据能反映环境的状态转移规律即可。
相比之下,PPO属于策略梯度方法家族,直接优化策略函数本身。策略梯度方法有一个关键特性:它们对当前策略的"忠诚度"极高。这意味着:
- 策略梯度更新依赖于当前策略产生的数据分布
- 每个梯度步实际上是对当前策略局部邻域的最优解搜索
- 策略的微小变化会导致状态访问分布的显著改变
这种特性在蒙特卡洛策略梯度中表现得尤为明显。PPO作为其改进版本,通过引入重要性采样和裁剪机制来缓解这个问题,但并未改变其依赖当前策略数据分布的本质属性。
2. 重要性采样的数学约束
重要性采样是PPO能够实现样本高效的关键技术,但它也带来了严格的使用条件。从数学上看,重要性采样权重可以表示为:
重要性权重 = π_new(a|s) / π_old(a|s)
这个简单的比值背后有两个致命约束:
- 分布相似性要求:新旧策略的分布差异不能过大,否则重要性权重会出现极端值
- 时间局部性要求:π_old必须是与当前策略足够近期的版本
当使用Replay Buffer中的陈旧数据时,这两个约束都会被严重破坏。考虑一个训练过程中的典型场


3396

被折叠的 条评论
为什么被折叠?



