15、POMDP 控制器的最优预算与单调性应用

原创于 2025-06-26 09:13:59 发布 · 57 阅读

·

0

·

标签

#POMDP控制器 # 参数提升 # 单调性

解读《系统定量评估》：从QEST 2022看前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

POMDP 控制器的最优预算与单调性应用

1. 单调性与参数特性

在研究中发现，若一个状态局部单调递减，另一个状态局部单调递增，那么全局单调性无法获得。当一个参数仅在少数状态出现时，该参数的顺序更有可能是充分的，并且该参数仅局部单调递增（或仅递减）的可能性也更高。以网络 dp 为例，实例 (2,1,1) 和 (2,3,1) 中，参数平均分别出现在 10.9 和 6.6 个状态上。实例 (2,1,1) 的顺序比实例 (2,3,1) 具有更高的充分性，但实例 (2,3,1) 发现了 18 个参数的全局单调性，而实例 (2,1,1) 未发现全局单调性。

2. 参数提升与集成方法对比

传统参数提升 ：在传统的参数提升方法中，所有基准测试都难以完成。由于参数数量众多，需要进行大量的区域分割，这会导致内存不足错误。而且这些基准测试已经是原始 POMDP 基准测试中的最小实例，无法选择参数更少的基准测试。
集成方法 ：采用集成方法能获得更多结果。首先，选择一个好的初始 CurMax 非常有帮助，因为对于许多基准测试，不需要进行区域分割，这可以从 # i = 0 这一事实中观察到。其次，当需要进行区域分割时，例如想要更精确的结果（ε = 0.05），该方法仍然适用于大多数基准测试。启发式方法有助于减少辅助单调性检查器所需的额外参数提升调用次数。只有在对网络 ps 实例 (2,5,1) 和 4 × 4 网格实例 (4) 进行最小化操作，且 ε = 0.05 时，会出现内存不足的情况。对于网络 ps 的实例 (2,1,1)，所有参数都具有全局单调性，因此结果是可证明的最优解。当 ε

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。