POMDP 控制器的最优预算与单调性应用
1. 单调性与参数特性
在研究中发现,若一个状态局部单调递减,另一个状态局部单调递增,那么全局单调性无法获得。当一个参数仅在少数状态出现时,该参数的顺序更有可能是充分的,并且该参数仅局部单调递增(或仅递减)的可能性也更高。以网络 dp 为例,实例 (2,1,1) 和 (2,3,1) 中,参数平均分别出现在 10.9 和 6.6 个状态上。实例 (2,1,1) 的顺序比实例 (2,3,1) 具有更高的充分性,但实例 (2,3,1) 发现了 18 个参数的全局单调性,而实例 (2,1,1) 未发现全局单调性。
2. 参数提升与集成方法对比
- 传统参数提升 :在传统的参数提升方法中,所有基准测试都难以完成。由于参数数量众多,需要进行大量的区域分割,这会导致内存不足错误。而且这些基准测试已经是原始 POMDP 基准测试中的最小实例,无法选择参数更少的基准测试。
- 集成方法 :采用集成方法能获得更多结果。首先,选择一个好的初始 CurMax 非常有帮助,因为对于许多基准测试,不需要进行区域分割,这可以从 # i = 0 这一事实中观察到。其次,当需要进行区域分割时,例如想要更精确的结果(ε = 0.05),该方法仍然适用于大多数基准测试。启发式方法有助于减少辅助单调性检查器所需的额外参数提升调用次数。只有在对网络 ps 实例 (2,5,1) 和 4 × 4 网格实例 (4) 进行最小化操作,且 ε = 0.05 时,会出现内存不足的情况。对于网络 ps 的实例 (2,1,1),所有参数都具有全局单调性,因此结果是可证明的最优解。当 ε
超级会员免费看
订阅专栏 解锁全文

720

被折叠的 条评论
为什么被折叠?



