15、POMDP 控制器的最优预算与单调性应用

POMDP 控制器的最优预算与单调性应用

1. 单调性与参数特性

在研究中发现,若一个状态局部单调递减,另一个状态局部单调递增,那么全局单调性无法获得。当一个参数仅在少数状态出现时,该参数的顺序更有可能是充分的,并且该参数仅局部单调递增(或仅递减)的可能性也更高。以网络 dp 为例,实例 (2,1,1) 和 (2,3,1) 中,参数平均分别出现在 10.9 和 6.6 个状态上。实例 (2,1,1) 的顺序比实例 (2,3,1) 具有更高的充分性,但实例 (2,3,1) 发现了 18 个参数的全局单调性,而实例 (2,1,1) 未发现全局单调性。

2. 参数提升与集成方法对比
  • 传统参数提升 :在传统的参数提升方法中,所有基准测试都难以完成。由于参数数量众多,需要进行大量的区域分割,这会导致内存不足错误。而且这些基准测试已经是原始 POMDP 基准测试中的最小实例,无法选择参数更少的基准测试。
  • 集成方法 :采用集成方法能获得更多结果。首先,选择一个好的初始 CurMax 非常有帮助,因为对于许多基准测试,不需要进行区域分割,这可以从 # i = 0 这一事实中观察到。其次,当需要进行区域分割时,例如想要更精确的结果(ε = 0.05),该方法仍然适用于大多数基准测试。启发式方法有助于减少辅助单调性检查器所需的额外参数提升调用次数。只有在对网络 ps 实例 (2,5,1) 和 4 × 4 网格实例 (4) 进行最小化操作,且 ε = 0.05 时,会出现内存不足的情况。对于网络 ps 的实例 (2,1,1),所有参数都具有全局单调性,因此结果是可证明的最优解。当 ε
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值