14、具有最优预算的POMDP控制器：深入解析与实验验证

最新推荐文章于 2026-06-24 07:09:24 发布

原创最新推荐文章于 2026-06-24 07:09:24 发布 · 132 阅读

0 GEO检测

标签

#POMDP控制器 # 最优预算 # 单调性

解读《系统定量评估》：从QEST 2022看前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

具有最优预算的POMDP控制器：深入解析与实验验证

在复杂的系统控制与优化领域，部分可观测马尔可夫决策过程（POMDP）控制器的设计与优化一直是研究的热点。本文将详细探讨POMDP控制器在最优预算下的相关技术，包括单调性的定义、奖励顺序的构建、分治法的应用以及实验验证等方面。

1. 单调性的定义

在研究POMDP控制器时，我们需要区分局部单调性和全局单调性。
- 全局单调性 ：对于一个在区域R上连续可微的函数f，如果对于所有的 ⃗u ∈R，都有 ∂/∂pf(⃗u) ≥ 0，则称f在参数p上单调递增，记为f↑R p。对于概率模型检查（pMC）M = (S, sI , T, V , P)，如果ERsI →T ↑R p，则称M在图保持区域R上关于参数p单调递增，记为M↑R p。单调递减的定义类似，记为M↓R x。然而，检查全局单调性是co - ETR困难的，因此我们更关注参数在给定状态s下的局部单调性。
- 局部单调性 ：如果对于所有的 ⃗u ∈R，都有 (∑s′∈succ(s) ∂/∂pP(s, s′) · ERs′→T)(⃗u) ≥ 0，则称ERs→T在参数p（在状态s）上局部单调递增，记为ERs→T ↑ℓ,R p。为了简洁起见，我们通常省略↑R和↑ℓ,R的上标R。

例如，考虑图2(a)中的pMC M，奖励函数r(si) = i，目标状态为特定状态。通过定义4，我们可以得到ERs0→↓ℓ p和ERs2→↑ℓ p。如果一个参数p在所有状态下都是局部单调递增（递减）的，那么奖励函数ERsi→T在p上就是全局单调递增（递减）的。

局部单调性在参数提升方面具有重要作用。在参数