43、多智能体决策过程中的动态规划与协作模型解析

多智能体决策过程中的动态规划与协作模型解析

1. POMG中的动态规划

在多智能体决策过程中,计算纳什均衡通常是一个计算量极大的任务。传统方法中,行动对应着所有可能的条件计划,这使得计算复杂度极高。为了解决这个问题,可以采用动态规划的方法,借鉴POMDP中的值迭代方法,在扩展考虑的条件计划深度和修剪次优计划之间进行迭代。

以下是实现该动态规划方法的Algorithm 26.4的主要步骤:
1. 构建一步计划 :首先构建所有的一步计划。
2. 修剪计划 :修剪被其他计划支配的计划。一个计划 $\pi_i$ 如果存在另一个计划 $\pi_i’$ ,使得 $\pi_i’$ 始终至少和 $\pi_i$ 表现一样好,那么 $\pi_i$ 就可以被修剪掉。这可以通过求解一个线性规划来检查。
3. 扩展计划 :扩展所有一步计划的组合,生成两步计划。
4. 重复过程 :重复扩展和修剪的过程,直到达到期望的时间范围。

以下是相关代码实现:

struct POMGDynamicProgramming
    b
    # initial belief
    d
    # depth of conditional plans
end

function solve(M::POMGDynamicProgramming, 𝒫::POMG)
    ℐ, 𝒮, 𝒜, R, γ, b, d = 𝒫.ℐ, 𝒫.𝒮, 𝒫.𝒜
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值