2025_NIPS_Generative Modelling of Stochastic Actions with Arbitrary Constraints in Reinforcement ...

一、文章主要内容总结

该研究聚焦强化学习(RL)中具有大型离散多维无序动作空间任意状态依赖约束的资源分配类问题(如安全资源部署、应急响应单位调度等),核心挑战包括:动作空间是离散无序的类别型、约束难以用紧凑数学形式表示、需学习随机最优策略。

文章提出了一套完整解决方案——基于离散归一化流的策略网络无效动作拒绝机制,并整合进Actor-Critic框架(命名为IAR-A2C):

  1. 问题建模:将问题形式化为马尔可夫决策过程(MDP),目标是学习仅在每个状态有效动作集上有支撑的随机策略,最大化长期期望奖励。
  2. 核心组件
    • 条件归一化流策略:利用Argmax Flow构建紧凑策略表示,仅输出采样动作及对应对数概率,避免显式建模整个庞大动作空间;
    • 三明治估计器:结合ELBO(证据下界)和CUBO(χ²散度上界),降低动作对数概率估计的偏差,提升训练稳定性;
    • 无效动作拒绝机制(IAR):通过约束预言机筛选采样动作中的无效项,基于修正的策略梯度更新策略,保证动作有效性。
  3. 实验验证:在CartPole、Acrobot、Pistonball(高维图像输入、超大动作空间)及自定义应急资源分配(ERA)环境中,与Wol-DDPG、动作掩码(MASK)等基线方法对比,验证了方案在无约束/有约束场景下的优越性,且训练效率显
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值