一、文章主要内容总结
该研究聚焦强化学习(RL)中具有大型离散多维无序动作空间和任意状态依赖约束的资源分配类问题(如安全资源部署、应急响应单位调度等),核心挑战包括:动作空间是离散无序的类别型、约束难以用紧凑数学形式表示、需学习随机最优策略。
文章提出了一套完整解决方案——基于离散归一化流的策略网络与无效动作拒绝机制,并整合进Actor-Critic框架(命名为IAR-A2C):
- 问题建模:将问题形式化为马尔可夫决策过程(MDP),目标是学习仅在每个状态有效动作集上有支撑的随机策略,最大化长期期望奖励。
- 核心组件:
- 条件归一化流策略:利用Argmax Flow构建紧凑策略表示,仅输出采样动作及对应对数概率,避免显式建模整个庞大动作空间;
- 三明治估计器:结合ELBO(证据下界)和CUBO(χ²散度上界),降低动作对数概率估计的偏差,提升训练稳定性;
- 无效动作拒绝机制(IAR):通过约束预言机筛选采样动作中的无效项,基于修正的策略梯度更新策略,保证动作有效性。
- 实验验证:在CartPole、Acrobot、Pistonball(高维图像输入、超大动作空间)及自定义应急资源分配(ERA)环境中,与Wol-DDPG、动作掩码(MASK)等基线方法对比,验证了方案在无约束/有约束场景下的优越性,且训练效率显

订阅专栏 解锁全文

896

被折叠的 条评论
为什么被折叠?



