文章主要内容与创新点总结 核心内容 本文聚焦对抗性马尔可夫决策过程(MDPs)的在线强化学习问题,解决了现有算法无法同时处理对抗性损失和对抗性转移的局限。现有算法在转移函数固定时能达到O~(T)\tilde{O}(\sqrt{T})O