强化学习泛化性 综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

强化学习的泛化性是使其在现实世界中部署的关键,尤其是在多变环境中。本文分析了监督学习与强化学习泛化的差异,提出了强化学习泛化的形式化定义,并探讨了不同类型的上下文马尔可夫决策过程。文章还介绍了各种基准和评估协议,以及针对不同泛化问题的解决方法,如数据增强、域随机化、环境生成和正则化。此外,强调了在模拟和真实世界环境之间以及奖励函数变化等方面的泛化挑战,提出未来研究应关注更复杂的环境和变化类型,以及强化学习特定问题的解决方案。

摘要

DRL泛化研究目的是将算法部署在新未知环境中仍然具有很好的效果,而不只是在训练环境有较好的效果。

泛化性的研究是在现实场景中实现DRL部署的重要环节。因为在现实世界中,环境将是多样的、动态的和不可预测的。

这篇文章的工作:1. 定义了强化学习泛化性的形式化定义。 2. 对现有的通用化基准及解决通用化问题的方法进行分类。3. 对该领域的现状进行批判性讨论和展望。

其他观点:1. 采用纯程序性内容生成方法进行基准设计不利于通用化的进展,建议快速在线适应和解决RL特定问题,作为未来通用化方法工作的一些领域。 2. 建议在未充分探索的问题设置中构建基准,例如离线RL泛化和奖励函数变化。

一、介绍

  1. 强化学习可应用于自动驾驶、算法控制、机器人等,但实现需要在真实环境中使用,而真实环境又是复杂变化的。因此,RL算法需要对环境的变化具有鲁棒性,并且在部署过程中能够转移和适应不可见的(但类似的)环境。
  2. 当前RL研究主要在Atari和MuJoCo等基准上进行,它们在完全相同的环境下评估政策,与现实场景不匹配(下图左栏)。这与监督学习完全不同,监督学习分为训练集与测试集属于不同分布。因此RL可能会严重过拟合,即使稍微调整环境算法也无法获得好的效果(如改变随机种子)。
  3. 研究侧重于生成其策略具有所需鲁棒性、传递和自适应特性的算法,挑战训练和测试将是相同的基本假设(下图中和右栏)。
  4. 本文研究范围:zero-shot策略转移问题。这要求将训练好的策略迁移到新的环境中不能进行额外的训练,因此域自适应和许多元RL方法的含义方法是不适用的。
  5. 文章结构:第2节简述相关工作;第3节介绍RL及泛化性背景;第4节描述RL中通用化的当前基准,同时讨论了环境(4.1)和评估协议(4.2);第5节对工作产生方法进行了分类和描述,以解决普遍化问题;第6节对当前领域进行批判性讨论和展望;第7节总结了调查中的主要收获。
  6. 文章贡献:
    (1)提出了一种形式主义和术语描述RL泛化性问题。
    (2) 提出了一个可用于测试泛化性的基准分类,讨论分为分类环境和评估协议。总结PCG方法的缺点:完全PCG环境限制了在该环境下进行的研究的精度,建议未来的环境应使用PCG和可控变化因素的组合。
    (3)建议对现有方法进行分类,以解决各种泛化问题。进一步研究途径,包括快速在线适应、解决RL特定的泛化问题、新颖的架构、基于模型的RL和环境生成。
    (4) 给出展望,建立基准将使离线RL通用化和奖励功能变化取得进展。指出了几个值得探索的不同设置和评估指标:调查上下文效率和进行连续RL设置都是未来工作的必要领域。
    在这里插入图片描述
    (图中可见,经典RL侧重于训练和测试相同的环境(单例环境,第一列),但在现实世界中,训练和测试环境将不同,要么来自相同的分布(IID泛化环境,第二列),要么来自不同的分布(OOD泛化环境,第三列))

二、相关工作:强化学习子领域的survey

  1. 以往的survey工作包括:
    (1)持续强化学习(CRL):这与RL中的泛化密切相关,但未考虑zero-shot的特性。
    (2)鲁棒RL(RRL):聚焦于解决环境模型中最坏情况的效果,是泛化性的一个子领域。
    (3)sim-to-real:模拟到真实是泛化问题的具体实例,sim-to-real的一些方法依赖于来现实数据。
    (4)RL迁移学习(TRL):TRL与泛化相关,都假设策略在不同环境中训练,但TRL侧重于额外训练,这里侧重于zero-shot。
    (5)多任务深度RL
    (6)RL中的探索
    (7)RL中课程学习

三、强化学习中的泛化的形式

3.1 监督学习中泛化性

监督学习中,通常假设训练和测试数据集来自相同分布,其泛化性与测试效果相同。具有训练和测试数据Dtrain、Dtest和损失函数L的模型φ的监督学习中的广义差距定义为
在这里插入图片描述
对于泛化性的五种概括:
(1) 系统性:通过系统地重组已知的部分和规则来概括
(2) 生产力:将预测扩展到超出训练数据长度的能力
(3) 替代性:通过用同义词替换组件的能力来概括,
(4).局部性:如果模型合成操作是局部的,而不是全局的
(5) 过度概括:如果模型关注异常或对异常具有鲁棒性

3.2 强化学习泛化性背景

  1. RL中的标准形式是马尔可夫决策过程(MDP),MDP由元组M=(S,a,R,T,p)组成。
  2. POMDP是部分可观测马尔可夫决策过程,POMDP由一个元组M=(S,A,O,R,T,φ,p)组成,其中o是观测函数,φ是状态到观测的转移函数。

3.3 上下文马尔可夫决策过程

  1. 讨论泛化性需要一种方法谈论一系列任务、环境或级别。如OpenAI的Procgen,标准协议是在200个级别的固定集合上训练策略,然后评估级别的完整分布的性能。
  2. 为正式化任务集合的概念,这里从上下文马尔可夫决策过程(CMDP)开始。这里状态变为 s = ( c , s ′ ) ∈ S C s=(c,s^{'}) \in S_{C} s=(c,s)SC,其中 c c c是上下文信息, s ′ s^{'} s是基础状态。其中上下文 c c c代表种子、ID或参数向量这些决定任务的信息。因此在一个episode里 c c c不会发生变化,在不同的episode中 c c c才不同。CMDP是任务或环境的全部集合,在Procgen中,每个游戏都是一个单独的CMDP。
  3. 这里通常假设智能体无法观察到上下文信息c,因此将CMDP看作可以观察到状态s的POMDP。其中观测转移函数为: ϕ ( s ′ , c ) = s ′ \phi (s^{'},c) = s^{'}
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值