Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

伦敦大学学院、UC伯克利联手,撰文综述深度强化学习泛化研究

强化学习应用广泛,但为何泛化这么难?如果要在现实世界的场景中部署强化学习算法,避免过度拟合至关重要。来自伦敦大学学院、UC 伯克利机构的研究者撰文对深度强化学习中的泛化进行了研究。

强化学习 (RL) 可用于自动驾驶汽车、机器人等一系列应用,其在现实世界中表现如何呢?现实世界是动态、开放并且总是在变化的,强化学习算法需要对环境的变化保持稳健性,并在部署期间能够进行迁移和适应没见过的(但相似的)环境。

然而,当前许多强化学习研究都是在 Atari 和 MuJoCo 等基准上进行的,其具有以下缺点:它们的评估策略环境和训练环境完全相同;这种环境相同的评估策略不适合真实环境。

我们以下图为例:下图为三类环境(列)的可视化,涉及图模型、训练和测试分布以及示例基准(行)。经典 RL 专注于训练和测试相同的环境(单例环境,第一列),但在现实世界中,训练和测试环境不同,它们要么来自相同的分布(IID 泛化环境,第二列),要么来自不同的分布( OOD 泛化环境,第三列)。

图片

图 1:强化学习泛化。

经典 RL(训练和测试环境相同)与监督学习标准假设形成鲜明对比,在监督学习中,训练集和测试集是不相交的,而对于 RL 来说,RL 策略要求训练和测试环境相同,因此在评估时可能导致模型过拟合。即使在稍微调整的环境实例上 RL 表现也不佳,并且在用于初始化没见过的随机种子上失败 [7, 8, 9, 10]。

目前,许多研究者已经意识到这个问题,开始专注于改进 RL 中的泛化。来自伦敦大学学院、UC 伯克利机构的研究者撰文《 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING 》,对深度强化学习中的泛化进行了研究。

图片


论文地址:https://arxiv.org/pdf/2111.09794v1.pdf

本文由 7 个章节组成:第 2 节中简要描述了 RL 相关工作;第 3 节介绍了 RL 泛化中的形式(formalism)和术语;第 4 节研究者使用这种形式来描述当前 RL 中泛化基准,包括环境(第 4.1 节)和评估协议(第 4.2 节);第 5 节中研究者对泛化研究进行了分类和描述;第 6 节研究者对 RL 当前领域进行了批判性讨论,包括对未来工作关于方法和基准的建议,并总结了关键要点;第 7 节是全文总结。

本文主要贡献包括:

该研究提出了一种形式和术语,以用于讨论泛化问题,这一工作是建立在之前研究 [12, 13, 14, 15, 16] 的基础上进行的。本文将先前的工作统一成一个清晰的形式描述,这类问题在 RL 中被称为泛化。

该研究提出了对现有基准的分类方法,可用于测试泛化。该研究的形式使我们能够清楚地描述泛化基准测试和环境设计的纯 PCG(Procedural Content Generation)  方法的弱点:完整的 PCG 环境会限制研究精度。该研究建议未来的环境应该使用 PCG 和可控变异因素的组合。

该研究建议对现有方法进行分类以解决各种泛化问题,其动机是希望让从业者能够轻松地选择给定具体问题的方法,并使研究人员能够轻松了解使用该方法的前景以及可以做出新颖和有用贡献的地方。该研究对许多尚未探索的方法进行进一步研究,包括快速在线适应、解决特定的 RL 泛化问题、新颖的架构、基于模型的 RL 和环境生成。

该研究批判性地讨论了 RL 研究中泛化的现状,推荐了未来的研究方向。特别指出,通过构建基准会促进离线 RL 泛化和奖励函数进步,这两者都是 RL 中重要的设置。此外,该研究指出了几个值得探索的设置和评估指标:调查上下文效率和在持续的 RL 设置中的研究都是未来工作必不可少的领域。

以下为论文中摘取的部分内容。

论文概览

在第 3 节中,研究者提出了一种用于理解和讨论 RL 泛化问题的形式。

监督学习中的泛化是一个被广泛研究的领域,因此比 RL 中的泛化研究更深。在监督学习中,通常假设训练和测试数据集中的数据点都是从相同的底层分布中抽取的。泛化性能与测试性能是同义词,因为模型需要泛化到它在训练期间从未见过的输入。在监督学习中的泛化可定义为:

图片


而在 RL 中,泛化的标准形式是马尔可夫决策过程 (MDP)。MDP 中的标准问题是学习一个策略π(|s),该策略产生给定状态下的行动分布,从而使 MDP 中策略的累积奖励最大化:

图片


其中π^∗是最优策略,Π是所有策略的集合,R: S→R 是一个状态的返回,计算为:

图片


强化学习中泛化基准

表 1 列出了在 RL 中可以进行测试泛化的可用环境,共 47 个,表中总结了每个环境的关键特性。

图片


其中,Style 列:提供了对环境类型的粗略高层次描述;Contexts 列:在文献中有两种设计上下文集的方法,这些方法之间的关键区别是 context-MDP 创建是否对研究人员可访问和可见。第一种称为 PCG,在 context-MDP 生成中依赖于单个随机种子来确定多个选择;第二种方法对 context-MDP 之间的变化因素提供了更直接的控制,称之为可控环境。Variation 列:描述了在一组 context MDP 中发生的变化。

泛化评估协议:事实上,在纯 PCG 环境中,评估协议之间变化唯一有意义的因素是上下文效率限制。PCG 环境提供了三类评估协议,由训练上下文集决定:单个上下文、一小组上下文或完整上下文集。这些分别在图 2A、B 和 C 中进行了可视化。

图片


可控环境评估协议:许多环境不仅使用 PCG,并且具有变化因子,可以由环境用户控制。在这些可控环境中,评估协议范围更广。对于每个因素,我们可以为训练上下文集选择一个选项,然后在此范围内或之外对测试上下文集进行采样。选项范围如图 3 所示。

图片


强化学习中的归纳方法

文中对处理 RL 中泛化的方法进行分类。当训练和测试上下文集不相同时,RL 泛化问题就会出现。图 4 是分类图表。
 

图片

在其他条件相同的情况下,训练和测试环境越相似,RL 泛化差距越小,测试时间性能越高。通过将训练环境设计为尽可能接近测试环境,可以增加这种相似性。因此,本文在增加相似性方法中,包括数据增强和域随机;环境生成;优化目标。

处理训练和测试之间的差异:经过训练的模型会依赖训练中学习到的特征,但在测试环境中的一点改变就会影响泛化性能。在 5.2 节中,该研究回顾了处理训练和测试环境特征之间存在差异的方法。

关于 RL 特定问题和改进:前两节中的动机大多同样适用于监督学习。然而,除了来自监督学习的泛化问题之外,RL 还存在抑制泛化性能的其他问题。在 5.3 节中,该研究针对这一问题进行了讨论,并且还讨论了纯粹通过更有效地优化训练集(至少在经验上)来提高泛化的方法,这些方法不会导致网络过拟合

更多细节,请参考原论文。
理论
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~