Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

聚焦强化学习的学习效率|IJCAI 2018

编者按:上个月中旬, IJCAI 2018在瑞典首府斯德哥尔摩召开,微软亚洲研究院机器学习组实习生林子钏从大会现场为我们带回了新鲜出炉的大会热点和他的参会论文分享。

7月16日至19日,人工智能顶级会议IJCAI在瑞典斯德哥尔摩郊外的国际博展馆召开。本次IJCAI大会共收到投稿3470篇,相比去年有37%的增长,最后共接收710篇,其中46%的通讯作者来自中国,华人在人工智能浪潮中的力量可见一斑。

大会论文涵盖了多个研究领域,其中数量最多的是机器学习领域,其次是计算机视觉领域。此外,机器学习应用多实体系统(multi-agent systems自然语言处理等研究方向也非常热门。

大会一共选出了7篇杰出论文:

  1. SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks (K.Wang, X.Wan)

  2. Reasoning about Consensus when Opinions Diffuse through Majority Dynamics (V. Auletta, D. Ferraioli, G. Greco)

  3. R-SVM+: Robust Learning with Privileged Information (X. Li, B. Du, C. Xu, Y. Zhang, L. Zhang, D. Tao)

  4. From Conjunctive Queries to Instance Queries in Ontology-Mediated Querying (C. Feier, C. Lutz, F. Wolter)

  5. What game are we playing? End-to-end learning in normal and extensive from games (C. K. Ling, J. Z. Kolter, F. Fang)

  6. Commonsense Knowledge Aware Conversation Generation with Graph Attention (H. Zhou, T. Young, M. Huang, H. Zhao, J. Xu, X. Zhu)

  7. A Degeneracy Framework for Graph Similarity (G. Nikolentzos, M. Vazirgiannis, P. Meladianos, S. Limnios)

强化学习中的探索

本次会议中,我最感兴趣的一个研讨会主题是探讨如何在强化学习中更好地进行探索

Exploration in Reinforcement Learning Workshop主页:

https://sites.google.com/view/erl-2018/home

由于该研讨会希望容纳尽可能多的研究方向,在不同思维方式的碰撞中产生一些新颖的想法,因此它接收的30篇论文涉及到无监督学习、因果推断、生成模型、贝叶斯建模、元学习、层次强化学习等各个不同方向。

我从中挑选了两篇论文为大家介绍一下。

1. Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

论文链接:https://arxiv.org/abs/1712.06560 

进化策略(Evolution Strategies)是解决强化学习问题的一类黑盒优化算法,优势是并行效率高、可扩展性好。但是,面对稀疏奖励(sparse reward)的强化学习问题,如何指导ES策略进行更有效率的探索,仍然是一个颇具挑战的难题

针对稀疏奖励的问题,目前使用神经网络的探索策略主要包括:

(1)近似计算“状态-动作”访问的次数;

(2)估计代理(agent)对于环境转换的不确定性。

这些方法只是单一地考虑个体的状态,然而,一个更好的方式是考虑代理行为的抽象。

在这篇论文中,作者定义了一个行为描述函数b(π),来刻画策略π的行为,并维护了一个行为描述库A。策略π_θ的新颖性(Novelty)可以通过计算b(π_θ)与其在A中的k近邻的平均距离得到。如下面公式所示:

在实际实验中,作者提出将新颖性与策略rollout的实际得分f(θ)线性结合的方式: 

初始时w=1,w在训练过程中逐渐下降,当代理的性能提高时,w的值也提高。

作者在Humanoid数据集上进行实验,实验中的行为描述函数b(π)定义为代理的rollout的最终位置(x, y)。

实验结果如下图所示,其中NS-ES为只使用Novelty的ES策略即w=0的方法,NSR-ES为w=0.5的方法,NSRA-ES为动态调整w的方法。实验表明,该论文提出的方法在稀疏环境上可以比ES算法进行更有效的探索

2. Meta-Reinforcement Learning of Structured Exploration Strategies (Abhishek Gupta, Russell Mendonca, Yuxuan Liu, Pieter Abbeel and Sergey Levine) 

论文链接:https://arxiv.org/abs/1802.07245 

探索(Exploration)是强化学习中的一个开放性问题。现有的很多探索方法是通过给单任务设置目标函数来增加信息增益(information gain),或者状态访问奖励(state visitation bonuses)。然而现实情况中往往包含多任务的学习。那么,先验任务能否为当前的学习任务提供更加充分的探索策略呢?

在这篇文章中,作者提出了一个新的模型——具有结构化噪声的模型无关探索(MAESN, Model-Agnostic Exploration with Structured noise),从先验的任务中学习探索策略。该方法可以从先验任务中得到一个初始的策略,并获取一个隐含探索空间(latent exploration space),然后从隐含探索空间中采样,得到结构化的探索策略。通过元强化学习(Meta-Reinforcement Learning),该结构化的探索策略可以大大增加新任务的探索效率。该方法在多个机器人的任务上均表现出了良好的探索效率。

图1 带有隐含状态的策略

图中,z表示从隐含的探索空间中采样出的随机变量。Z在每个episode开始时采样一次,整个episode中保持不变,保证探索策略在一个episode中的一致性。μ, σ为训练过程中学习出的分布参数

图2 更新流程图与更新公式

作者结合了变分推断元学习来更新参数,训练目标是使策略参数(θ)能够学会利用隐含变量(μ, σ),在新任务上进行快速有效的探索。其中,每个任务具有单独的隐含分布μ_i, σ_i,任务之间共享策略参数

每一步迭代中包含“内部”更新与“外部”更新两部分。在“内部”更新时,作者根据(5)(6)(7)式针对每个任务τ_i,分别对θ, μ, σ进行更新得到θ_i, μ_i, σ_i。在“外部”更新时,作者利用(3)(4)对所有任务进行奖励优化和KL散度优化。经过这两步更新,策略参数能学会利用隐含分布来优化所有任务,进而获取在所有任务上的最佳隐含探索空间。

图3 MAESN在新任务上的探索行为,明显展现出了比其他方法更加充分、全面的探索

图4 MAESN展现出了比其他方法更快的学习效率

情节记忆深度Q网络

下面介绍一下我在IJCAI 2018发表的成果 :情节记忆深度Q网络

样本效率(sample efficiency)是深度强化学习中一个基础问题。举个简单的例子,为了训练机器人打Atari视频游戏,深度Q网络(Deep Q-Networks)需要跟游戏环境进行上亿次的交互,才能学习到比较好的策略,训练时间为6~9天。相比起来我们人类几分钟就能学会玩一个游戏。因此目前的深度强化学习的样本效率是非常低的。

因此,为了提高深度强化学习的学习效率,我们提出了“情节记忆深度Q网络”(Episodic Memory Deep Q-Networks, EMDQN),在深度Q网络的训练过程中,不断把历史最优情节(episode)储存到记忆当中,并不断地取出进行训练。整体架构图如下所示:

我们为代理定义了两个训练目标,一个是one-step bootstrapped target,S(s, a);另一个是episodic memory target,H(s, a),并通过L2-loss函数同时优化这两个训练目标。

实验表明,我们的方法可以大大提高DQN的样本效率,在Atari游戏上进行更高效的学习。

感兴趣的读者可以访问我们的论文和开源代码:

论文地址:

https://www.ijcai.org/proceedings/2018/0337.pdf 

开源代码:

https://github.com/LinZichuan/emdqn

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

入门IJCAI 2018情节记忆深度Q网络强化学习
4
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

变分推断技术

see Variational Bayesian methods (approximation)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

本体论技术

在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。此外,有时人们也会将“本体”称为“本体论”。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

多智能体系统技术

一个多智能体系统,是由一个在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法,函数,过程,搜索算法或加强学习来实现。尽管存在相当大的重叠,然而一个多智能体系统并不总是一个基于智能体的模型表现一致。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

信息增益技术

在决策树学习中,信息增益比是信息增益与固有信息的比率。 它被用来通过在选择属性时考虑分支的数量和大小来减少对多值属性的偏见.

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~