Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

【第一期】20篇强化学习论文总结(附下载链接)

为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,敬请关注。

本期内容如下:

1.Robust  Adversarial Reinforcement Learning

来源:ICML’17

总结:

本文讨论了强化学习的鲁棒性。作者提出当前的强化学习方法难以泛化的两个主要原因:

(1)模拟环境和真实世界存在巨大差异导致模拟环境学习的策略难以迁移到真实世界。

(2)在真实世界直接学习则缺乏数据。作者提出了鲁棒对抗增强学习的思想,通过同时训练两个智能体来使得强化学习更好地泛化到真实世界。两个智能体分别称为“protagonist”和“adversary”。“adversary”的目标是产生系统扰动干扰“protagonist”的决策,“protagonist”的目标是能在“adversary”的干扰下完成给定的任务。文中还设计了一个零和马尔可夫博弈作为两个智能体的学习目标。

下载链接:https://www.aminer.cn/archive/robust-adversarial-reinforcement-learning/599c7954601a182cd26310c2

2.Mastering the game of Go with deep neural networks and tree search

来源:Nature

总结:

本文介绍了围棋AI程序AlphaGo 使用的技术。围棋AI的挑战主要来自两方面:一方面是庞大的搜索空间;另一方面是围棋的局面和走棋难以评估。AlphaGo设计了value networks和policy networks两个深度神经网络分别用于评估局面和选择下一步的走棋位置。这两个深度网络采用监督学习强化学习两种方式训练,并通过蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)将两者结合到一起。文章发表时,AlphaGo和其他围棋AI程序对弈能达到99.8%的胜率,并以5:0的比分击败了欧洲冠军。

下载链接:https://www.aminer.cn/archive/mastering-the-game-of-go-with-deep-neural-networks-and-tree-search/56ab70cd0cf2c98bf5bc717a

3.Mastering the game of Go without human knowledge

来源:Nature

总结:

本文介绍了无监督版的AlphaGoAlphaGo Zero。在AlphaGo的训练过程中需要有人类专家的棋谱作为训练样本进行监督训练,而在AlphaGo Zero完全依靠自我对弈,通过强化学习的方式训练。与AlphaGo不同,AlphaGo Zero通过一个神经网络用于局面评估和走棋位置选择,而并非value networks和policy networks两个网络完成。

下载链接:https://www.aminer.cn/archive/mastering-the-game-of-go-without-human-knowledge/59ec02da0cf22f5df7319dc3

4.Continuous Control With Deep Reinforcement Learning

来源:arXiv

总结:

本文将DQN应用在连续行动空间的强化学习问题上。DQN只能处理离散、低维的动作空间,难以直接扩展到连续行动空间上。作者提出了Deep DPG算法,是一个基于DPG(Deterministic Policy Gradient)的Actor-Critic方法,该算法在actor网络部分使用DPG算法,在critic网络使用DQN学习值函数。

下载链接:https://www.aminer.cn/archive/continuous-control-with-deep-reinforcement-learning/573696096e3b12023e51cb6b

5.Benchmarking Deep Reinforcement Learning for Continuous Control

来源:ICML’16

总结:

本文提供了一个连续控制领域的Benchmark,帮助研究人员测试对比强化学习算法。Benchmark中包含31个连续控制任务,包括简单任务(如cart-pole balancing),locomotion任务(如Humanoid locomotion),部分可观测任务以及层次结构的任务。Benchmark中还包括这些任务的基线算法用于对比算法效果。关于Benchmark的更多内容可以参考以下链接:https://github.com/rlworkgroup/garage.

下载链接:https://www.aminer.cn/archive/benchmarking-deep-reinforcement-learning-for-continuous-control/57a4e91aac44365e35c97e12

6.Deep Reinforcement Learning for Mention-Ranking Coreference Models

来源:EMNLP’16

总结:

本文提供了一个使用强化学习解决共指消解(coreference resolution)问题的方法。共指消解通常使用启发式的损失函数,这些损失函数需要调整超参来保证效果。作者在mention-ranking 模型中使用强化学习选择启发式损失函数的超参。

下载链接:https://www.aminer.cn/archive/deep-reinforcement-learning-for-mention-ranking-coreference-models/58437722ac44360f1082f5bd

7.Hybrid Code Networks: Practical and Efficient End-to-EndDialog Control with Supervised and Reinforcement Learning

来源:ACL’17

总结:

本文介绍了一个end-to-end对话系统的学习方法HCNs(Hybrid Code Networks)。HCNs在RNN的基础上可以结合领域知识,这些领域知识通过domain-specific software和domain-specific action templates两个模块实现。模型可以通过监督学习强化学习来训练。实验表明通过HCNs加入领域知识可以减少学习需要的数据同时提高任务导向型对话系统的效果。

下载链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/02/williams2017acl.pdf

8.Towards End-to-End Reinforcement Learning of Dialogue Agents for Information Access

来源:ACL’17

总结:

本文介绍了对话机器人KB-InfoBot的实现技术。KB-InfoBot通过与用户对话帮助用户搜索知识库的信息。过去的对话系统通过语义分析将用户的输入转化为符号化的表示,但这种方式无法表达语义分析过程中的不确定性,同时这种方式得到的损失度量不可导,破坏了end-to-end的学习过程。KB-InfoBot用后验分布来表示用户对知识库实体的查询意图,并结合强化学习进行end-to-end的训练,利用用户反馈学习对话系统的行动策略。

下载链接:https://www.aminer.cn/archive/towards-end-to-end-reinforcement-learning-of-dialogue-agents-for-information-access/59ae3c262bbe271c4c71e9cb

9. Deep Reinforcement Learning for Dialogue Generation

来源:EMNLP’16

总结:

本文介绍了强化学习在对话生成中的应用。基于Seq2Seq模型的对话系统通常有两个问题:一方面会产生很多通用的,没有信息量的回答;另一方面这类模型会做出重复回应,陷入死循环。为了解决上述问题,作者提出了多轮对话需要满足的三个要求:informativity,coherence和ease of answering,并定义了三个奖励函数,使用强化学习训练使对话系统可以更好地与用户交互。

下载链接:https://www.aminer.cn/archive/deep-reinforcement-learning-for-dialogue-generation/57a4e91dac44365e35c98401

10.Online Reinforcement Learning in Stochastic Games

来源:NIPS’17

总结:

本文研究了如何在随机博弈场景中使用增强学习。在传统的强化学习中,马尔可夫决策过程被用于描述单智能体与环境的交互。随机博弈作为马尔可夫决策过程的扩展,可用于描述多个智能体与环境的交互。本文考虑两人零和随机博弈的场景,与传统强化学习的区别主要在两人同时行动,并且共同对系统的奖励产生影响。基于该场景,作者提出了UCSG(Upper Confidence Stochastic Game)算法并做了相关的理论分析,如regret bound,sample complexity等。

下载链接:https://www.aminer.cn/archive/online-reinforcement-learning-in-stochastic-games/5a260c0c17c44a4ba8a1e165

11.Self-critical Sequence Training for Image Captioning

来源:CVPR’17

总结:

本文在图像标注(Image Captioning)任务中应用了强化学习的方法。Encoder/Decoder模型在图像标注任务中取得了巨大的成功,但依然存在两个问题:训练和测试时单词生成方式不一致,训练时是由ground-truth生成的单词,测试时是由模型生成的单词,一旦单词预测错误,测试误差会不断累积;另一方面测试时单词的生成过程不可导,无法进行end-to-end的训练。强化学习的引入可以有效解决上述两个问题。本文提出了SCST(Self-Critical Sequence Training)算法,利用测试阶段的奖励直接优化CIDEr指标可以有效提高模型效果。

下载链接:https://www.aminer.cn/archive/self-critical-sequence-training-for-image-captioning/58d82fcbd649053542fd683e

12. Improved Image Captioning via PolicyGradient Optimization of SPIDEr

来源:ICCV’17

总结:

本文提出了基于强化学习的图像标注方法,该方法使用SPIDEr作为奖励函数,并使用了基于Monte Carlo rollouts的PG(PolicyGradient)优化。SPIDEr是SPICE和CIDEr两个图标标注指标的组合。这两个指标分别用于衡量标注是否与图像相符以及标注是否符合句法。

下载链接:https://arxiv.org/pdf/1612.00370.pdf

13. Safe and Nested Subgame Solving forImperfect-Information Games

来源:NIPS’17

总结:

本文介绍了德州扑克AI系统Libratus背后的技术,该系统在2017年击败了人类顶级职业玩家。德州扑克是一种非完美信息游戏,玩家无法知道对手的牌面,玩家在当前状态下子博弈(subgame)的最优策略会受到对手玩家的影响。这和完美信息游戏,如国际象棋,围棋等有本质区别。本文介绍了Libratus使用的subgame solving技术,并进行了理论和实验分析。

下载链接:https://www.aminer.cn/archive/safe-and-nested-subgame-solving-for-imperfect-information-games/599c794e601a182cd262e8ab

14. Learning to Collaborate: Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

来源:WWW’18

总结:

本文提出了一个多场景联合排序算法,目标是提高多场景的整体效果。多场景之间存在博弈关系,单个场景提升无法保证整体提升。本文将多场景排序看做一个完全合作,部分可观测的多智能体序列决策问题,并采用多智能体强化学习的框架建模。作者提出了MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)算法,利用DRQN对用户的历史信息建模,同时用DPG对连续状态和连续动作空间进行探索。

下载链接:https://s5.51cto.com/oss/201801/17/a6d11ce96aa71ead6df7446f6689608a.pdf

15.Neural Adaptive Video Streaming with Pensieve

来源:SIGCOMM’17

总结:

本文使用强化学习的方法优化ABR(adaptive bitrate)算法。视频客户端通常会使用ABR算法优化用户体验。ABR算法一般使用启发式的规则来决定视频块的码率,作者提出了Pensieve系统,采用强化学习的方法自动学习ABR算法,效果比start-of-the-art的ABR算法提升12-25%。

下载链接:https://www.aminer.cn/archive/neural-adaptive-video-streaming-with-pensieve/59ae3c4c2bbe271c4c720742

16.ReasoNet: Learning to Stop Reading in Machine Comprehension

来源:KDD’17

总结:

本文提出了一个机器理解模型ReasoNet。ReasoNet是一个多轮推理的算法,通过强化学习的方法动态决定推理的轮数。模型的想法源于模拟人类阅读的过程,人类阅读通常会带着问题多次阅读原文直到获得的信息足够回答问题。ResonNet通过Memory Network和注意力机制对问题和原文的交互过程建模,同时引入一个终止状态判断是否停止阅读。由于引入的终止状态是离散量,模型无法用BP算法,因此采用强化学习的方法训练模型。

下载链接:https://www.aminer.cn/archive/reasonet-learning-to-stop-reading-in-machine-comprehension/58437722ac44360f1082f03b

17. Dual Learning for Machine Translation

来源:NIPS’16

总结:

本文介绍了利用单语语料训练的机器翻译模型的方法dual-NMT。机器翻译任务很容易找到对偶问题,例如英译法的对偶任务是法译英。Dual-NMT采取了对偶学习的机制,原始任务和对偶任务分别对应一个模型,两个模型可以形成闭环,利用交互得到的反馈通过强化学习的方式进行训练。

下载链接:https://www.aminer.cn/archive/dual-learning-for-machine-translation/58d83051d649053542fe9bc0

18.Reinforcement Mechanism Design

来源:IJCAI’17

总结:

本文介绍了一个对动态环境机制建模和计算的框架。该框架结合了强化学习的思想和行为经济学,用于机制的设计和优化。文中介绍了该框架的两个实际应用,分别是淘宝的impression allocation和百度搜索中的广告拍卖。

下载链接:https://www.aminer.cn/archive/reinforcement-mechanism-design/59ae3c262bbe271c4c71eebb

19.Tuning Recurrent Neural Networks with Reinforcement Learning

来源:arXiv

总结:

本文将强化学习应用在音乐生成任务中。音乐生成通常可以训练一个RNN(如LSTM)来根据已有的音符预测下一个音符。但这类序列模型很难保证多步生成的序列在全局保持一致。作者使用强化学习来改进基于RNN的音乐生成模型,在序列模型的目标函数中中加入基于乐理的奖励函数,通过DQN训练来提高音乐生成模型的效果。

下载链接:https://www.aminer.cn/archive/tuning-recurrent-neural-networks-with-reinforcement-learning/58d82fced649053542fd70bc

20.Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

来源:WSDM’18

总结:

本文将深度强化学习应用到了异构星型网络的表示学习中。在异构星型网络表示的学习过程中通常需要采样一系列的边来得到点之间的相似性,作者发现这些边的顺序会显著影响表示学习的效果。作者借鉴了课程学习(Curriculum Learning)的思想,研究如何在网络表示学习中学习这些边的采样顺序。该问题可以形式化为马尔可夫决策过程,作者提出了一个基于深度强化学习的解决方法。

下载链接:https://www.aminer.cn/archive/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning/5a9cb60d17c44a376ffb3c89

AMiner 唯一官方微信公众号:学术头条(ID:SciTouTiao)。

AMiner 官方网站 网站 https://www.aminer.cn/

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论强化学习论文AlphaGo深度神经网络监督学习深度强化学习
9
相关数据
一飞智控机构

 一飞智控(天津)科技有限公司,2015年成立,国家级高新技术企业,注册资本800万元。公司专注于无人机飞行控制系统的研发与制造,为智能无人装备行业应用提供完整的控制系统解决方案。一飞智控核心团队由原中国科学院及北京航空航天大学、南京航空航天大学研发队伍组建而成,自2004年起开始核心技术的积累,率先提出为无人机造“大脑”的概念。在成就了多个国内商用无人机应用的“第一次”之后,于2015年正式成立一飞智控(天津)科技有限公司,并作为牵头企业入驻天津市泰达智能无人装备产业园。目前公司核心研发团队超过70人,其中具有博士学位人员占27.3%,硕士45.5%,被评为“全球前十大有影响力的飞行机器人研发团队”。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

蒙特卡罗树搜索技术

蒙特卡洛树搜索(英语:Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

序列到序列技术

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~