Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Chip Huyen作者学术君编译

ICLR 2019论文主题 | RL最受欢迎,RNN下降幅度最大,GAN仍在继续发展

相比于闹得沸沸扬扬的IJCAI审稿争议,2019 ICLR的评审结果没有出现太多争论。并于 2019年5月6日至9日在美国新奥尔良举行会议。2019年的投稿数量比去年增长了近60%,共收到1591篇,录取率为31.7%。

此次会议开始后,在Sasha Rush的开场白中,他提到了一些统计数据如下:

  • 只有8.6%的演讲者和15%的参与者是女性

  • 有2/3的LGBTQ +研究人员不专业

  • 8位受邀演讲者都是白人

来自Sasha Rush开场白的幻灯片

加州大学伯克利分校的助理教授谢尔盖·莱文(Sergey Levine)可能是今年在ICLR发表论文最多的人,他有15篇被接受的论文。

Sergey Levine于2009年获得斯坦福大学计算机科学学士和硕士学位,在获得博士学位后,他于2014年加入加州大学伯克利分校电子工程和计算机科学系。他的研究包括开发结合感知和控制的深度神经网络策略的端到端训练算法,用于逆强化学习的可扩展算法,深度强化学习算法等。

图片源自谷歌无监督表示学习相关论文入选率低


无监督表示学习的主要目标是从未标记数据中发现有用的数据表示以用于后续任务。在自然语言处理中,它通常通过语言建模来完成。然后将学习的表示用于诸如情感分析,名称实体识别和机器翻译之类的任务。

去年发表的一些最具进展性的论文是关于自然语言处理的无监督表示学习,包括如下内容:

Matthew E. Peters等人的《Deep contextualized word representations》

论文摘要:我们引入了一种新的深层语境化词语表示,它模拟了(1)单词使用的复杂特征(例如,语法和语义),以及(2)这些用法如何在语言上下文中变化(即模型多义词)。我们的单词向量是深度双向语言模型(biLM)的内部状态的学习函数,它是在大型文本语料库上预先训练的。我们表明,这些表示可以很容易地添加到现有模型中,并显著改善六个具有挑战性的NLP问题的技术发展水平,包括问答、文本蕴涵和情感分析。我们还提供了一个分析,表明暴露预训练网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。

Jeremy Howard等人的《Universal Language Model Fine-tuning for Text Classification》

归纳转移学习极大地影响了计算机视觉,但NLP中的现有方法仍需要从头开始进行任务特定的修改和培训。我们提出了通用语言模型微调(ULMFiT),这是一种有效的传递学习方法,可以应用于NLP中的任何任务,并介绍了微调语言模型的关键技术。我们的方法明显优于六个文本分类任务的最新技术,将大多数数据集的误差降低了18-24%。此外,仅使用100个标记示例,它可以在100倍以上的数据上从头开始匹配训练的性能。我们开源我们的预训练模型和代码。

尽管大多数大牌研究实验室已经在研究“我们怎样才能让无监督的代表学习为图像工作?”,但ICLR只选了一篇论文:“无监督表征学习元学习更新规则”(Metz等人)。他们的算法不是更新权重,而是更新学习规则。然后对从学习的学习规则中学习到的表示在少量标记样本上进行微调,以完成图像分类任务。他们能够找到学习规则,在MNIST和Fashion MNIST上达到准确率> 70%。外部循环需要大约100k个培训步骤,256个CPU需要200个小时。

元学习的内循环和外循环(Metz等)在不久的将来,也许我们会看到更多这样的论文。可以用于无监督学习的一些任务包括:自动编码,预测图像旋转(Spyros Gidaris等人的《Unsupervised Representation Learning by Predicting Image Rotations》在ICLR 2018已经命中),预测视频中的下一帧。

基础语言学习相关论文卷土重来

麻省理工学院媒体实验室的基础语言学习和理解项目于2001年停止,但基础语言学习的相关论文今年卷土重来,有两篇论文穿着强化学习的衣服:

  • 《DOM-Q-NET: Grounded RL on Structured Language》 - 一种RL算法,通过填充字段和点击链接来学习浏览网页,给出用自然语言表达的目标。

  • 《BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning》 - OpenAI Gym兼容平台,带有手工制作的机器人代理,模拟人类老师指导代理人学习合成语言。

确定有穷自动机(DFA)今年也在深度学习领域找到了自己的位置,有两篇论文:

《Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks》

论文摘要:我们研究了递归神经网络(RNN)在学习识别常规形式语言时所使用的内部表示。具体来说,我们从常规语言训练RNN的正面和负面示例,并询问是否存在将该RNN的状态映射到该语言的最小确定性有限自动机(MDFA)的状态的简单解码函数。我们的实验表明,这样的解码函数确实存在,并且它将RNN的状态映射到MDFA状态,而是映射到通过将小的MDFA状态集合成“''''superstates''获得的{\ em抽象}的状态。 。定性分析表明,抽象通常有一个简单的解释。总的来说,结果表明RNN和有限自动机使用的内部表示之间存在强烈的结构关系。

《Learning Finite State Representations of Recurrent Policy Networks 》

论文摘要:循环神经网络(RNN)是控制策略的有效表示,用于广泛的强化和模仿学习问题。然而,由于使用连续值记忆向量和观察特征,RNN策略特别难以解释,理解和分析。在本文中,我们介绍了一种新技术,即量化瓶颈插入,以学习这些向量和特征的有限表示。结果是RNN的量化表示,可以对其进行分析,以提高我们对记忆使用和一般行为的理解。我们在合成环境和六个Atari游戏中展示了这种方法的结果。在某些情况下,所得到的有限表示非常小,使用少至3个离散存储器状态和10个完美Pong策略的观察结果。

从RNN学习DFA的三个阶段(Koul等)

提取的自动机(Koul等人)RNN相关论文数量下降幅度最大

从2018年到2019年,提交主题的相对变化表明RNN的下降幅度最大。这并不奇怪,因为虽然RNN对于顺序数据是直观的,但它们存在巨大的缺点:它们无法并行化,因此无法利用自2012年以来推动研究进步的最大因素:计算能力。RNN从未在CV或RL中流行,对于NLP,它们正在被基于注意力的架构所取代。

图片来自ICLR 2019的补充统计数据这是否意味着RNN在研究界“死”了?并不是的。今年两个最佳论文奖之一是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks 》。除了本文和上述两篇关于自动机之外,今年还有9篇关于RNN的论文被接受,其中大部分都深入研究了RNN的数学基础,而不是发现RNN的新应用。

但是RNN在行业中仍然非常活跃,特别是对于那些处理贸易公司等时间序列数据的公司,不过这些公司通常不会公布他们的工作。虽然RNN目前对研究人员没有吸引力,谁知道它在未来会不会卷土重来呢?

GAN仍在继续发展

尽管GAN与去年相比呈现负相对变化,但实际上相关论文数量从约70增加到约100。

整个海报会议第一次专门讨论GAN。内容包含了新的GAN架构、旧GAN架构的改进、GAN分析。从图像生成到文本生成到音频合成的GAN应用有PATE-GAN、GANSYnth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN和KnockoffGAN等。

强化学习仍然是提交论文中最受欢迎的主题

RL社区正在从无模型方法转向基于样本的模型和元学习算法。大部分被接受的论文,连同RL研讨会的整个结构和入门,致力于将有关环境的一些知识整合到学习算法中。虽然早期深度RL算法的主要优势之一是通用性(例如,DQN对所有Atari游戏使用相同的架构而不了解任何特定游戏),新算法表明,结合先前知识有助于完成更复杂的任务。例如,在运输者网络(Jakab等人)中,代理人使用先验知识进行更具信息性的结构探索。

在多个任务之间执行快速转移学习的元学习算法在样本效率和性能方面也得到了很大改善。当我们可以使用从其他任务中学习的控制策略而不是从头开始训练它们时(这对于复杂的任务是不可能的),这些改进使我们更接近“ImageNet的RL时刻”。

PEARL在六个基准任务的渐近性能和元训练样本效率方面都优于以前的meta-RL方法总而言之,在过去的5年中,RL社区开发了各种有效的工具,用于在无模型设置中解决RL问题。现在是时候提出更多样本效率和可转移的算法来将RL应用于现实世界的问题。

ICLR 2019的补充统计数据中的这张图特别具有指示性。也许有人应该写一篇关于“用于普遍的,可转移的无监督元学习的强大概率框架”的论文。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业ICLR 2019强化学习RNN无监督学习GAN
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~