Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小心肝作者

强化学习成大热门!ICML 2020 热门话题引用量最高的论文

本届 ICML 会议已接近尾声,本届会议大家最关注的最佳论文、最佳论文提名、时间检验论文也已公布,而在未获奖的论文中有哪些被大家关注的好论文呢?

AMiner ICML 顶会系统统计了本次会议论文中出现频率较多的关键字,评估了本次会议中的热门方向,并可将不同类别的论文按引用量排序。依据 AMiner 系统,让我们来看看本次会议的热门话题与其中最受关注的论文吧。

热门主题

根据对入选论文标题的关键词分析,入选前10的热门话题为:强化学习神经网络,Bandit,高斯过程,图,表示,最优输运,网络,随机性,表示学习

不同主题高引论文

利用 Aminer 按主题搜索论文及各个主题下论文按引用量排序的功能,我们可以轻松找到本次会议不同主题中那些受研究者关注的热点论文。让我们来看看不同主题的热点论文有哪些吧!

强化学习

Skew-Fit: State-Covering Self-Supervised Reinforcement Learning

引用:31

作者:Vitchyr H. Pong, Murtaza Dalal, Steven Lin, Ashvin Nair, Shikhar Bahl, Sergey Levine

机构:加州大学伯克利分校

简介:在标准强化学习中,每一项新技能都需要一个手动设计的奖励函数,这需要大量的人工努力和工程设计。自我监督的目标设定有可能使这个过程自动化,使代理能够提出自己的目标并获得实现这些目标的技能。然而,这类方法通常依赖于手动设计的目标分布,或启发式,以迫使代理探索广泛的状态。作者提出了一个正式的探索目标,以达到目标的政策,最大限度的态覆盖。作者证明了这个目标等价于目标分布的熵最大化和目标达成性能的最大化,其中目标对应于整个状态。作者提出了一种学习这种最大熵目标分布的算法,并证明了在一定的正则性条件下,本文的方法在可能的状态集合上收敛到一个均匀分布,即使事先不知道这个集合。倾斜拟合使自监督代理能够自主选择和实践不同的目标。实验表明,它可以从图像中学习各种操作任务,包括用真正的机器人开门,完全从零开始,而且不需要任何人工设计的奖励功能。

神经网络

Normalized Flat Minima: Exploring Scale Invariant Definition of Flat Minima for Neural Networks using PAC-Bayesian Analysis

引用:8

作者:Yusuke Tsuzuku,Issei Sato,Masashi Sugiyama

机构:东京大学

简介:平面最小值的概念在深度学习模型的泛化研究中起着关键作用。然而,现有的平面度定义对参数的重定标敏感。这一问题表明,先前对平坦度的定义可能不是一个很好的泛化度量,因为泛化对于这种重定标是不变的。本文从 PAC-Bayesian 的观点出发,详细讨论了关于平坦极小的讨论,并引入了规范化平坦极小的概念,它不存在已知的尺度依赖性问题。此外,作者强调了现有的基于矩阵范数的泛化误差界的尺度依赖性,类似于现有的平面极小定义。本文修改过的平坦性概念也没有受到不足的影响,这表明它可能在假设类中提供更好的层次结构。

Bandit

Reinforcement Leaning in Feature Space: Matrix Bandit, Kernels, and Regret Bound

引用:32

作者:Lin F. Yang,Mengdi Wang

机构:普林斯顿大学

简介:强化学习(RL)的探索在状态-行为空间较大时会遭受维数灾难。通常的做法是使用给定的特性参数化高维值和策略函数。然而,现有的方法要么没有理论上的保证,要么在规划期内遭受指数级的遗憾。在本文中,作者提出了一种在线 RL 算法,即 MatrixRL,它利用线性 bandit 的思想来学习概率转移模型的低维表示,同时谨慎地平衡开发-勘探的权衡。

高斯过程

Efficiently Sampling Functions from Gaussian Process Posteriors

引用:3

作者:Wilson James T,Borovitskiy Viacheslav,Terenin Alexander,Mostowsky Peter,Deisenroth Marc Peter

机构: 伦敦帝国理工学院,圣彼得堡州立大学,伦敦大学学院

简介:高斯过程是许多真实世界建模问题的黄金标准,尤其是在模型的成功取决于它忠实地表示预测不确定性的能力的情况下。这些问题通常作为更大框架的一部分而存在,其中感兴趣的数量最终通过对后验分布的积分来定义。然而,这些算法的内部工作很少允许闭合形式的积分,因此需要蒙特卡罗方法。尽管在将高斯过程扩展到大型训练集方面取得了长足的进展,但是从其后验分布精确地生成绘图的方法仍然是在测试位置的数量上按立方体进行缩放的。作者确定了高斯过程的分解,通过使我们能够有效地生成精确表示其后验的函数,自然地有助于可伸缩采样。基于这种因式分解,作者提出了一种简单易用、通用的快速后验抽样方法——解耦抽样法。解耦采样是一种下降策略,它与高斯过程稀疏近似无缝配对,以在训练和测试时提供可伸缩性。在一系列旨在测试竞争抽样方案的统计行为和实际结果的实验中,作者从经验上证明了用解耦抽样方法绘制的函数可以真实地表示高斯过程的后验,而代价只是通常情况下的一小部分。

Graph Convolutional Network for Recommendation with Low-pass Collaborative Filters

引用:2

作者:Wenhui Yu,Zheng Qin

机构:清华大学

简介:带低通协同滤波器的图卷积网络(GCN)广泛应用于推荐等图形数据学习任务中。然而,当面对一个大的图时,图的卷积计算量非常大,因而在现有的所有 GCN 中都被简化,但由于过于简化而严重受损。为了解决这一差距,作者利用 GCN 中的原始图卷积,提出了一种低通协作滤波器(LCF),使其适用于大图。LCF 的设计是为了消除观测数据中由于曝光和量化而产生的噪声,并且在无损的情况下降低了图形卷积的复杂度。实验表明,LCF 提高了图卷积的效率和效率,并且本文的 GCN 明显优于现有的GCN。

表示

DeepMatch: Balancing Deep Covariate Representations for Causal Inference Using Adversarial Training

引用:8

作者:Nathan Kallus

机构:康奈尔大学

简介:当丰富的协变量和复杂的关系需要使用神经网络进行灵活的建模时,作者研究从观测数据进行因果推断的最优协变量平衡。标准方法,如倾向权重和匹配/平衡,在这种情况下失败是由于错误的倾向网络和不适当的协变量表示。作者提出了一种新的方法,基于一个加权和一个鉴别器网络的对抗性训练,有效地解决了这一方法上的差距。这一点通过该方法的新理论特征以及使用全连接结构学习复杂关系和卷积结构来处理图像混淆的实证结果来证明这一新方法如何能够在这些具有挑战性的环境中进行强有力的因果分析。

网络

Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks

引用:2

作者:Kristiadi Agustinus,Hein Matthias,Hennig Philipp

机构:图宾根大学

简介:ReLU 分类网络——可以说是应用最广泛的神经网络结构——的点估计已经被证明可以在远离训练数据的情况下产生任意高的置信度。这种结构与最大后验概率估计方案相结合,既不校准也不鲁棒。虽然贝叶斯近似的理论分析是有限的,但是经验证明近似贝叶斯推理可以改善神经网络的预测不确定性。作者从理论上分析了 ReLU 网络权值的近似高斯后验分布,并证明它们解决了过度自信问题。此外,作者还表明,即使是一个简单化的,因此便宜的贝叶斯近似,也可以解决这些问题。这表明,ReLU 网络中校准不确定度的一个充分条件是“有点贝叶斯”。这些理论结果验证了最后一层贝叶斯近似的使用,并激发了一系列保真度成本权衡。本文通过各种标准实验进一步验证了这些发现,这些实验使用普通的 deep ReLU 网络和 Laplace 近似。

随机性

The Intrinsic Robustness of Stochastic Bandits to Strategic Manipulation

引用:5

作者:Zhe Feng,David C. Parkes,Haifeng Xu

机构:哈佛大学

简介:作者研究了随机bandits算法在理性参与者(即arms)的策略行为下的行为。每一只手臂都是一个策略玩家,它可以根据跨时期的预算约束来修改自己的奖励。每只手臂都有自己的兴趣,并寻求最大化自己被拉过一个决策线期望次数。策略操纵自然而然地出现在各种经济应用中,例如 Yelp 和 Amazon 等推荐系统。作者分析了三种流行的 banditor 算法:UCB、ε-贪心算法和Thompson抽样算法的鲁棒性。证明了在策略手臂的任何(可能适应性)策略下,这三种算法都能达到令人遗憾的上界O(max{B,lnT}),其中 B 为手臂的总预算。而且,作者证明本文的遗憾上限是正确的。本文的结果说明了只要 B=O(T),bandits 算法对策略操纵的内在鲁棒性。这与更悲观的对抗策略模型形成了鲜明的对比,在这种模型中,攻击预算O(lnT)可以欺骗 UCB 和 ε- 贪心者只拉动O(T)次最优的手臂。本文的结果适用于有界和无界的回报。

表示学习

Automatic Shortcut Removal for Self-Supervised Representation Learning

引用:2

作者:Minderer Matthias,Bachem Olivier,Houlsby Neil,Tschannen Michael

机构:谷歌研究所

简介:在自监督视觉表征学习中,特征抽取器被训练在一个“pretext任务”上,该任务可以廉价地生成标签。这种方法的一个主要挑战是特征抽取器很快学会利用低级视觉特征,如色差或水印,然后无法学习有用的语义表示。许多工作已经投入到识别这些“快捷”功能和手工设计方案来减少它们的影响。在这里,作者提出了一个自动删除快捷方式功能的通用框架。关键假设是,那些首先被用来解决 pretext 任务的特征,也可能是最容易受到训练使任务变得更困难的对手的攻击。作者通过训练一个“镜头”网络来进行小的图像改变,从而最大限度地降低 pretext 任务的性能,从而证明了这一假设在常见的 pretext 任务和数据集中都是成立的。在所有测试案例中,使用修改后的图像学习的表现优于未经修改的图像。此外,镜头所做的修改揭示了 pretext 任务和数据集的选择如何影响自我监督学习的特征。

ICML 2020 已经接近尾声,想了解关于本次会议的更多信息可进入 AMiner ICML 顶会系统查看。AMiner 系统提供论文收录下载,热点统计,最佳论文解读,论文概要,论文精读,会议论文 ppt 讲解视频,华人作者、华人一作学生统计,按主题搜论文,按作者搜论文等一系列方便功能,是参会者与研究人员及对会议感兴趣的AI从业者及学生的便利工具。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论ICML 2020强化学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

结构学习技术

结构化预测是监督学习,分类和回归的标准范式的一种推广。 所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

维数灾难技术

维数灾难(英语:curse of dimensionality,又名维度的诅咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

最大后验概率技术

最大后验概率(MAP)估计来源于贝叶斯统计学,其估计值是后验概率分布(posterior distribution)的众数。最大后验概率估计可以对实验数据中无法直接观察到的量提供一个点估计(point estimate)。它与极大似然估计有密切的联系,但它通过考虑被估计量的先验概率分布(prior distribution)使用了增广的优化目标,因此,最大后验概率估计可以看作是规则化(regularization)的最大似然估计。

点估计技术

点估计也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

高斯过程技术

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

蒙特卡罗方法技术

蒙特卡罗方法,也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数来解决很多计算问题的方法。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

特征抽取技术

贪心算法技术

贪心法,又称贪心算法、贪婪算法、或称贪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

协变量技术

协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。 协变量(covariate)在心理学、行为科学中,是指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

稀疏近似技术

稀疏近似(又称稀疏表示)理论处理线性方程组的稀疏解。 在图像处理,信号处理,机器学习,医学成像等领域,找到这些解决方案并将其应用到应用中的技术已被广泛使用。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

因果推断技术

因果推断是基于效应发生的条件得出关于因果关系的结论的过程。因果推理和关联推理之间的主要区别在于,前者分析了原因发生变化时效应变量的反应。事情发生的科学被称为原因学。Causal Inference是Causal reasoning一个例子。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

合合信息机构
推荐文章
暂无评论
暂无评论~