NeurIPS 2017 论文在2018年的引用量排名揭晓,第一名并非最佳论文奖

正如大家所知,NeurIPS是 机器学习领域的顶级会议,在中国计算机学会的国际学术会议排名中,NeurIPS为 人工智能领域的A类会议,国外甚至有很多高校已经把 NeurIPS论文的发表数量当做是接收本科生申请研究生的门槛了。

本文统计了2017年在NeurIPS上发表的约679篇论文,下表例举了在2017.12—2018.12这期间引用量超过了100的论文,一共19篇。(统计时间:2018年12月18日)

论文名

引用量

Attention Is All You Need

934

Improved Training of Wasserstein GANs

830

Dynamic Routing Between Capsules

358

Self-Normalizing Neural Networks

317

Unsupervised Image-to-Image Translation  Networks

296

PointNet++: Deep Hierarchical Feature  Learning on Point Sets in a Metric Space

254

What Uncertainties Do We Need in Bayesian  Deep Learning for Computer Vision?

209

Prototypical Networks for Few-shot  Learning.

203

Inductive Representation Learning on  Large Graphs.

195

A simple neural network module for  relational reasoning.

195

Multi-Agent Actor-Critic for Mixed  Cooperative-Competitive Environments.

145

Hindsight Experience Replay.

131

GANs Trained by a Two Time-Scale Update  Rule Converge to a Local Nash Equilibrium.

127

Understanding the Effective Receptive  Field in Deep Convolutional Neural Networks.

124

One-Shot Imitation Learning.

121

LightGBM: A Highly Efficient Gradient  Boosting Decision Tree.

118

Dual Path Networks.

111

The Marginal Value of Adaptive Gradient  Methods in Machine Learning.

108

Spectrally-normalized margin bounds for  neural networks.

102

下面为大家简要概述引用量排名前3的论文。

Attention Is All You Need

《Attention Is All You Need》这篇论文提出了一种新的简单网络架构,transformer,仅基于注意机制,彻底免除了循环和 卷积 神经网络 。两个 机器翻译任务的实验显示了这些模型质量优越,同时可以更加并行化并且需要更多训练的时间减少了。论文中的模型在WMT 2014英语 - 德语上达到28.4 BLEU翻译任务,改进现有的最佳成果,包括 集成学习结果,超过2 BLEU。

由于改进了翻译质量和其他NLP任务,该文的Transformer架构自发布以来获得了很大的关注。哈佛大学的NLP研究小组曾发布了一篇帖子,该文章以逐行实施的形式呈现了该论文的注释版本。它附带了400行库代码,用PyTorch以笔记本的形式编写,可以从github或Google Colab上使用免费的GPU访问。

链接:http://nlp.seas.harvard.edu/2018/04/03/attention.html

Improved Training of Wasserstein GANs

《Improved Training of Wasserstein GANs》一文中,研究者们提出了一种替代 权重 剪枝实施Lipschitz约束的方法:惩罚critic对输入的梯度。该方法 收敛速度更快,并能够生成比 权重 剪枝WGAN更高质量的样本。 WGAN的critic函数对输入的梯度相比于GAN的更好,因此对生成器的优化更简单。另外, WGAN的值函数是与生成样本的质量相关的,这个性质是GAN所没有的。

该文提供了一种训练GAN的稳定的算法,能够更好的探索哪种架构能够得到最好的 生成模型性能。该方法也打开了使用大规模图像或语言数据集训练以得到更强的模型性能的大门。

代码链接:https://github.com/caogang/wgan-gp

Dynamic Routing Between Capsules

《Dynamic Routing Between Capsules》引入了一个新的构建块,可用于 深度学习,以更好地模拟 神经网络内部知识表示内的层次关系。Hinton和他的团队提出了一种方法来训练这样一个由Capsules组成的网络,并成功地在一个简单的数据集上训练它,实现最先进的性能。

也许有人会觉得这个想法非常简单,为什么以前没有人能想出来?事实是Hinton几十年来一直在思考这个问题。没有出版物的原因仅仅是因为之前没有技术方法可以使它发挥作用。其中一个原因是在2012年之前,计算机处在一个不够强大的基于GPU之前的时代。另一个原因是没有算法允许实现并成功学习Capsules网络(以同样的方式实现人工神经元自1940年代以来就存在,但直到1980年代中期才出现 反向传播算法并允许成功训练深度网络)

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业WGAN机器翻译深度学习机器学习NeurIPS
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

WGAN技术

就其本质而言,任何生成模型的目标都是让模型(习得地)的分布与真实数据之间的差异达到最小。然而,传统 GAN 中的判别器 D 并不会当模型与真实的分布重叠度不够时去提供足够的信息来估计这个差异度——这导致生成器得不到一个强有力的反馈信息(特别是在训练之初),此外生成器的稳定性也普遍不足。 Wasserstein GAN 在原来的基础之上添加了一些新的方法,让判别器 D 去拟合模型与真实分布之间的 Wasserstein 距离。Wassersterin 距离会大致估计出「调整一个分布去匹配另一个分布还需要多少工作」。此外,其定义的方式十分值得注意,它甚至可以适用于非重叠的分布。

推荐文章
暂无评论
暂无评论~