张倩 晓坤报道

ICLR 2019评审Top 200论文+热词,不在Top 200也可以计算名次

近日,ICLR 2019 的论文评审结果出炉,评审们已经在论文的 openreview 页面公布了他们的评论和分数。有网友做了一个项目,将这些结果搜集起来制成了列表,展示了平均分数前 200 名的论文。不在前 200 名的论文可以借助 reddit 网友分享的小程序计算自己的名次。

ICLR 2019 将于明年 5 月 6 日-9 日在美国新奥尔良举行,今年 9 月 27 日下午 18 时,大会论文提交截止。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%。之后,这些论文经过了漫长的评审,近日评审结果终于出炉。在 11 月 5 日到 11 月 21 日期间,论文作者可以对评审人的评论进行回复,修改论文。

在今年的 ICLR 论文中,强化学习和 GAN 依然是两大热门研究领域。对比去年的统计,除了前两者,无监督学习生成模型、优化和表征学习也依然是最受关注的课题。

ICLR 2018 论文统计

ICLR 2019 论文统计

此外,据网友统计,在最新的 ICLR 2019 提交论文中,提及 PyTorch 的论文数量的增幅远远超越了 TensorFlow,似乎让人们看到了 PyTorch 即将赶超 TensorFlow 的迹象。

评审概况

如上图所示,名次是按照评分的平均值排列的。我们可以在列表中查看论文平均分、各个评审的分数、方差和置信度。当然有些论文仅给出了一个或两个分数,更多的评审结果会在近期陆续更新。

项目地址:https://chillee.github.io/OpenReviewExplorer/index.html?conf=iclr2019

在前十名的论文中,题目中出现 GAN 的就有 3 篇,足以说明 GAN 的热度。以下是前十名论文的部分信息:

  • 第一名是 arXiv 上的这篇:Benchmarking Neural Network Robustness to Common Corruptions and Surface Variations,作者来自加州大学伯克利分校和俄勒冈州立大学。

  • 论文地址:https://arxiv.org/pdf/1807.01697.pdf

  • 第二名:KnockoffGAN: Generating Knockoffs for Feature Selection using Generative Adversarial Networks,作者不详。

  • 论文地址:https://openreview.net/forum?id=ByeZ5jC5YQ

  • 第三名:Large Scale GAN Training for High Fidelity Natural Image Synthesis 正是之前大热的 BigGAN,作者来自 DeepMind

  • 论文地址:https://arxiv.org/pdf/1809.11096.pdf

  • 第四名:Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow 已在 arXiv 上发布,作者是加州大学伯克利分校的 Xue Bin Peng 等人。

  • 论文地址:https://arxiv.org/pdf/1810.00821.pdf

  • 第五名:ALISTA: Analytic Weights Are As Good As Learned Weights in LISTA,作者不详。

  • 论文地址:https://openreview.net/forum?id=B1lnzn0ctQ

  • 第六名:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks 已在 arXiv 上发布,作者来自蒙特利尔大学 Mila 和微软研究院。

  • 论文地址:https://arxiv.org/pdf/1810.09536.pdf

  • 第七名:Slimmable Neural Networks,作者不详。

  • 论文地址:https://openreview.net/forum?id=H1gMCsAqY7

  • 第八名:ProMP: Proximal Meta-Policy Search 已在 arXiv 上发布,作者来自加州大学伯克利分校和卡尔斯鲁厄理工学院(KIT)。

  • 论文地址:https://arxiv.org/pdf/1810.06784.pdf

  • 第九名:Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset 已在 arXiv 上发布,作者来自谷歌大脑、DeepMind

  • 论文地址:https://arxiv.org/pdf/1810.12247.pdf

  • 第十名:Differentiable Learning-to-Normalize via Switchable Normalization 已在 arXiv 上发布,作者来自香港中文大学和商汤研究院。

  • 论文地址:https://arxiv.org/pdf/1806.10779.pdf

网友讨论

尽管目前不是所有的评审都给出了分数,但 Reddit 上已经陆续有网友展开了讨论。

有网友表示评审者给分的两极分化令人咋舌:

网友 AlexiaJM:

评审员甲反复称相对 GAN(Relativistic GAN)是「一个很小的改进(a tweak)」,称我的整个方法部分是「错误的」、「写得不好」。他给的分数是 3 分,置信度是 2。但其他评审员表示我的论文写得「非常好」,并分别给出了 6 分和 7 分。评审真是一场赌博。这太令人沮丧了!

网友 fixed-point-learning 表示自己也遭遇了类似情况,ta 得到了两个差距很大的评分。一位评审员给出了 3 分的低分,并简单评论道:「这篇论文需要重写」,而另一名评审员给出的评论较为详细,有褒有贬,并最终给出了 8 分……

那么问题来了,评审员给出的这些评论究竟对论文接收结果影响多大?对此,网友 alexmlamb 表示,「地区主席(更高级别的评审员)会阅读评论并做出决定。他们给出的分数通常非常接近平均分,但是如果其中一个评论只有一行或者信息严重不足,那么它对评审主席的影响就会比较小。」

其实评审结果的分歧在顶会论文接收中并不是什么新鲜事。早在 2014 年 NIPS 就做过一个有趣的实验,他们复制了 10 % 的提交论文(170 篇论文)并将其分发给两组不同的评审者,结果有 25.9% 的论文评审结果不一致。这表明,几乎每四篇论文中就有一篇被一个专家组接受,而另一个专家组拒绝。这反映了评审机制的某些不合理之处。

尽管如此,有网友表示今年 ICLR 的评审还是比 NIPS 好得多。「至少到目前为止,我还没有在 ICLR 上看到任何有关我的研究领域的愚蠢评论……有时一位评审员会漏掉论文的一些缺陷,但是总有另一位评审员会指出来。无论如何,你可以通过公开评论指出你想让评审员注意到的任何问题。」

为了充分利用大会论文信息提高得分,有位优秀的网友(shaohua0116)索性码了一个程序。他从 OpenReview 上抓取了所有 ICLR 2019 论文及评审者给出的评分并将其可视化,做出了关键词云、关键词与评分相关性图、关键词直方图等直观的图表。让我们来感受一下:

关键词云

评分分布直方图。

从图中可以看出,评审者给出的评分集中在 5 到 6 分左右(平均分:5.15 分)。

论文没有进入前 200 名无法知道名次?没有关系。这位网友给出了一段代码,帮你算一下你的论文可以打败多少竞争者:

def PR(rating_mean, your_rating):
    pr = np.sum(your_rating >= np.array(rating_mean))/len(rating_mean)*100
    return pr
my_rating = (7+7+9)/3  # your average rating here
print('Your papar beats {:.2f}% of submission '
      '(well, jsut based on the ratings...)'.format(PR(rating_mean, my_rating)))
# ICLR 2017: accept rate 39.1% (198/507) (15 orals and 183 posters)
# ICLR 2018: accept rate 32% (314/981) (23 orals and 291 posters)
# ICLR 2018: accept rate ?% (?/1580)

为了展现关键词与评分的相关性,网友做出了以下这张关键词与评分相关性图:

该图表明,为了最大限度地提高分数,你应该使用关键词,如理论、鲁棒性或图神经网络

程序地址:https://github.com/shaohua0116/ICLR2019-OpenReviewData

高分论文

目测几篇论文分数的方差较大,这里我们只简单介绍一下有完整评审结果的论文前三名。

  • 论文 1:Large Scale GAN Training for High Fidelity Natural Image Synthesis

  • 链接:https://arxiv.org/pdf/1809.11096.pdf

  • 得分:8、7、10

BigGAN 这篇论文引起了很多学者的注意,并惊呼:不敢相信这样高质量的图像竟是 AI 生成出来的。其中生成图像的目标和背景都高度逼真、边界自然,并且图像插值每一帧都相当真实,简直能称得上「创造物种的 GAN」。

图 6:由 BigGAN 在 512x512 分辨率下生成的其它样本。

图 8:z、c 配对下的图像插值

  • 论文 2:Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow

  • 链接:https://openreview.net/forum?id=HyxPx3R9tm

  • 得分:6、10、8

本文提出利用信息瓶颈的正则化对抗学习方法,通过信息瓶颈限制判别器的信息流,实现对抗学习性能的显著提升,并可应用于模仿学习、逆向强化学习。左图:对抗模仿学习中的动作模仿;中间:图像生成;右图:通过对抗逆向强化学习学习可迁移的奖励函数。

  • 论文 3:ALISTA: Analytic Weights Are As Good As Learned Weights in LISTA

  • 链接:https://openreview.net/forum?id=B1lnzn0ctQ

  • 得分:10、6、8

基于展开迭代算法的深层神经网络在稀疏信号恢复方面已经取得了经验上的成功。这些神经网络权重目前由数据驱动的「黑箱」训练来确定。这篇论文提出了分析性 LISTA(ALISTA),计算出 LISTA 中的权重矩阵以解决无数据优化问题,只留下步长和阈值参数供数据驱动的学习利用。这种做法极大地简化了训练过程。ALISTA 保留了 Chen 等人在 2018 年的论文中证明的最优线性收敛性,并具有与 LISTA 相当的性能。

图 4:ALISTA 鲁棒性验证。

参考来源:

https://chillee.github.io/OpenReviewExplorer/index.html?conf=iclr2019

https://www.reddit.com/r/MachineLearning/comments/9uixgo/d_iclr_2019_reviews_are_out_good_luck_everyone/

https://github.com/shaohua0116/ICLR2019-OpenReviewData

入门ICLR 2019论文评审
2
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

DeepMind机构
DeepMind

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
收敛技术
Convergence

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

生成对抗网络技术
Generative Adversarial Networks

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

生成模型技术
Generative Model

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

模仿学习技术
Imitation learning

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

规范化技术
Normalization

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

正则化技术
Regularization

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

表征学习技术
Representation learning

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

张量技术
Tensor

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

TensorFlow技术
TensorFlow

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

插值技术
Interpolation

在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点。 [1] 插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。 插值:用来填充图像变换时像素之间的空隙。