Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Eric Jang作者Panda编辑

SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿标准

数据集过于简单、只在一两项指标上达到 SOTA、没有充分说明之前的研究都可能成为你论文被拒的原因。

会议论文评审已经成为了人工智能机器学习领域的热门争议话题,既有审稿人在线吐槽论文注水严重,半成品太多,也有投稿人网上喊冤,质疑审稿人的资格和敬业程度。纷纷扰扰之中,也许一个重要的原因是论文评审缺乏明晰的标准,严重依赖审稿人的主观判断。近日,谷歌 Robotics 研究科学家 Eric Jang 基于他十多场会议和研讨会的审稿经验,罗列了审稿人在评审论文时可能会考虑的标准,然后他说明了自己个人的审稿标准。这虽然只是一位审稿人的个人看法,但如果审稿人都能公开说明自己的审稿标准,当前会议论文评审方面的争议之声大概也会小一些。

审稿人到底会考虑哪些标准?

NeurIPS 2020 已经公布了论文的收拒情况:在收到的 9454 篇论文中,有 1900 篇被接收(接收率为 20%)。接收详情请参阅《NeurIPS 2020 放榜,接收率史上最低!AC:低接收率带不来有趣的论文》。不管接收结果如何,都要祝贺各位辛苦研究取得了成果。

机器学习研究者大概都知道,NeurIPS 和其它一些会议的接收决定就像是一种经过加权的掷骰子游戏。在这个被称为「学术出版」的剧场中,评议五花八门,因为每个审稿人在机器学习论文方面都有各自的偏好(随便一提,现在的学术出版也与实际的研究有些脱节)。

审稿人可能会考虑以下标准:

正确性:这是科学论文的最低要求。论文中给出的主张在科学上是否正确?作者是否注意了不在测试集上进行训练?如果一篇论文提出了一种新算法,作者是否给出了让人信服的证据说明该算法有效的原因就是其给出的原因?

新信息:你的论文必须要能为这一领域贡献新知识。这个新知识可能是新算法、新的实验数据或某种解释现有概念的不同方法。甚至综述论文也应该包含一些新信息,比如某个可以统一多个独立研究成果的全面视角。

适当的引用:论文中应该包含一个相关研究部分,其中说明了该研究与之前的研究的联系以及当前研究的新颖之处。某些审稿人会直接拒收没有充分说明之前的研究或与之前的研究没有足够区别的论文。

当前最佳结果(SOTA):审稿人通常对论文有这样两个要求:(1)提出了一种新算法,(2)在某个基准上实现了 SOTA。

不能「只是」 SOTA:没有人会因为你取得了 SOTA 而惩罚你,但某些专家不仅希望看到在某项基准上取得突破,比如在列表中一两项指标上的突破。一些审稿人甚至还会打击该领域这种「追逐 SOTA」的文化,他们会认为这样的研究「创新不足」或「只是增量式研究」。

简洁性:很多研究者都表示支持「简单的思想」。但是,「你的简单思想」和「你对其他人的简单思想的简单扩展」是两码事,虽然两者之间的区别并不总是明显。

复杂性:某些审稿人认为没有给出任何新方法或漂亮的数学证明的论文是「简单琐碎的」或「不严谨的」。

清晰度和可理解性:某些审稿人关心所提出的算法的机制细节以及对机器学习的进一步理解,而不只是得到更好的结果。这与「正确性」紧密相关。

是否「激动人心」:NeurIPS 2020 的领域主席之一 Julian Togelius 提到,他拒绝许多论文的原因就只是它们不够激动人心。只有 Julian 自己知道什么样的论文能打动他的心,不过我认为他的意思是在选择研究课题和解决方案上「有良好的品味」。


足够困难的问题:某些审稿人会因为评估方法的数据集(比如 MNIST)过于简单而拒绝论文。「足够困难」是一个不断变动的目标,其中隐含着一个预期:该领域会不断开发出更好的方法,因此评估标准也应该变得更困难,这样才能推动领域的发展,解决之前无法解决的问题。同样,在简单基准上的 SOTA 方法并不一定就是更困难基准上的 SOTA,而更困难的基准往往更接近真实应用。幸好我被引用最多的论文写于 MNIST 数据集尚可接受的时代。

是否「出人意料」:即便某篇论文确实给出了成功的结果,审稿人可能还是会说这个结果「并不意外」或「显而易见」。举个例子,将标准的目标识别技术应用于某个新数据集的论文可能会被认为「过于简单和直接」,尤其考虑到现在该领域的专家普遍认为目标识别问题基本已得到解决(这并非事实,但评估基准还未反映出这一点)。

我真的很喜欢违背直觉的论文,而且我个人也在努力写能给人惊喜的论文。

在这方面,我个人最喜欢的一些论文根本没有实现 SOTA 或提出新算法:

  1. Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet,有关该论文的介绍可参阅《过往 Net,皆为调参?一篇 BagNet 论文引发学界震动》(这是本文的作者 Eric Jang 写的一篇分析解读)。

  2. Understanding Deep Learning Requires Rethinking Generalization. 可参阅《要理解深度学习,必须突破常规视角去理解优化

  3. A Metric Learning Reality Check

  4. Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

  5. Adversarial Spheres,可参阅《谷歌大脑提出 Adversarial Spheres:从简单流形探讨对抗性样本的来源


是否真实:这与「足够困难的问题」紧密相关。某些审稿人认为游戏是研究强化学习的优良试验场,但其它一些审稿人(通常来自典型的机器人研究社区)则认为 Mujoco Ant 和真正的四足机器人是完全不同的问题,在前一领域的算法比较并不能为后者的同类型实验提供任何见解。

你的研究是否符合良好的 AI 道德伦理?某些审稿人认为开发机器学习技术的目的是构建一个更好的社会,所以他们不会支持那些与他们的 AI 道德伦理观相悖的论文。今年,向 NeurIPS 提交论文时需要填写「Broader Impact(更广泛的影响)」称述,这说明该领域正在更为严肃地对待这一问题。举个例子,如果你提交一篇仅靠人脸识别来推断犯罪可能性的论文或一篇执行自动武器瞄准的论文,我相信不管你开发了怎样的方法,这篇论文都很可能被拒。

不同的审稿人在以上问题的优先级方面都有各自的看法,而且其中很多标准都非常主观(比如对问题的品味、道德伦理、简洁性)。对于以上的每一条标准,都有可能找出反例(但可能满足其它标准),而且其中一些反例还有很高的引用量或对机器学习领域有很大的影响。

Eric Jang的标准

我还想分享一下我在审议论文时的标准。在涉及到建议接收或拒绝时,我最关心的标准是正确性和新信息。即便我认为你的论文很无趣,在 10 年内都不可能成为一个活跃的研究领域,但只要你的论文能帮我了解我认为之前还没有过的新东西,我就会投支持票。

更具体地举几个例子:

  • 如果你在引言中提到了强化学习研究中类似人类的探索能力然后提出了一种能实现能力的算法,那我希望能看到实质性的实验证据,说明这个算法确实与人类的能力类似。

  • 如果你的算法没有实现 SOTA,我能够接受这一点。但我希望能看到你详细地分析了你的算法不能实现 SOTA 的原因。

  • 如果有论文提出了新算法,我希望这个算法至少比之前的工作好。但是,只要论文给出了该算法为什么不比之前工作更好的事实性分析,我仍会投接收票。

  • 如果你宣称你的算法表现更优的原因是 X,我希望看到你用实验证明了原因不是其它的 X1、X2……


正确性是很难验证的。过去五年,很多论文提出了很多度量学习方法,并被主要会议接收。不过 Musgrave et al. 2020 年的论文《A Metric Learning Reality Check》指出这些论文的实验方法并不一致。

我当然不会得意洋洋地批判这一点,毕竟我也是其中的一员。我已经审阅过 10 多场会议和研讨会的论文,但老实说,单靠阅读,我只能理解其中 25%。为了写出一篇研究论文,作者可能会投入几十乃至数百小时来设计和执行实验,但我仅用几个小时来决定它是不是「正确的科学」。我很少遇到那些我真正有足够的专业能力执行严格的正确性评估的论文。

我常常问自己一个问题:「怎样的实验能说服我相信作者的解释是正确的,而不是因为其它假设?这些作者检查过这些假设吗?」

我相信我们应该接收所有「合格的」论文,像是「品味」和「简洁性」这种更主观的看法不应被用作是否接收论文的标准,而应该保留为评估是否得奖、Spotlight 展示论文和 Oral 展示论文的标准。我不知道是否所有人都应该采用这样的标准,但作为一位审稿人,我觉得在接收 / 拒绝决策上保持公开透明至少会有一些帮助。

原文链接:https://blog.evjang.com/2020/09/reviewing.html

理论论文评审NeurIPSEric Jang
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言,项目大约于2009年中开始,2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍,Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~