ICLR论文评分「高台跳水」:领域主席急刹车,评审结果8分变1分

上月初,ICLR 2020 评审结果放出,但却遭到了论文作者和社区的极大质疑和疯狂吐槽。他们纷纷将攻击矛头对准了本次大会的评审们,甚至有开发者指出,本次大会近半数审稿人没有在相关领域发表过论文。由此,被认为是深度学习顶会的 ICLR 被推上了风口浪尖。

无独有偶,近日 reddit 上一名网友发文质疑 ICLR 2020 一篇论文的评审结果,这篇论文最初的三位审稿人都分别给出了 8-8-8 的高分,但经领域主席介入后另指派两位审稿人重新对这篇论文展开评审,结果竟给出了 1-1 的超低分,如此巨大的反转引发了社区的热议。

发帖者表示自己并不是这篇论文的作者,也并不熟悉这篇论文,但评审结果着实令 ta 感到震惊。

论文和评审结果地址:https://openreview.net/forum?id=Byl1W1rtvH

评审结果出现巨大反转的具体经过是这样的:

  1. 10 月 26-29 日,论文评审结果出来,三位审稿人均给出了 8-8-8 的高分;

  2. 10 月 31 日,领域主席指出该论文缺少与 transformer 等「non-RNN」语言模型的对比;

  3. 11 月最后一周,领域主席另指派两位审稿人对该论文展开评审,并着重强调评审过程中不要忘记与 transformer 的对比结果;

  4. 12 月 2-3 日,另指派的两位审稿人 reject 该论文,并给出了 1-1 的超低分。

论文分数经历「高台跳水」的背后究竟是怎么一回事?从评审结果中我们可以发现一些线索。

审稿意见大反转

为什么这篇论文会先后从 8-8-8 的「完美」分数瞬间跌落?机器之心整理了论文内容和审稿意见。从材料中可以看出,对于这篇论文的内容,初始的三位审稿人和领域主席,以及追加的二位审稿人相比有着大相径庭的意见。

论文内容

在论文开头,研究者表示,他们提出了一个新颖的大语境语言模型,能够同时捕捉句法和语义信息,使其能够生成高度可解释的句子和段落。

在摘要中,研究者表示,他们的这份研究弥补了传统语言模型所忽略了的长距离词依赖关系和句顺序。这个新的模型不仅能够捕捉句内的词依赖,还能够捕捉时间上的句子和句子主题依赖之间的转移关系。

最终,研究者表示,实验说明这个模型不仅达到了大语境语言模型SOTA,还学习到了可解释的递归多层主题(interpretable recurrent multilayer topics),还能够生成多种句子和段落。这些句子和段落还有着正确的句法和连贯的语义。

从摘要来看,这篇论文似乎是一个新的 SOTA,提出的模型似乎也具有非同一般的效果。但是在审稿上,多位审稿人的意见发生了分歧。

第一次审稿:这篇论文很不错

评审 1:8 分,接收

第一位评审在审稿意见中写道,「这篇论文写得很好,表达也很清晰,具有一定的创新性。该方法具有良好的数学表达和实验评价。论文结果非常有趣,尤其是在捕捉长距离依赖方面,如 BLEU 分数所示。这里有一个问题,与基线方法相比,作者没有对论文所述方法的复杂性和负载进行计算分析。」

评审 2:8 分,接收

第二位审稿人同样给出了 8 分的高分。在评审意见的开头部分,ta 也称赞这篇论文写作清晰、结果有力,分析也很到尾,所以认为该文有足够的的分量被接收。

但在后续的改进意见中,ta 也提出了自己的疑问,感觉这个主题的论文不提最近基于 Transformer 的几个高调预训练语言模型有点说不过去。「文中说道,多数 LM 模型没有考虑句子之间的关系,那么 BERT、GPT-2 也是这样吗?」第二位审稿人心里也犯起了嘀咕。

评审 3:8 分,接收

第三位审稿人也给出了 8 分的高分,ta 认为这篇论文尽管在新颖性上略有不足,但使用提出的模型进行学习和推理是不容易的。而且,这篇论文在语言模型领域达到了新 SOTA,说明了这一方法的重要意义。

当然,这位审稿人也表示,论文存在着对 TLASGR-MCMC 方法论述缺乏,以及没有对某些评估进行定量的缺点。但是很显然,这位审稿人不认为这是特别重要的问题。

领域主席介入:你的 SOTA 怎么没有 Transformer?

似乎是因为分数有点高的离谱,领域主席介入了该论文的审稿,在评审中发出了和第二位审稿人一样的灵魂追问

「你这个 SOTA 对比,怎么没有 Transformer 啊?」

继而,领域主席表示,Transformer-XL 等基于 Transformer 的模型具有一定的捕捉长距离语境信息的能力,论文作者应当进行对比。

对于缺少 Transformer 对比的问题,论文作者给出的答复是:他们认为自己的模型和 Transformer 没有直接可比性

随后,他们给出了四条二者没有可比性的理由,比如 Transformer 模型参数要大一两个数量级、二者结构差别很大、rGBN-RNN 的可解释性更好等等。

所以最终,论文还是没有对比 Transformer,但是依然保留了 SOTA 的说法。

第二次审稿:论文有明显硬伤

领域主席在之后指派了两位追加审稿人,对论文进行重新审稿。在这次审稿的过程中,两位审稿人揪出了论文存在的更多问题。而这些问题基本上都是前面的审稿人没有提及或者没当回事的

评审 4:1 分,拒绝

对于这篇论文提出最严厉批评的是第四位审稿人,即第二次审稿中的第一位。ta 几乎没有肯定论文中的任何亮点。

ta 表示,论文最开始的误导性论述是其存在的最大问题。论文在 p1 的第二段断言:「基于 RNN 的语言模型经常假设句子之间是彼此独立的,这就是为什么他们在建模文档级别信息的过程中使用主题建模方法。」评审认为这一论点有误:

1. 几乎所有的语言模型论文都会使用 LSTM/Transformer 将跨句子的文档级别信息作为语境。而最简单的实现方法就是将所有句子首尾相连,并在每个句子之间用特殊符号标记边界,用于区分;

2. 而之前的工作已经说明,有着跨句语境的 LSTM/Transformer 的模型能够而且确实可以使用之前句子中的信息。评审随即举出了一些列子;

3. 而之前已经有 Transformer 相关的模型想到了利用非常长的语境方法。而 LSTM 也应该能够做到。这说明之前论文的论点——基于 RNN 的语言模型经常假设句子之间彼此独立,这是完全站不住脚的。

同时,Transformer-XL 这样的模型是可以在处理句子的过程中利用词的顺序,而这篇论文反而没有做到。这篇论文只用了词袋方法,并不能说明这个方法就比那些语言模型使用句子首尾相连的方法更简单;

此外,还有评估方法和引用的问题值得注意:

4. 困惑度(perplexity)结果(表 1)没有使用标准数据集,所以对于基线模型的能力没有很好地评价。而且论文也没有说清楚选择数据集的过程;

5. 论文很不自洽。文中只引用了 TLASGR-MCMC 方法,但是没有说清楚这个方法的原理,也没有说这个方法怎么和他们的递归主题建模(recursive topic model formulation)结合;

6. 对于图 4 的推断结果的评估不是定量评估没有解释清楚采样方法

这位审稿人无疑从论文的论点、方法、评估标准等角度进行了批判。而虽然第二位追加审稿人的语气和缓了很多,但依然指出了论文对某些方法论述不足和错误的问题。

评审 5:1 分,拒绝

该论文的第五位审稿人同样给出了超低分 1 分。在 ta 看来,这篇论文存在以下几个问题:

1. 论文中的模型描述令人困惑,并且很多结论没有得到适当或充分的验证

  • 在论文第 2 页最后一段中,作者声称他们模型中使用的语言组件用于捕获句法信息,但审稿人认为这种说法无法接受;

  • 在论文第 3 页的第一段中,作者表示他们将 d_j 定义为只总结了前面句子的 BoW 矢量,但并没有进一步的解释性信息,所以审稿人不清楚 BoW 矢量是什么样子或者如何构建的;

  • 还是在论文第 3 页的最后一段,论文表示在使得潜在表征更可辨认和更具有解释性并且促进推理之前使用了 Dirichlet,但审稿人表示不清楚这句话的意思。这样的例子不止这些。

2. 最重要的一点,审稿人认为论文中的公式 5 是错误的,从而对论文的整个方法论产生了质疑。

具体来说,基于论文作者的定义,d_j 对所有句子进行了总结,而不是 s_j。这就意味着,对于 s_j 而言,d_1 是在 s_2, s_3, s_4, ..., s-j 上定义的;而对于 s_2 而言,d_2 是在 s_1, s_3, s_4, ..., s-j 上定义的。换句话说,任何两个 d_j 和 d_{j'} 之间存在巨大的重叠。所以,审稿人不确定公式右边的分解部分(即 p(d_j | ...) 的分解)是否有效;

3. 最终,审稿人认为,尽管该论文得出了一些有趣的结果,较其他模型也实现了最低的 PPLx,但 ta 认为不应该接收该论文

事件评价

如此巨大的评审结果反转在社区引起了热议,网友也纷纷表达了自己的意见。

这位网友表示如果第四位审稿人提出的问题是正确的,则的确应该质疑前三位审稿人的权威了,他们声称自己读过领域内很多论文但依然给出该论文 8 分的高分!

一些评论也同意追加审稿人的观点,这篇论文不值 8 分。

更何况,这篇论文有可能是领域主席介入,给评分踩下刹车的结果。追加的评审可能认为最初的评审评分不太合适,所以更严厉一些。

对审稿系统和机制的反思

一些网友还对机器学习顶会投稿和评审中存在的诸多问题进行了反思。

这位网友认为此次论文评审结果的巨大反转恰恰反映了当前机器学习论文评审的混乱局面。论文评审意见完美但最终分数可能很低的情况很常见。

他不能明确指出哪些原因所导致,但肯定与该领域已做研究的数量和速度有关:一篇论文上传到 arXiv 上,但在下次大会投稿期间,将会出现很多相同主题但未通过同行评审的研究。再加上该领域论文数量的膨胀以及每年顶会截止日期所带给投稿者的的种种压力,这种审稿乱象的出现也就不足为奇了。

不过,本次分数在领域主席介入后大反转可能说明,ICLR 2020 审稿确实暴露了很多问题。许多审稿人可能大而化之地评价一些论文,并没有真正参与审稿工作中。此外,可能有些审稿人比较「仁慈」即使发现了问题,也没有在分数上很严厉。当这些审稿人同时审一篇文章的时候,8-8-8 这样分数的情况就可能发生。

而领域主席的介入可能是一道「防线」:当分数太高而不合理的时候,即使踩下刹车。尽管也可能出现「误伤」,但通过更多审稿人参与,也许会对投稿质量的把控起到更加积极的作用。

总而言之,闹得沸沸扬扬的顶会审稿问题依然不会结束。只希望下次顶会的审稿人质量会更好,而领域主席也能及时发现这些问题,不至于让一篇论文的分数大起大落。

入门Reddit论文评审ICLR 2020
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

长距离依赖技术

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正,这项前沿研究是2019年1月份公布。一般而言,Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800 多倍。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

暂无评论
暂无评论~