2018/12/22 12:22

用外观判断论文好坏？这位顶会领域主席的论文被自己的AI审稿系统拒绝了

今日，arXiv 上刚发布的一篇论文引起了极大的关注。该研究基于论文的视觉外观训练了一个分类器来预测一篇论文应该被接收或者拒绝。该论文作者为弗吉尼亚理工学院助理教授 Jia-Bin Huang，同时他也是 CVPR 2019、ICCV 2019 的领域主席（Area Chair，AC）。

这篇有趣的论文刚刚公开就在 Twitter 上引发热议。这篇文章表示，好的论文版面非常重要。该研究中仅基于论文视觉外观训练出的分类器可以拒绝 50% 的坏论文，只有 0.4% 的好论文没被接收。然而，作者把训练出的分类器应用到这篇论文本身时，该论文遭到了无情拒绝，且拒绝概率高达 97%。真是自作孽啊（大雾……

当然，网上评论中也存在质疑。有网友表示，「一篇论文该不该被接收要由视觉外观决定吗？」

作者在 Github 上放出了这篇论文的数据集与预训练权重，感兴趣的同学可以查看 Github 项目：https://github.com/vt-vl-lab/paper-gestalt。

以下是对此论文的介绍：

同行评审是社区中的其他专家对一份学术工作进行的全面审查，是传播科学成果的关键一环。然而，顶会论文投稿量的破纪录增长和合格评审者数量不足之间的矛盾使得同行评审过程举步维艰（见图 1）。为了审查所有的投稿论文，大会组织者不得不扩充评审者团队，并不可避免地将一些资历不深的学生也包括进来 [3]。这可能导致，花了几个月或几年时间写论文的作者最后收到的是不合理、欠考虑或不公平的评审结果。

图 1：需求。过去几年，计算机视觉顶会论文数量激增，但合格的评审者数量增长却没有那么明显。

本文作者从两方面解决这一矛盾。首先，他使用往届大会的论文训练了一个深度卷积神经网络，该网络基于论文的视觉外观（即论文版面，paper gestalt [19]）决定论文质量。其次，他还为论文作者提供了一些诊断工具，帮助其改进以后要提交的论文。该深度神经网络的训练数据是 2013 - 2017 年 ICCV/CVPR 大会和 workshop 论文数据，基于此神经网络的分类器在 CVPR 2018 论文上的分类准确率可以达到 92%。这一模型可以有效拒绝 50% 的糟糕论文，错判的好论文仅占 0.4%。因此，该系统可以作为一系列论文评审过程的预过滤器。使用收集的计算机视觉论文版面（CVPG）数据集可以：1）可视化好／坏论文的判别区域；2）将一篇糟糕的论文直接转换成一篇好论文。这些工具可以告诉作者版面的哪些地方有待改进，以及如何改进。

论文：Deep Paper Gestalt

论文地址：https://arxiv.org/pdf/1812.08775.pdf

摘要：近年来，计算机视觉会议的接收论文数量激增，但有能力的评审数量却严重不足，这种矛盾给现在的同行评审制度造成了很大的负担。在本文中，我们学习了一个分类器来预测论文是否应被接受，判断依据仅仅是论文的视觉外观（即论文的版面）。实验结果显示，我们的分类器可以有效地拒绝 50% 的糟糕论文，错判的好论文仅为 0.4%，大大降低了审稿人的工作负担。我们还提供了一些工具，利用它们向作者提供建议，作者可据此改善自己论文的格式。

学习识别好／坏论文

该研究利用深度卷积神经网络（ConvNet），仅基于论文的视觉外观来学习判别表征。

数据构建

数据源：研究者从计算机视觉顶会的接收论文列表中收集正样本（好的论文）。具体而言，研究者收集的是计算机视觉基金会（Computer Vision Foundation，CVF）主办的近期会议接收论文的 Open Access 版本，包括 2013 到 2018 期间的六届 CVPR 和三届 ICCV。

具体到数据获取和预处理阶段，研究者首先从 CVF Open Access 网站上抓取正负样本，然后为方便分类过滤掉论文不足 7 页的论文，仅保留论文页数 ≥ 7 的论文。接下来使用 pdf2image 工具将下载的论文 PDF 文件转换成图像。最后进行数据预处理，移除论文首页上方的页眉，以防止数据泄露，避免分类器过度注意页眉区域而忽略论文的整体视觉外观。

表 1：计算机视觉论文版面（Computer Vision Paper Gestalt，CVPG）数据集。

图 3：CVPG 数据集中的随机样本示例。从上图可见，workshop 论文和大会论文在论文整体版面设计上是有区别的。该研究的目的是利用深度卷积神经网络学习这些模式的表征。

实验设置

本研究使用 CVPR 2018 的正负样本作为测试集，2013-2017 年的大会／workshop 论文作为训练集，使用 ResNet-18（在 ImageNet 数据集上进行预训练）作为分类网络。

研究者将 ImageNet 数据集的 1000 个类别分类换成两个输出节点（好论文／坏论文）。然后运用迁移学习技术，使用随机梯度下降对该预训练模型进行微调以适应 CVPG 数据集，动量设为 0.9，训练 epoch 设为 50，初始学习率设为 0.001，然后每 10 个 epoch 学习率衰减 0.1。为了适应类别不均衡的训练数据，研究者使用加权交叉熵损失，并将训练数据和测试数据中所有图像的大小调整为 224 × 224 像素。训练过程中未使用标准的数据增强技术（如随机剪裁、水平翻转或光度变换），以保持整篇论文的原始视觉内容和排版。该网络在 NVIDIA Titan V100 GPU 上训练，训练时间不到 30 分钟。

实验结果

图 4：训练出的论文分类器的性能特征。x 轴表示假正率（坏论文被误判为好论文的比例）；y 轴表示假负率（好论文被误判为坏论文的比例）。

图 5：坏论文的特定类别判别区域。（上）论文不足 8 页是坏论文的特征之一。（下）生成的热图集中在第一页的右上角。这表明，前两页缺乏示意图可能导致论文更难懂。

图 6：好论文的特定类别判别区域。由类激活映射（class activation mapping，CAM）生成的热图突出了好论文的特定区域，例如第一页解释核心观点的信息图、展示实验验证细节的图表、令人印象深刻的数学公式，以及来自基准数据集的彩色图像阵列。

图 7：本论文的分类结果。研究者把训练出的分类器应用到本论文，结果网络以极高的概率（超过 97%）无情地拒绝了此论文，表明其不需要同行评审。

优化论文版面

除了对论文进行分类，强调判别区域，该研究还提供更多的建议，帮助论文作者改进所提交论文的版面。

图 8：随机生成的好论文样本。这些随机样本捕捉到了好论文的版面模式：论文开头有解释性质的图、论文中有彩色图像，以及文本、数学公式、图表的均衡布局。

图 9：使用 CycleGAN 进行论文增强。训练出的 bad-to-good paper 模型可用做论文修改辅助工具，为作者提供建议。典型的建议包括在前面增加信息图、把图做得色彩更加丰富、最后一页写满，使其看起来是一篇好论文。上图是坏论文逐渐调整为好论文的动画演示（最好使用 Adobe Acrobat Reader 查看）。

入门论文评审学术会议CycleGANCNN

1 1

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

学习率技术

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

来源：Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends® in Information Retrieval, 3(3), 225-331. Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

随机梯度下降技术

梯度下降（Gradient Descent）是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知，使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。在机器学习中，我们可以利用随机梯度下降的方法来最小化训练模型中的误差，即每次迭代时完成一次评估和更新。这种优化算法的工作原理是模型每看到一个训练实例，就对其作出预测，并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

来源：机器之心

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

动量技术

优化器的一种，是模拟物理里动量的概念，其在相关方向可以加速SGD，抑制振荡，从而加快收敛

来源：An overview of gradient descent optimization algorithms

CycleGAN技术

GAN的一个变种

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia