今日,arXiv 上刚发布的一篇论文引起了极大的关注。该研究基于论文的视觉外观训练了一个分类器来预测一篇论文应该被接收或者拒绝。该论文作者为弗吉尼亚理工学院助理教授 Jia-Bin Huang,同时他也是 CVPR 2019、ICCV 2019 的领域主席(Area Chair,AC)。
这篇有趣的论文刚刚公开就在 Twitter 上引发热议。这篇文章表示,好的论文版面非常重要。该研究中仅基于论文视觉外观训练出的分类器可以拒绝 50% 的坏论文,只有 0.4% 的好论文没被接收。然而,作者把训练出的分类器应用到这篇论文本身时,该论文遭到了无情拒绝,且拒绝概率高达 97%。真是自作孽啊(大雾……
当然,网上评论中也存在质疑。有网友表示,「一篇论文该不该被接收要由视觉外观决定吗?」
作者在 Github 上放出了这篇论文的数据集与预训练权重,感兴趣的同学可以查看 Github 项目:https://github.com/vt-vl-lab/paper-gestalt。
以下是对此论文的介绍:
同行评审是社区中的其他专家对一份学术工作进行的全面审查,是传播科学成果的关键一环。然而,顶会论文投稿量的破纪录增长和合格评审者数量不足之间的矛盾使得同行评审过程举步维艰(见图 1)。为了审查所有的投稿论文,大会组织者不得不扩充评审者团队,并不可避免地将一些资历不深的学生也包括进来 [3]。这可能导致,花了几个月或几年时间写论文的作者最后收到的是不合理、欠考虑或不公平的评审结果。
图 1:需求。过去几年,计算机视觉顶会论文数量激增,但合格的评审者数量增长却没有那么明显。
本文作者从两方面解决这一矛盾。首先,他使用往届大会的论文训练了一个深度卷积神经网络,该网络基于论文的视觉外观(即论文版面,paper gestalt [19])决定论文质量。其次,他还为论文作者提供了一些诊断工具,帮助其改进以后要提交的论文。该深度神经网络的训练数据是 2013 - 2017 年 ICCV/CVPR 大会和 workshop 论文数据,基于此神经网络的分类器在 CVPR 2018 论文上的分类准确率可以达到 92%。这一模型可以有效拒绝 50% 的糟糕论文,错判的好论文仅占 0.4%。因此,该系统可以作为一系列论文评审过程的预过滤器。使用收集的计算机视觉论文版面(CVPG)数据集可以:1)可视化好/坏论文的判别区域;2)将一篇糟糕的论文直接转换成一篇好论文。这些工具可以告诉作者版面的哪些地方有待改进,以及如何改进。
论文:Deep Paper Gestalt
论文地址:https://arxiv.org/pdf/1812.08775.pdf
摘要:近年来,计算机视觉会议的接收论文数量激增,但有能力的评审数量却严重不足,这种矛盾给现在的同行评审制度造成了很大的负担。在本文中,我们学习了一个分类器来预测论文是否应被接受,判断依据仅仅是论文的视觉外观(即论文的版面)。实验结果显示,我们的分类器可以有效地拒绝 50% 的糟糕论文,错判的好论文仅为 0.4%,大大降低了审稿人的工作负担。我们还提供了一些工具,利用它们向作者提供建议,作者可据此改善自己论文的格式。
学习识别好/坏论文
该研究利用深度卷积神经网络(ConvNet),仅基于论文的视觉外观来学习判别表征。
数据构建
数据源:研究者从计算机视觉顶会的接收论文列表中收集正样本(好的论文)。具体而言,研究者收集的是计算机视觉基金会(Computer Vision Foundation,CVF)主办的近期会议接收论文的 Open Access 版本,包括 2013 到 2018 期间的六届 CVPR 和三届 ICCV。
具体到数据获取和预处理阶段,研究者首先从 CVF Open Access 网站上抓取正负样本,然后为方便分类过滤掉论文不足 7 页的论文,仅保留论文页数 ≥ 7 的论文。接下来使用 pdf2image 工具将下载的论文 PDF 文件转换成图像。最后进行数据预处理,移除论文首页上方的页眉,以防止数据泄露,避免分类器过度注意页眉区域而忽略论文的整体视觉外观。
表 1:计算机视觉论文版面(Computer Vision Paper Gestalt,CVPG)数据集。
图 3:CVPG 数据集中的随机样本示例。从上图可见,workshop 论文和大会论文在论文整体版面设计上是有区别的。该研究的目的是利用深度卷积神经网络学习这些模式的表征。
实验设置
本研究使用 CVPR 2018 的正负样本作为测试集,2013-2017 年的大会/workshop 论文作为训练集,使用 ResNet-18(在 ImageNet 数据集上进行预训练)作为分类网络。
研究者将 ImageNet 数据集的 1000 个类别分类换成两个输出节点(好论文/坏论文)。然后运用迁移学习技术,使用随机梯度下降对该预训练模型进行微调以适应 CVPG 数据集,动量设为 0.9,训练 epoch 设为 50,初始学习率设为 0.001,然后每 10 个 epoch 学习率衰减 0.1。为了适应类别不均衡的训练数据,研究者使用加权交叉熵损失,并将训练数据和测试数据中所有图像的大小调整为 224 × 224 像素。训练过程中未使用标准的数据增强技术(如随机剪裁、水平翻转或光度变换),以保持整篇论文的原始视觉内容和排版。该网络在 NVIDIA Titan V100 GPU 上训练,训练时间不到 30 分钟。
实验结果
图 4:训练出的论文分类器的性能特征。x 轴表示假正率(坏论文被误判为好论文的比例);y 轴表示假负率(好论文被误判为坏论文的比例)。
图 5:坏论文的特定类别判别区域。(上)论文不足 8 页是坏论文的特征之一。(下)生成的热图集中在第一页的右上角。这表明,前两页缺乏示意图可能导致论文更难懂。
图 6:好论文的特定类别判别区域。由类激活映射(class activation mapping,CAM)生成的热图突出了好论文的特定区域,例如第一页解释核心观点的信息图、展示实验验证细节的图表、令人印象深刻的数学公式,以及来自基准数据集的彩色图像阵列。
图 7:本论文的分类结果。研究者把训练出的分类器应用到本论文,结果网络以极高的概率(超过 97%)无情地拒绝了此论文,表明其不需要同行评审。
优化论文版面
除了对论文进行分类,强调判别区域,该研究还提供更多的建议,帮助论文作者改进所提交论文的版面。
图 8:随机生成的好论文样本。这些随机样本捕捉到了好论文的版面模式:论文开头有解释性质的图、论文中有彩色图像,以及文本、数学公式、图表的均衡布局。
图 9:使用 CycleGAN 进行论文增强。训练出的 bad-to-good paper 模型可用做论文修改辅助工具,为作者提供建议。典型的建议包括在前面增加信息图、把图做得色彩更加丰富、最后一页写满,使其看起来是一篇好论文。上图是坏论文逐渐调整为好论文的动画演示(最好使用 Adobe Acrobat Reader 查看)。