4900篇NIPS 2018提交论文难评审?北京大学提出基于CNN的学术论文自动评分模型

近两日,NIPS 2018 8000 多篇投稿(后经 Hugo Larochelle 澄清,为 4900 篇)、使用本科毕业生做同行评审的信息刷爆朋友圈。在人工智能火热的今天,顶级大会收到的论文是越来越多,对同行评审的人数、要求也越来越高。恰好,机器之心发现一篇北京大学被 ACL 2018 接收的论文,提出使用模块化分层卷积神经网络来对学术论文的 LATEX 源文件进行自动评分。由于之前并没有相关研究,为此作者构建了包含 19218 篇人工智能领域学术论文的新数据集。

每年都会有数千篇学术论文被提交给会议和期刊。对所有论文进行专家评分是相当费时费力的,有时候评审员的个人因素也会对评分的分值产生影响,导致不公平问题。因此,自动化的学术论文评分是一项迫切需求。在本文中,研究者提出了如何基于论文的 LATEX 源文件和元信息自动地对学术论文进行评分,并称该任务为自动化学术论文评分(AAPR)。

和 AAPR 相似的任务是自动化的短文评分(AES)。AES 已经被研究了很长时间。Project Essay Grade(Page, 1967, 1968)是最早的尝试解决 AES 的研究,它通过在专家制作的文本特征上使用线性回归来预测分数。大多数随后的研究使用了类似的方法,在包含语法、词汇和风格(Rudner and Liang, 2002; Attali and Burstein, 2004)的更加复杂的特征上使用多种分类器。这些传统方法几乎可以达到人类评分员的程度。然而,它们都需要大量的特征工程,即需要大量的专业知识。

近期研究转向使用深度神经网络,并称深度学习模型可以使系统从繁重的特征工程中解放出来。Alikaniotis 等人在 2016 年提出了使用 LSTM 结合线性回归输出层来预测分数。他们添加了一个分数预测损失到原始的 C&W 嵌入上(Collobert and Weston, 2008; Collobert et al., 2011),因此词嵌入和短文的质量相关。Taghipour 和 Ng 在 2016 年也应用 RNN 来处理短文,但他们使用了卷积神经网络(CNN)来提取局部特征。Dong 和 Zhang 在 2016 年提出应用一个两层 CNN 来对短文建模。第一层用于编码语句,第二层用于编码整个短文。Dong 等人在 2017 年进一步提出了添加注意力机制池化层上来自动化地决定哪些部分对于确定短文质量更加重要。

虽然有很多处理 AES 任务的研究,目前仍未有聚焦于 AAPR 任务的工作。和 AES 任务中对短文的语言能力测试不同,学术论文包含更长的文本和更多的信息,除了书写以外,其整体质量还被很多因素所影响。因此,研究者提出了考虑一篇学术论文的整体信息的模型,包括标题、作者、摘要和论文的 LATEX 源文件主要内容。

本研究的主要贡献:

  • 提出了自动化学术论文评分的任务,并为该任务构建了新的数据集;

  • 提出了模块化的分层卷积神经网络,其考虑了源论文的整体信息。实验结果表明该方法远远超越了基线。

2 本文提出的方法

一份源论文通常由几个模块组成,如摘要、标题等。每个模块还具有从单词级到句子级的分层结构。结构信息可能有助于作出更准确的预测。此外,还可以通过考虑源论文各部分贡献的差异来改进模型。在此基础上,研究者提出了一种模块化的分层 CNN,模型概要如图 1 所示。作者假设源论文具有 l 个模块,包含 m 个词且过滤器大小为 h(详细说明可参见第 2.1 节和第 2.2 节)。为简单起见,在图 1 中将 l、m 和 h 分别设置为 3、3、2。

图 1:模型概述。ACNN 表示基于注意的 CNN,其基本结构如(b)所示。AP 表示注意池化

2.1 模块化的分层 CNN

在给定一篇完整源论文 r 的基础上,首先根据论文的总体结构(摘要、标题、作者、引言、相关研究、方法和结论)将其划分为几个模块(r_1、r_2……r_l)。对于每个模块,第 i 个单词 w_i 的 one-hot 表征通过嵌入矩阵嵌入到密集向量 x_i 中。对于以下模块(摘要、引言、相关研究、方法、结论),研究者使用基于注意的 CNN(如 2.2 节所示)在单词级上得到第 i 句的表征 s_i。另一个基于注意的 CNN 层用于将句子级表征编码到第 i 个模块的表征 m_i 中。

源论文标题中只有一个句子,因此在单词级上仅使用基于注意的 CNN 来获得标题的模块化表征是合理的。此外,由于作者之间是相互独立的,因此可以采用加权平均法通过方程(1)来获得作者的模块化表征。

在γ=(γ_1,……,γ_A)的转置是权重参数。a_i 是第 i 个作者在源论文中的嵌入向量,它是随机初始化的,可以在训练阶段学习。A 是作者序列的最大长度。

所有模块的表征 m_1、m_2……m_l 被汇集到一起,以利用注意池化层获得源论文的论文级表征 d。使用 softmax 层将 d 作为输入,并预测论文被接收的概率。在训练阶段,把被广泛应用于各种分类任务中的交叉熵损失函数作为目标函数进行优化。

2.2 基于注意的 CNN 的细节

基于注意的 CNN 由卷积层和注意池化层组成。卷积层用于捕获局部特征,注意池化层可以自动确定单词、句子和模块的相对权重(理论细节请参见源论文)。

3 实验

arXiv 学术论文数据集:由于没有可直接使用的现有数据集,研究者通过从 website 2 收集关于人工智能领域的学术论文来创建数据集。该数据集包括 19218 篇学术论文。每篇源论文的信息包含标记该论文是否被接收的的会议和期刊,以及源 LATEX 文件。作者将数据集划分为训练、验证和测试三个部分。详情见表 1。

表 1:arXiv 论文数据集的统计信息。Positive 和 Negative 表示源论文是否被接收。

表 2 报告了多个模型的实验结果。如表 2 所示,本文提出的模型 MHCNN 超越了上述所有的基线模型。

表 2:本文提出模型(MHCNN)和基线模型在测试集上的性能对比。

如表 3 所示,当注意力机制被移除的时候,模型的准确率下降了 0.9%。这表明不同文本内容有不同的贡献。

表 3:控制变量研究。符号*表示在 t 测试下,和 MHCNN 相比有显著性差异(p≤0.05)。

如表 4 所示,模型的性能在移除不同的源论文模块时会有不同程度的下降。这表明源论文的不同模块对论文接收的贡献是不同的,也进一步证实了使用模块化分层结构和注意力机制的合理性。

表 4:控制变量研究。符号*表示在 t 测试下,和完整数据相比有显著性差异(p≤0.05)。

论文:Automatic Academic Paper Rating Based on Modularized Hierarchical Convolutional Neural Network 

  • 论文地址:https://arxiv.org/abs/1805.03977

  • 项目地址:https://github.com/lancopku/AAPR

随着越来越多的学术论文被提交到会议和期刊上,让专家来评估所有的论文变得很耗时间,并可能由于评审者的个人因素导致不公平现象。为了协助专家评估学术论文,我们在本文中提出了一种新的任务类型:自动化学术论文评分(AAPR),即自动地确定接收还是拒绝学术论文。我们为该任务构建了一个新的数据集,并提出了新的模块化分层卷积神经网络来获得自动化的学术论文评分。评估结果表明,该模型的性能远远超越了基线模型。

理论ACL 2018论文自然语言处理高效卷积神经网络
1
相关数据
人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术
Attention mechanism

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

交叉熵技术
Cross-entropy

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

特征工程技术
Feature engineering

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

损失函数技术
Loss function

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

线性回归技术
Linear Regression (function)

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

池化技术
Pooling

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

目标函数技术
Objective function

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

词嵌入技术
Word embedding

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

卷积技术
Convolution

雨果·拉罗谢尔人物
Hugo Larochelle

谷歌大脑研究科学家,施尔布鲁克大学信息学系兼职教授。研究重点:机器学习,研究兴趣:将深度学习应用于生成建模、强化学习、元学习、计算机视觉和自然语言处理。之前的研究包括:自编码器、去噪自编码器、基于视觉注意力的分类、神经自回归分布模型。

推荐文章