计算语言顶会ACL 2018最佳论文公布!这些大学与研究员榜上有名

今日,ACL 2018 公布了 5 篇最佳论文,包括三篇最佳长论文和 2 篇最佳短论文。今年的 ACL 共收到 1544 份提交论文,其中 1018 份长论文接收了 258 篇,526 份短论文接收了 126 篇,总体接受率为 24.9%。


ACL 2018 获奖名单如下:

最佳长论文

1. Finding syntax in human encephalography with beam search(尚未公开)

作者:John Hale、Chris Dyer、Adhiguna Kuncoro、Jonathan Brennan

2. Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

作者:Sudha Rao、Hal Daumé III 均来自于马里兰大学帕克分校。

3. Let’s do it “again”: A First Computational Approach to Detecting Adverbial Presupposition Triggers

作者:Andre Cianflone、Yulan Feng、Jad Kabbara、Jackie Chi Kit Cheung,来自于麦吉尔大学和 MILA。

最佳短论文

1. Know What You Don’t Know: Unanswerable Questions for SQuAD.(尚未公开)

作者:Pranav Rajpurkar、Robin Jia、Percy Liang

目前,该论文尚未公开,但三位研究员都来自斯坦福大学。

2. ‘Lighter’ Can Still Be Dark: Modeling Comparative Color Descriptions.(尚未公开)

作者:Olivia Winn、Smaranda Muresan

该获奖论文的两位作者来自于哥伦比亚大学。

在本文中,机器之心对两篇已公开的获奖论文进行了编译介绍,感兴趣的同学可以查看原论文:

论文 1: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

论文地址:https://arxiv.org/abs/1805.04655

摘要:询问对于交流而言是很基础的,然而机器无法与人类进行高效协作,除非它们可以学会问问题。在这项研究中,我们为给澄清性(clarification)提问排序的任务构建了一个神经网络模型。该模型受完美信息期望值的思想启发:一个问题好不好在于其期望的回答是否有用。我们使用了来自 StackExchange 的数据来研究这个问题,StackExchange 是一个丰富的在线资源,人们通常在帖子中询问澄清性问题,从而他们可以更好地为帖子楼主提供帮助。我们创建了一个由大约 77000 个澄清性问题帖子构成的数据集,其中每个帖子包含一个问答对,这些帖子来自 StackExchange 的三个领域:askubuntu、unix 和 superuser。我们在该数据集的 500 个样本上通过和人类专家判断对比对我们的模型进行了评估,并在受控基线上实现了显著的提高。

提问的核心目标是填补信息鸿沟,该过程通常通过澄清性问题进行。我们认同好的问题是其答案最可能有用的问题。考虑到图 1 中的信息交流,其中楼主(我们叫他 Terry)就配置环境变量提问。这个帖子不够细化,一个回复者(Parker)问了一个澄清性问题(如下 a),不过也可以问问题(b)或(c)。

(a)你使用的是哪个版本的 Ubuntu?

(b)你的无线网卡型号是什么?

(c)你是在 x86 64 架构上运行 Ubuntu 14.10 kernel 4.4.0-59- generic 吗?

Parker 不应该问(b)因为答案可能没什么用;也不应该问(c)因为这个问题太具体了,「No」或「I do not know」这样的答案也没什么用处。Parker 的问题(a)就好多了:答案有用的可能性高,且对于 Terry 来说是可以回答的。

图 1:更新在线问答论坛「askubuntu.com」上的帖子来补充评论中缺失的信息。

图 2:我们的模型在测试过程中的行为:给出帖子 p,我们使用 Lucene 检索出 10 个与 p 类似的帖子。对这 10 个帖子提问的问题是我们的候选问题 Q,对这些问题的答复是我们的候选答案 A。对于每个候选问题 q_i,我们生成答案表征 F(p, q_i),并计算候选答案 a_j 与答案表征 F(p, q_i) 之间的接近程度。然后我们计算帖子 p 的效用,并确定是否使用答案 a_j 对它进行更新。最后,我们根据公式 1,按照问题的期望效用对候选问题 Q 进行排序。

图 3:答案生成器的训练过程。给定一个帖子 p_i 和问题 q_i,我们生成答案表征,其不仅与原始答案 a_i 很接近,而且在候选问题 q_j 与原始问题 q_i 接近的情况下答案表征与候选答案 a_j 也很接近。

实验结果

我们在实验评估过程中使用的主要研究问题是:

1. 神经网络架构是否比非神经网络基线模型有所改善?

2. EVPI formalism 是否能影响有类似表征力的前馈网络?

3. 答案有助于识别正确的问题吗?

4. 在候选问题(不包括原始问题)上评估模型时,模型性能如何?

表 2:在 500 个样本上评估的模型性能,包括「最佳」标注的并集(B1 ∪ B2)、「有效」标注的交集(V1 ∩ V2),以及数据集中和帖子配对的原始问题。加粗和非加粗数字的区别在于统计显著性 p<0.05(使用自引导检验计算)。p@k 是模型排序最高的 k 个问题的精度,MAP 是模型预测排序的平均精度。

结论

我们为学习给澄清性问题排序构建了一个新的数据集,并为求解该任务提出了新的模型。该模型结合了著名的深度网络架构和完美信息期望值的经典概念,可以从提问者的角度为实用的选择有效地建模:如果我问了这个问题,我应该如何设想对方的回答。这种实用原则近期被证明在其它任务中也有用(Golland et al., 2010; Smith et al., 2013; Orita et al., 2015; Andreas and Klein, 2016)。人们可以自然地将我们的 EVPI 方法扩展到完全的强化学习方法,以处理多回合的对话。实验结果表明 EVPI 模型对于求解问题生成任务而言是有潜力的范式。

论文 2:Let’s do it “again”: A First Computational Approach to Detecting Adverbial Presupposition Triggers

论文地址:https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf

摘要:我们介绍了预测状语预设触发语(如 also、again)的任务。解决这样的任务需要检测语篇中的重复或类似事件,并且在自然语言生成任务中有应用,例如摘要和对话系统。我们为这项任务创建了两个新的数据集,分别来自宾州树库(Penn Treebank)和 Annotated English Gigaword 语料库,并为其定制了一个新的注意力机制。我们的注意力机制增强了基线循环神经网络,而不需要额外的可训练参数,从而使注意力机制的额外计算成本最小化。我们已证实,根据统计数据,该模型优于许多基线模型,包括基于 LSTM 的语言模型

在本文中,我们的重点是如 again、also、still 这样的状语预设触发语。状语预设触发语指出了语篇中事件的重复、延续或终止,或者类似事件的存在。

本论文的主要贡献如下:

  • 介绍了预测状语预设触发语的任务;

  • 提出了用于检测状语预设触发语的新数据集,以及一种可应用于其它类似预处理任务的数据提取方法;

  • 在 RNN 架构中使用一种新的注意力机制,可用于预测状语预设触发语任务。这种注意力机制无需引入额外的参数,但预测效果优于很多基线模型。

3 数据集

我们从两个语料库中提取了数据集,即宾州树库(PTB)语料库(Marcuset al.,1993)和第三版 English Gigaword 语料库(Graff et al.,2007)的子集(sections 000-760)。

图 1:我们的数据集中一个包含预设触发语的实例。

4 学习模型

本章介绍了我们基于注意力的模型。该模型计算每一时间步上隐藏状态之间的相关性,然后再在这些相关性上应用注意力机制,从而扩展双向 LSTM 模型。我们提出的加权池化(WP)神经网络架构如图 2 所示。

图 2:我们提出的加权池化神经网络架构(WP)。分词后的输入将嵌入到预训练词嵌入中,并可能与经过 one-hot 编码的 POS 标签相级联。输入序列随后会通过双向 LSTM 进行编码,并馈送到注意力机制内。计算得出的注意力权重随后可用于编码状态的加权平均运算,依次连接到全连接层以预测预设触发语。

6 结果

表 2 显示了具有 POS 标签和没有该标签的不同模型的表现。总体而言,在结合不同数据集以及是否使用 POS 标签的所有 14 个场景里,我们的注意力模型 WP 在 10 个场景中优于所有其它模型。重要的是,该模型在未引入额外参数的情况下,超越了常规 LSTM 模型,这突出了 WP 基于注意力的池化方法的优势。

表 2:各种模型的性能,包括加权池化的 LSTM(WP)模型。MFC 指最常见的基线,LogReg 是 logistic 回归基线。LSTM 和 CNN 对应强大的神经网络基线模型。请注意,我们把每个「+ POS」案例和「- POS」案例中最佳模型的性能数字加粗显示了。

表 3:最佳模型的混淆矩阵,预测预设触发语是否存在。

表 4:在 Giga_also 数据集上 LSTM 基线模型与注意力模型(WP)正确预测(cor.)和错误预测(inc.)的列联表。

参考内容:https://acl2018.org/2018/06/10/best-papers/

理论ACLACL 2018获奖论文NLP
1
相关数据
注意力机制技术
Attention mechanism

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

混淆矩阵技术
Confusion matrix

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。 这个名字源于这样一个事实,即很容易看出系统是否混淆了两个类。

自然语言生成技术
Natural language generation

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

语言模型技术
Language models

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

池化技术
Pooling

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

词嵌入技术
Word embedding

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

返回顶部