赛尔推荐 | 第26期

本栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。

本次推荐了三篇关于共指消解、注意力机制、指称识别、指称聚类、问答系统和动词分类的论文。

1、推荐组:CR

推荐人:李凌志(研究方向:对话系统)

论文题目:Neural Coreference Resolution with Deep Biaffine Attention by Joint Mention Detection and Mention Clustering

作者:Rui Zhang, Cicero Nogueira dos Santos, Michihiro Yasunaga, Bing Xiang, Dragomir R. Radev

出处:ACL 2018

论文主要相关:共指消解、注意力机制、指称识别、指称聚类

简评:本文聚焦在实体共指消解任务上,该任务一般划分为指称识别和指称聚类两部分。本文在CoNLL2012英文数据集的The-state-of-the-art的模型基础上,主要提出两点创新,首先是提出了一种双仿射注意力网络模型来为先行词打分,并联合优化指称识别的准确率和给定标签后指称聚类的对数似然概率,从而在CoNLL-2012上达到了新的最佳实验结果。

模型借鉴了Lee et al. (2017)的模型结构,采用双向LSTM建模文本表示,并在上一层添加头部寻找注意力层(Head-Finding Attention),用于对预定义的span进行注意力建模,得到文本表示后,联合建模每一对spans的先行词和指代词概率,得到了最终的共指打分分数。并在损失函数里线性建模了识别和聚类两部分损失值。

论文链接:

https://arxiv.org/pdf/1805.04893.pdf

2、推荐组:QA

推荐人:乐远(研究方向:问答系统、阅读理解)

论文题目:Simple and Effective Multi-Paragraph Reading Comprehension

作者:Christopher Clark, Matt Gardner

出处:ACL 2018

论文主要相关:问答系统、阅读理解

简评:当前很多阅读理解模型都是针对段落级别的,而如果输入是文档,计算开销将很大,该篇文章提出使用段落级别的模型来处理文档级别的输入。作者提出使用TF-IDF的方法来选择段落,并且还给出准确计算段落confidence score的Shared-Normalization方法,实验结果表明Shared-Normalization的方法远远优于Merge、No-Answer Option以及简单的sigmoid方法,能够更好的选择包含答案的那个段落。最后作者将这种方法和当前state-of-the-art的pipelined方法结合,并将目标函数更改为summed training objective,在几个文档问答的数据集上都取得了不错的效果,而且在TriviaQA数据集上达到了71.3的F值,比之前高了近15个点。其对文档的处理方法很具有启发意义。

论文链接:

https://arxiv.org/pdf/1710.10723v1.pdf

3、推荐组:RC

推荐人:刘一仝(研究方向:事件抽取)

论文题目:Cross-Lingual Induction and Transfer of Verb Classes Based on Word Vector Space Specialisation

作者:Ivan Vulic , Nikola Mrkšic , Anna Korhonen

出处:EMNLP 2017

论文主要相关:VerbNet,跨语言,词向量,语义迁移

简评:VerbNet是由Palmer设计的一个比较全面的,能够提供谓词论元结构、题元角色、选择限制、语义成分的动词分类系统。它能够提供语义和相应的句法框架,便于语义处理。现有的模仿VerbNet动词分类体系的动词分类方法,很大程度上依赖于特征工程,这种方式只能在已经具有成熟NLP处理技术的语言上进行运用。本文提出了一种全新的跨语言迁移VerbNet信息,实现VerbNet风格的动词自动聚类的方法。文章首先构建英语与目标语言的单词级别的对齐关系,将这种关系作为同义约束。然后通过VerbNet的分类信息,将处于同一类别下的动词相互配对构成吸引约束。根据同义约束和吸引约束构建跨语言的动词联通图。本文以最大化同一类别下词向量的相似程度,最小化不同类别下词向量的相似程度,并最大化保留词语原本的词义信息为目标构造目标函数,不断训练调整目标语言的词向量直至收敛。最后采用k-means算法对目标语言的词向量进行聚类,得到包含VerbNet动词分类信息的目标语言的动词分类体系。本文在6种语言上进行实验均取得了不错的效果。

论文链接:

http://aclweb.org/anthology/D17-1270

微信公众号原文链接:

https://mp.weixin.qq.com/s/WhoeWcDfezeh00LimFYP5A

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门语义迁移自动问答系统注意力机制共指消解
相关数据
收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

反比文档频数权重评价方法技术

tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~