百度EMNLP 2020精选论文解读

编者按:EMNLP 是自然语言处理领域的顶级会议之一,2020年的 EMNLP 会议已于11月16日至20日召开。百度精选了6篇录取的论文为大家进行介绍。

1、同声翻译的自适应分割策略

Learning Adaptive Segmentation Policy for Simultaneous Translation

论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.178.pdf

近年来,同声传译越来越受到研究界和业界的关注。它的目标是实时翻译,要求翻译质量高,且语音和翻译输出之间的延迟尽可能短。平衡准确度和延迟是同声翻译的一大挑战。为了获得较高的准确率,模型通常会等待收到较长的流式文本才开始翻译,这就会导致延迟增加。可是反之,要追求较低延时,就可能会损害翻译结果的准确性。因此,系统需要定义一个策略来决定,当收到一定长度的语音识别结果后,是进行翻译,还是继续等待。

已有工作可分为两种方法。一种是固定策略,如每收到个字就进行一次翻译,但这种方法不考虑上下文信息,容易造成翻译效果下降。另一种自适应策略根据上下文确定是否将当前内容送去翻译,但已有自适应方法需要将策略和翻译模型联合训练,训练过程复杂。

本研究在人工翻译的启发下,提出通过考虑翻译模型可能产生的翻译来学习对源文本进行分割,保持分割和翻译之间的一致性。同传系统整体流程如下图所示。图 1

图1(a) 随着系统收到语音识别后的文本,参考两个未来词(黄色框),通过一个分类模型来检测,当前片段(蓝色框)是否构成一个语义单元。类1表示是语义单元。

如果类1的概率大于一个阈值(如图1(b)所示),则将这个片段切分出来并送入翻译模型产生翻译结果(如图1(c)所示)。只要一个片段被检测为语义单元并进行翻译,其翻译结果就不再变动,而在后文的翻译中,采用强制解码策略生成已有语义单元的翻译结果。

本研究提出基于语义单元的同声传译,并根据同传的两个目标:①准确翻译 ②低延时,定义语义单元为翻译结果不会随后文而变化的最短片段, 据此提出了两种自动从源语言单语语料库中抽取语义单元训练数据的方法。一旦有了训练数据,我们便可以通过训练一个分类模型进行语义单元的实时检测。

我们首先提出一个基本方法,根据一个机器翻译模型来抽取语义单元。根据其定义,我们从左到右依次判断一个源语言句子的前个字的翻译结果是否是整句翻译的一个前缀。如果是,则将的前个字作为一个语义单元。这是因为,如果是的前缀,说明的翻译结果不会随后文而变化;而从左到右地筛选,可以保证筛选出来的语义单元最短。

此外,针对某些样本的翻译结果存在长距离调序(如下图中的“基本方法”),导致抽取出来的语义单元过长的问题,我们提出了一个优化方法(如下图“优化方法”),通过产生顺序翻译结果,尽量避免长距离调序,从而得到较短的语义单元。图 2为了产生顺序翻译结果,本研究提出了一个前缀注意力机制。通过自动判断前缀翻译的注意力是否落在当前前缀的源端边缘来判断当前产生的目标词是否可信。如果当前词可信,便将该生成词予以保留并不断尝试用最少的源语言句子前缀生成下一个目标词。为保证翻译质量,本文中保留那些高置信度的顺序翻译样本,以训练一个顺句翻译的机器翻译模型。最终,我们用这个机器翻译模型来抽取语义单元。

实验结果表明,我们的方法在延迟和翻译效果的平衡方面取得了更好的效果。如下图所示,MU和MU++分别表示本文提出的基于语义单元的基本方法和优化方法。在相同的平均延迟(Average lagging)下,我们的方法可以达到更好的翻译效果(BLEU)。图 32、DuSQL:实用的大规模中文文本转结构化查询语句数据集

DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset

论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.562.pdf

Text-to-SQL任务旨在将自然语言问题转成可在数据库上执行的SQL查询语句。该任务是面向数据库问答的核心技术,能够帮助用户从数据库中获取信息。由于缺乏标注数据,现有的文本转结构化查询语句(text-to-SQL)任务研究主要集中在英文上。代表性的英文数据集包括ATIS,WikiSQL,Spider等。

本文提出了一个实用的大规模中文跨领域text-to-SQL数据集DuSQL,其包含200个数据库,813个表格和23797个问句/SQL对。DuSQL数据集有三个特点。

首先,经过对多个代表性应用场景中问题的人工分析,我们尝试给出现实需求中SQL的真实分布,见图4。

图 4第二,基于得到的SQL分布,我们构建了DuSQL数据集。该数据集的SQL查询语句分布贴近于真实应用中的SQL语句分布,其包含了大量涉及行列计算的SQL语句,是一个比较实用的数据集。

最后,我们采用了一种有效的人机协作数据构建框架。基本思想是基于SQL语法和给定的数据库自动生成SQL语句和对应的伪自然语言问题。由标注者对伪自然语言问题进行人工改写,过滤掉不自然及不可理解的问题。为了保证数据质量,我们采用两个自动评估指标对标注的数据进行评估,并对低质数据进行迭代标注。

最终,我们构建了DuSQL数据集,其与现有数据集对比见表1。

表 1

另外,我们对多个开源的text-to-SQL解析器进行了微小的修改以适应中文,其中包括基于IRNet对计算类问题简单而有效的扩展(IRNetExt)。各解析器结果表明DuSQL是一个很有挑战的数据集。同时,我们给出了各问题类型的准确率,见表2。计算类问题解析准确率偏低,主要是该类问题的解答依赖常识,如“生卒年龄=死亡日期-出生日期”,如何表示及将这些常识融入模型是一个难题。

表 2

3、用于文档级多方面情感分类的多元化多实例学习

Diversified Multiple Instance Learning for Document-Level Multi-Aspect Sentiment Classication

论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.570.pdf

以往基于神经网络的文档级多方面情感分类通常需要大量地人工标注方面级的情感标签,需要消耗较大的人力财力。而文档级的情感标签却可以从网络上大量的获取,比如来自购物网站等,因此使用这种免费的文档级情感标签来训练神经网络是很有价值的。为此,我们提出了一种多元化多实例学习网络(D-MILN),该网络能够仅通过文档级的弱监督实现方面级情感分析器的训练。

具体而言,我们通过多实例学习来连接方面级和文档级的情感,从而提供了一种从文档级监督的反向传播中学习方面级情感分类器的方法。

图 5

如图5 (a) 所示,对于一篇文档和文中涉及的多个方面,首先通过基于注意力机制的方面级情感分类器,得到每个方面的情感分布,然后将多个方面的情感分布加权得到文档的情感分布,通过优化文档级的情感分类损失,对方面级的情感分类器进行训练。

但是,通过这种方式得到的方面级情感分类器,会过度拟合文档级的情感,并且无法很好地感知给定方面的信息,最终导致以下两种过拟合现象:1)分类器无法定位到与给定方面相关的文字,2)对于不同的方面,分类器倾向于都预测为与文档一致的情感。以图6为例,无论给定的方面是哪个,分类器都倾向于关注“great”, “ordinary”, “small”, “minimum” , “expensive”等表达情感的词,并且预测出负向情感。图 6

为了解决对文档情感的过拟合问题,本文同时提出了两种多样性正则。如图5(b)所示,文本多样性正则中,首先通过远监督获得与每个方面相关的文字,然后约束情感分类器计算得到的注意力向量更加关注于这些文字。如图5(a)所示,情感多样性正则作用于文档中方面的情感分布,通过最大化这些分布的方差,达到防止方面级的情感与文档情感过度一致的问题。

本文提出的方法在两个benchmark数据集上,超过了之前的弱监督方法以及一些基于多实例学习的模型,同时接近有监督方法在每个方面给定2000个情感标签时的效果。

表 3

4、一种面向开放领域信息表示的自然语言上的谓词-函数-参数标注方法

A Predicate-Function-Argument Annotation of Natural Language for Open-Domain Information Expression

论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.167.pdf

知识和推理是人工智能发展的下一个阶段。然而,知识的抽取和知识库的建立是一个经典的难题。语言是蕴含知识最丰富的载体,但是语言和知识的鸿沟非常的巨大。 目前仅有极小的一部分文本所蕴含的知识被形式化的知识库所蕴含。开放信息抽取(Open Information Extraction, OIE)是建立语言和知识的桥梁的一种途径。但是在实践中,开放信息抽取系统均是各自针对不同应用独立构造的(如图7所示)。这导致:1)大量重复工作; 2)抽取策略不可重用;3)无法迁移到新的应用场景。

图 7

在该论文里,我们提出了一种通用可迁移的OIE系统构造方法论(如图8所示)。这种方法基于一个新的任务:开放信息表示(Open Information eXpression, OIX)。 开放信息表示试图将自然语言句子的所有信息表示成为事实和事实之间的关系,而不是像OIE那样只关心部分感兴趣的事实。 我们设计了一种OIX的实现方式,一种称为开放信息标注(Open Information Annotation,OIA)的有向无环图(如图9所示)。OIA实现了OIE系统的基础公共操作。面向特定任务的OIE系统,可以在OIA上实现具体的策略。由于这些策略都是在OIA图上进行的,因此可以迁移到新的任务领域,通过组合策略便可得到一个新的OIE系统。

图 8图 9我们标注了一个句子和其OIA图的数据集,并构造了一个基础的将句子转换成为OIA图的转换器。数据集和转换器均已向开放社区公布。 

OIE这个领域一直是一个自由而蛮荒的领域。该论文提出的OIX任务和OIA表示方式,将这个领域变成了一个目标明确,可以监督学习,可以公平评估的科学领域。对于持续不断地从语言文本中提取知识,是一个重要的基础贡献。

5、融合结构化知识与文本的医学机器阅读理解

Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text

论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.111.pdf

随着大规模预训练模型的兴起与发展,机器阅读理解方法近些年在开放域已经取得了显著的效果提升。然而,在面向特定领域(如医学领域),由于对领域知识理解的不足以及领域训练数据的匮乏,机器阅读理解方法的表现不尽如人意。

为了解决面向领域(医学领域)机器阅读理解方法效果欠佳的问题,我们研究如何利用专业知识来增强医学领域阅读理解方法能力,特别是医学复杂推理能力。同时,为了更好地推进这项研究,我们构建了近年来中国国家执业药师资格考试(2018年的通过率不到14.2%)中收集的多项选择问答数据集(2015年-2019年,五选项单选题)。该数据集在概念知识、数学判断和逻辑推理方面具有挑战性,并且具有广泛的实用价值。一个具有挑战性的例子(见图10):

图 10一个执业药师考试选择题的例子(√:正确答案选项)

我们看到解析里提到:临床用于抗乙型肝炎病毒的药物有哪些,并且还需要判断是否是首选药物。这涉及到依赖医学专业知识进行推理判断,而用传统的阅读理解模型是难以解决此类问题。

作为一种尝试,我们提出了一种基于预训练语言模型和协同注意力机制架构的模块化端到端阅读理解模型。为了更好地整合知识图谱中的信息,我们设计了一种知识获取算法来收集相关事实并将知识注入神经网络。在此基础上,我们提出了阅读理解模型KMQA(incorporates Knowledge graphs facts for Medical multi-choice Question Answering),该模型可以充分利用结构化医学知识(采用基于北大等单位发布的CMeKG作为中文医学知识图谱)和参考医学文本(即从药学参考书中检索到的文本片段)。

图 11 KMQA整体架构。多层协同注意力阅读器(左)和知识集成模块(右)。

如图11所示,它主要由几个模块组成:(a)多层协同注意力阅读器,用于计算问题,选项和检索文本的上下文感知表示形式,并实现了丰富的交互。(b)知识获取,根据给定的问题和选择从KG中提取知识事实(见图12)。(c)将知识事实进一步整合到阅读器中的注入层,以及(d)输出最终答案的预测层。而且,我们利用问题到选项路径的关系结构来进一步增强KMQA的性能。


图 12 知识获取算法

实验结果表明,KMQA在性能上优于现有的竞争模型,在测试集上的正确率达到61.8%。

表 4测试集结果对比

6、提升双语字典生成中的低频词准确率

Improving Bilingual Lexicon Induction for Low Frequency Words

论文链接 https://www.aclweb.org/anthology/2020.emnlp-main.100.pdf

“双语字典生成”(BLI)是一个从少量翻译词归纳出更多翻译词的过程,对于研究多语种词向量空间的表达,以及机器翻译有重要意义。图13演示了目前流行的做法:

图 13双语词向量空间和BLI的代表性方法左边和右边的点分别代表英语和西班牙语词向量空间,箭头代表少量已知的翻译对。方法一般是两步:

1.从已知的翻译出发,解一个procrustes问题,得到一个旋转矩阵。该矩阵将左边的点旋转对齐到了右边。

2.两个空间对齐后,用最近邻搜索发掘更多的翻译对。

本文首先提出了一种全新的“单语词典生成”(MLI)的探针任务,该任务只涉及单一语言的两个词向量空间,目标是学出词到词本身的一一对应。MLI简化了BLI中的一到多或者多到一的问题,从而更能体现低频词的难点。对MLI运行以上方法发现翻译准确率随词频降低而明显降低(图14a)。

对此,我们提出了两个统计量来解释该现象:边界度和枢纽度。边界度反映了正确和错误的翻译分的有多开,越大越好。枢纽度则是高维向量空间的固有特点,表现为某些点和其他所有点都很近,因此对最近邻搜索有害,越低越好。图14b、14c分别演示了这两个量在不同词频区间上的变化,它们在低频词区间都变差了。

基于以上发现,文章进一步提出了两种方法,来提升低频词典生成的准确率:1. 大边界度训练(得到更强的旋转矩阵);2.低枢纽度最近邻搜索(通过正则化减少枢纽度,代码链接https://github.com/baidu-research/HNN)。这两种方法对MUSE数据集中的若干语言对都有明显提升,见图15a~d。蓝色实线代表基线方法,绿色和红色实线分别代表方法1和2,红色虚线是facebookAI研究院提出的方法CSLS。可以发现,方法1,2 对比基线有明显提升,尤其是方法2,与CSLS相当甚至更好。


理论百度研究院EMNLP 2020
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

最近邻搜索技术

最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”(Closest point search),是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点。很多情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

有向无环图技术

在图论中,如果一个有向图从任意顶点出发无法经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
情感分类技术

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。

暂无评论
暂无评论~