廖阔,丁效,李忠阳作者

EMNLP 2019 常识信息增强的事件表示学习

论文名称:Event Representation Learning Enhanced with External Commonsense Knowledge

论文作者:丁效,廖阔,刘挺,段俊文,李忠阳

原创作者:廖阔,丁效,李忠阳

下载链接:https://arxiv.org/pdf/1909.05190.pdf

1. 简介

事件是现实世界中一种重要的知识,学习有效的事件表示可以提升脚本事件预测等许多下游任务的效果。事件是对客观事实的表达,然而客观事件的发生会对人类的主观情感产生影响,不同事件其背后的意图也有所不同。本文提出学习事件表示时融入人的情感及意图等外部常识知识,以更好地建模事件表示,并在事件相似度、脚本事件预测等任务上取得了优于基线方法的结果。

2. 动机

事件是一种重要的客观信息,事件表示学习将事件信息表示为可计算的低维稠密向量,是人工智能领域一项重要的工作。在之前的研究中,“加性”(Additive)模型是应用最广泛的事件表示方法之一,这一方法将事件论元的词向量相加或拼接后,通过一个网络映射到事件向量空间。进一步地,Ding等人(2015)与Weber等人(2018)提出使用Neural Tensor Network对事件论元进行语义组合,更好地捕获事件论元间的交互信息。

这一系列的工作仍然依赖于词表示学习,难以区分事件之间微妙的差别。一方面,如果两个事件单词重叠较少,如图1(a)所示,“PersonY threw bomb”(某人Y投掷炸弹)和“PersonZ attackedembassy”(某人Z袭击大使馆)会被映射为距离较远的两个向量。另一方面,如果两个事件单词重叠较多,那么即使两个事件关联很小,事件向量也容易具有很高的相似度,如图1(b)所示,“PersonX broke record”(某人X打破记录)“PersonY broke vase”(某人Y打破花瓶)会被映射为距离较近的两个向量。

图1 意图、情感信息在判断相似事件中的作用

导致该问题的一个重要原因是缺乏有关事件参与者心理状态的常识信息。在图1(a)中,事件参与者“某人Y”和“某人Z”可能在进行恐怖袭击,因此,两个事件具有相同的意图:“造成伤亡”,这一信息可以帮助模型将两个事件映射到向量空间中较近的位置;在图1(b)中,“打破纪录”的人可能很高兴,而“打破花瓶”的人可能心情沮丧,事件中隐含着参与者的不同情感状态,可帮助将两个事件映射到向量空间中较远的位置。因此,可以使用意图和情感信息对事件表示进行增强。这些常识知识可以从Event2Mind (Rashkin等人,2018)和ATOMIC(Sap等人,2019)常识知识库中获得。因此,我们提出将外部常识知识,例如意图和情感,融入事件表示学习的过程中,以获得更好的事件表示。

3. 方法

事件表示学习的目标是为事件三元组(A,P,O)学习低维稠密的向量表示,其中P为谓语,A为主语,O为宾语。事件表示模型对谓语、主语、宾语的表示进行组合。我们沿用Ding等人(2015)的方法,使用张量神经网络(Neural Tensor Network,NTN)作为事件表示模型。NTN的结构如图2所示,模型使用双线性变换显式地建模谓语与主语、谓语与宾语及三者间的交互关系。具体公式如下:

其中,是一个张量,由个矩阵组成,每个矩阵的维度为。双线性张量运算的结果是一个维向量,向量中的每个元素是由张量的一个切片参与运算得到的()。其他的参数是一个标准的前馈神经网络为前馈神经网络权重为偏置,激活函数的计算过程同

图2 NTN结构

NTN的一个问题是“维度灾难”,因此我们使用low-rank tensor decomposition来模拟高阶tensor以减少模型的参数数量。Low-rank tensor decomposition的过程如图3所示。具体地,将原来张量神经网络中的张量使用近似,每个切片的计算方法为:

其中,是一个超参数,用来调整low-rank分解后的张量大小。加入low-rankdecomposition后,张量神经网络的计算过程变为:

图3 Low-rank tensor decomposition

对于训练集中出现的事件,我们随机将事件的一个论元替换为另一个单词。我们假设原始事件应比替换后的事件具有更高的得分,并计算两个事件的合页损失:

其中,为事件的向量表示,为替换事件成分后的向量表示,为事件的得分,计算方式如下:

类似地,对于训练集中的每个事件,有一个人工标注的正确意图,我们从所有意图中随机采样一个错误的意图,认为正确的意图应该比错误的意图具有更高的得分。具体地,我们使用双向LSTM得到意图文本的向量表示,并使用意图与事件向量的余弦相似度作为意图得分,计算合页损失:

其中,是正确意图的向量表示,是错误意图的向量表示。

同时,对于训练集中的每个事件,有一个标注的情感极性标签(0-消极,1-积极)。我们将事件表示作为特征输入分类器,训练该分类器预测正确情感标签的能力,从而使事件表示中带有情感极性信息,计算情感分类的交叉熵损失:

其中,为训练集中事件的集合,为事件正确的情感极性标签,为模型预测的事件情感极性标签。

最终的优化目标为三部分损失的加权和:

模型的整理架构如图4所示。

图4 融合意图、情感信息的事件表示模型架构

4. 实验

4.1 事件相似度

我们在Hard Similarity和Transitive Sentence Similarity两个事件相似度任务上对比了模型与基线方法的效果。

Hard Similarity任务由Weber等人(2018)提出,该任务构造了两种类型的事件对,第一种事件对中,两个事件语义相近,但几乎没有单词上的重叠;第二种对事件中,两个事件单词上重叠程度较高,但语义相差较远。对每种事件表示方法,我们计算每个事件对的余弦相似度作为得分,并以相似事件对得分大于不相似事件对得分的比例作为模型的准确率

Transitive SentenceSimilarity数据集(Kartsaklis与Sadrzadeh,2014)包含了108个事件对,每个事件对带有由人工标注的相似度得分。我们使用Spearman相关系数评价模型给出的相似度与人工标注的相似度的一致性。

表1 事件相似度实验结果

两个任务的结果如表1所示。我们发现:

(1) 在Transitive SentenceSimilarity任务上,词向量均值的方法取得了很好的结果,但在Hard Similarity任务上结果很差。这主要是因为HardSimilarity数据集是专门为了区分“重叠词较多但语义不相似”“重叠词较少但语义相似”的情况。显然,在这一数据集上,词向量均值的方法无法捕获事件论元间的交互,因此无法取得较好的效果。

(2) 基于Tensor 组合的模型(NTN, KGEB, RoleFactor Tensor, Predicate Tensor)超过了加性(Additive)模型(Comp.NN, EM Comp.),表明基于Tensor组合的方法可以更好地建模事件论元的语义组合。

(3) 我们的常识知识增强的事件表示方法在两个数据集上均超过了基线方法(在Hard Similarity小数据集和大数据集上分别取得了78%和200%的提升),表明常识知识对于区分事件具有重要的作用。

表2展示了Hard Similarity任务上加入常识信息前(oScore)/后(mScore)事件相似度的变化。

表2 加入常识信息前后事件相似度变化

4.2 脚本事件预测

脚本事件预测(Chambers与Jurafsky,2008)任务定义为给定上下文事件,从候选事件中选出接下来最有可能发生的事件。我们在标准的MCNC数据集(Granroth-Wilding与Clark,2016)上验证模型的效果。我们沿用Li等人(2018)的SGNN的模型,仅仅用我们的事件表示模型代替SGNN中的事件表示部分。表3中的实验结果显示,我们的方法在单模型上取得了1.5%的提升,在多模型ensemble上取得了1.4%的提升,验证了更好的事件表示在该任务上的重要性。我们观察到,仅仅融入意图的事件表示超过了其他基线方法,表明捕获参与者的意图信息可以帮助推理他们的后续活动。另外,我们发现只融入情感信息的事件表示也取得了比原始SGNN更好的效果,这主要是因为顺承事件间情感的一致性也可以帮助预测后续的事件。

表3 脚本事件预测实验结果

4.3 股市预测

前人的研究显示新闻事件会对股价的涨跌产生影响(Luss与d’Aspremont,2012)。我们对比了使用不同事件表示作为特征预测股市涨跌的结果,如图5所示。该实验结果显示了事件中的情感信息在股市预测任务上的有效性(取得了2.4%的提升)。

图5 股市预测实验结果

5. 结论

要让计算机充分理解事件,需要将常识信息融入事件表示之中。高质量的事件表示在脚本事件预测、股市预测等许多下游任务上具有重要的作用。本文提出了一个简单而有效的事件表示学习框架,将意图、情感常识信息融入事件表示的学习之中。事件相似度、脚本事件预测、股市预测三个任务上的实验结果表明,我们的方法可以有效提高事件表示的质量,并为下游任务带来提升。

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论EMNLP表示学习
2
相关数据
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

暂无评论
暂无评论~