AAAI 2020 用于联合建模对话行为识别和情感分类的深度交互关系网络

论文名称:DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification
论文作者:覃立波,车万翔,李杨名,倪旻恒,刘挺
原创作者:覃立波
下载链接:http://ir.hit.edu.cn/~car/papers/AAAI2020-Qin-dcrnet.pdf
转载须注明出处:哈工大SCIR

1.   简介

在对话系统中,对话行为识别 Dialog Act Recognition(DAR)和情感分类 Sentiment Classification (SC)是捕获说话人意图的两个相关任务,其中对话行为和情感可以分别捕捉显式和隐式的意图。现有的大多数系统要么将它们视为单独的任务,要么只是通过隐式共享参数来联合建模两个任务,都没有显式地建模两个任务相互的交互和关系。为了解决这个问题,我们提出了一个深度交互关系网络(DCR-Net),通过引入交互关系层来显式考虑双方的相互关系。并且,可以将提出关系层堆叠起来从而实现双方关系交互的逐渐捕获。此外,我们还彻底研究了不同的关系层及其影响。在两个公共数据集的实验结果显示,我们的模型取得了SOTA性能。另外,我们还探索了预训练模型 (BERT)在该任务的表现,并且给出了一些有趣的发现,这将有助于未来在该任务上的研究。

2. 动机

对话行为识别Dialog Act Recognition(DAR)和情感分类Sentiment Classification (SC)两个任务是紧密相关的两个任务,以Mastodon数据集 [1]的一个对话为例:

表1 Mastodon数据集样例,DA代表Dialog Act。

当预测用户B情感时,在已知DA标签为Agreement的情况下,它的情感更倾向于预测为Negative的,因为Agreement代表当前话与先用户A的话语观点一致,因此用户B情绪标签倾向于与用户A的情绪Negative一样。同样,知道情感信息也有助于当前DA的预测。

最近[1]等工作也意识到了两个任务应该联合建模来考虑两个任务之间的联系。他们采取简单的多任务框架来联合建模两个任务,通过共享参数来隐式考虑两个任务之间的联系。

但是这个方法仍然具有以下几个缺点:
(1)一个简单的多任务学习框架只能通过共享的表示来隐式地考虑两个任务之间的相互联系,这并不能获得理想的结果[2],在本文中,我们发现这种建模方法有些指标甚至低于每个任务的单独模型。
(2)基于共享的潜在表示,很难做到显式地控制两个任务的知识转移,导致缺乏可解释性。

因此,本文我们提出一个深度交互关系网络(DCR-Net)来显示建模DAR和SC两个任务的联系,并且通过堆叠关系层来逐渐捕获双方关系的交互。本文我们探索了三种交互关系层:1) Concatenation 直接拼接;2)多层感知机 (MLP);3)Co-Attention机制。并且我们还探索了预训练模型 (BERT)在该任务的表现。我们是第一个系统的探索显式建模DAR和SC两个任务交互的工作。

3. 模型

接下来我们介绍本文所提出的DCR-Net模型。该模型由一个层次化编码层、关系交互层、输出层构成。整体模型结构如图1所示。

图1 模型框架图3.1 层次化表示

我们采用一个层次化编码层来获得编码表示,它由一个BiLSTM [3]负责编码每一个句子,和一个句子级别的自注意层编码句子之间的关系。

  • BiLSTM编码句子

给定一个对话 (包含T个句子),  (表示有个单词),我们首先用BiLSTM去获得每个单词的前向和后向表示:

我们用每句话的最后一个隐层表示作为该句的表示,最后我们得到整个对话的表示

  •  句子级自注意层

我们接着用自注意层来捕获句子之间的上下文信息。公式如下:

最后我们得到最终的编码表示。该表示作为初始的对话行为和情感表示

3.2 关系交互层

我们现在描述提出的关系交互层;参见图2的底部(b)。在本文中,我们使用交互关系层来显式地建模对话行为识别和情感分类任务之间的关系和交互。交互层将对话行为表示D和情感表示S表示作为输入,然后输出交互之后的表示。并且,交互层可以堆叠执行多步骤交互操作,来更好地捕获相互的知识和关系。

在我们的框架中,我们探索了几种类型的关系层,它们可以单独使用,也可以组合使用。特别的,给定第 ,在每次交互之前,我们分别用BiLSTM和MLP分别作用于对话行为表示和情感表示,来获得他们更加任务相关的表示,如下:

下面我们分别来介绍集中交互函数:

  • Concatenation

我们直接用拼接操作去concat两个任务的表示。

  • MLP

在拼接操作上层,我们加了一个MLP去自动学习两者交互的关系。

  •  Co-Attention

Co-Attention是一种非常有效的方法,可以捕获两个相关任务中相互重要的信息。在这里,我们将基本的共同注意机制扩展到对话层面的共同注意机制来显式建模两者的交互。

3.3 输出层

获得了最后的表示之后,我们分别用各自任务的分类层去得到最终的分类结果:

训练的时候我们采取两个交叉熵损失相加进行联合训练:

4. 实验结果

我们在Mastodon和DailyDialog [4] 数据集上验证了我们的模型。结果表如表2所示:

表2 主实验结果

从表中结果可以得出几点结论:

1)DCR-Net模型显著超过单独建模两个任务的模型,表明联合建模考虑两者的关系是有效的。

2)我们的DCR-Net模型显著超过其它隐式建模两个任务的joint模型,表明显式建模两个任务的交互能够更好的捕获相关的知识。

3)我们的DCR-Net+Co-Attention是在三个交互函数中获得了最好的性能,表明Co-Attention机制的有效性。

4)通过最后一行,我们可以看到加上BERT[5]后,两个任务均有大幅度的提高,表明预训练模型能够带来很大的收益,尤其是Mastodon这种数据量偏少的数据集上。

5. 讨论

5.1 消融实验

表3 消融实验结果

从表中结果可以看出

1)去掉关系层,我们看到在两个数据集模型性能都有所下降,表明显式建模两个任务直接的交互能够对最后的性能起到促进作用

2)去掉了堆叠的关系层,可以看到性能也下降了一些,表明通过多级层叠的关系层能够更好地捕获到两个任务直接的联系。

3)去掉了句子级别的自注意层,两个任务的效果都有所损害,表明对话中的上下文信息对两个任务具有促进作用。并且我们把自注意层变成CNN层去建模上下文信息,可以看到比没有加任何模块来建模上下文信息效果有所提升,进一步表明上下文信息的有效性。但是结果弱于自注意机制,表明自注意机制能够更好地建模上下文信息。

 5.2 定量分析

我们进一步分析模型提升最大的几个对话行为,来定量地分析模型的有效性。图2 定量分析图

我们选择了几个性能提升很大的DA类型,如图2所示。从结果可以看出,我们的模型在行为类型Exclamation, Thanking, Agreement, Explicit Performative等DA有最显著的改进。我们认为这些行为类别与情感具有很强的相关性,并且我们的模型可以为DAR显式地提供情感信息,而不是通过共享参数的隐式方法。

5.3 Co-Attention的可视化

图3 可视化图

为了更好地理解模型所学到的知识,我们可视化了模型中的Co-Attention层的分布,我们将第五句话与其他话语对应的注意分布可视化,堆叠层数从第一层到第六层。

从图3可以看出不管是对话行为DA对于情感,还是情感对于DA来说都是第四句话有较大的权重,这是因为第五句话与第四句话更为相关,这些结果表明,我们的框架能够成功捕获到重要的知识。

6. 结论

在本文中,我们着重于显式建模对话行为识别和情感分析的交互关系。我们提出了一个深度关系网络来共同建模两个任务之间的交互和关系,并且显式地融合交互知识。此外,我们还探索了三个不同的关系层,并深入研究了它们对两项任务的影响。在两个数据集上的实验表明了所提出模型的有效性,并取得了最新的性能。广泛的分析进一步证实了两个任务之间的相关性,并表明示显式地建模关系可以提高它们的性能。此外,我们还分析了在我们的联合模型中加入强预训练的BERT模型的效果。

参考文献

[1] Cerisara, C.; Jafaritazehjani, S.;Oluokun, A.; and Le, H. T. 2018. Multi-task dialog act and sentiment recognition on mastodon. In Proc. of COLING.

[2] Chen, Z.; Wang, X.; Xie, X.; Wu, T.; Bu,G.; Wang, Y.; and Chen, E. 2019. Co-attentive multi-task learning for explainable recommendation. In Proc. of IJCAI.

[3] Hochreiter, S., and Schmidhuber, J.1997. Long short-term memory. Neural computation.

[4] Li, Y.; Su, H.; Shen, X.; Li, W.; Cao,Z.; and Niu, S. 2017. Dailydialog: A manually labelled multi-turn dialogue dataset. In Proc. of IJCNLP.

[5] Devlin, J.; Chang, M.-W.; Lee, K.; andToutanova, K. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proc. of NAACL.

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论NLP对话系统情感分类行为识别AAAI 2020
暂无评论
暂无评论~