丁效 蔡碧波 刘挺 石乾坤作者

IJCAI 2018 在消费意图识别任务上的基于树核最大平均差异的领域自适应

本文介绍哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)录用于IJCAI 2018的论文《Domain Adaptation via Tree Kernel Based Maximum Mean Discrepancy for User Consumption Intention Identification》[1]中的工作。在消费意图识别的领域自适应的任务上,我们引入了基于树核的最大平均差异来度量领域距离以学习到更好的领域不变的特征。我们在5个领域的消费意图识别的数据集上进行了实验,取得了SOTA的效果。

论文作者:丁效,蔡碧波,刘挺,石乾坤

关键词:消费意图识别 领域自适应 最大平均差异

联系邮箱:xding@ir.hit.edu.cn

个人主页:http://ir.hit.edu.cn/~xding/

1.引言

1.1 消费意图识别

人们通常会在社交平台上更新自己的动态,我们将这些统称为社会媒体信息。部分社会媒体信息中可能显式或者隐式的表达了人们对于某种商品的购买倾向,我们称之为消费意图。例如,“跟我一起去去看复联3吧!”这句话表明了该博主可能想要购买电影票。表1中举出了一些表达不同领域的消费意图的例子。消费意图识别的任务具有领域相关的特性[2],一个针对A领域(如购买电影票)训练出的模型,如果用来判别其他领域的数据(如购买手机)中是否包含了消费意图,模型的表现往往较差。所以在消费意图识别的任务上,如何进行领域自适应成了一个值得研究的问题。

表1 不同领域消意图示例

1.2 领域自适应

领域自适应问题(Domain Adaptation)是迁移学习Transfer learning)的研究内容之一。其遵循了迁移学习问题的基本设定,即源领域和和目标域为不同的领域,且仅源领域有着丰富的监督信息。具体的,其有如下特征[3]:

  • 特征空间一致

  • 类别空间一致

  • 特征分布不一致

该问题的目标是希望能够最大限度地利用有源领域的有监督信息,辅助目标领域的训练,使得即使是在弱监督或者无监督的情况下,在目标领域上仍能取得良好的分类效果。其中主要需要解决两个问题,一是如何进行领域之间分布差异的度量,二是如何学习到更有效的领域之间可迁移的特征,即领域不变量。在领域分布差异度量的问题上,最大平均差异(MMD)[4]被证明是一个有效的办法。其公式为:

MMD实际上是一种双样本检验的方法,当MMD的结果为零时,说明两个整体服从同样的分布。其中是映射,代表将原向量投影到高维希尔伯特空间中。作为一种核方法,使用MMD进行双样本检验的效果与核的选取息息相关。

对于如何更有效的学习到领域不变量的问题,最近的研究表明深度神经网络具有良好的可迁移性。但是,在神经网络的一层一层前向传播的过程中,学习到的特征的可迁移性将会逐渐变差。故对于神经网络末端的领域私有层,需要使用小部分的目标领域的有标注数据进行finetune以达到较好的效果。

在本文中,我们提出了基于树核最大平均差异的领域自适应的消费意图识别的模型来解决上述的两个问题。由于基于MMD的双样本检验的效果取决与核的选取,且树核函数在NLP任务中被广泛使用,故我们采用了一个基于树核的方法来进行领域差异的度量。另外,我们使用了Tree-Lstm捕捉自然语言的结构化信息。

2. 模型介绍

在本文中,我们提出了领域迁移的消费意图识别模型(DACI),其结构如图1所示,我们将介绍模型的整体的训练过程,并具体介绍模型使用的损失函数及相关意义。

图1 DACI结构示意图

如图1所示,我们先使用源领域的有标注的数据训练得到有标注的模型1,其损失函数如下:

即我们希望训练得到的模型能在源领域上取得尽可能高的准确率

但是,由于模型学习到的特征具有领域独立性,故模型1不能直接用于目标领域数据的预测。在本文中,我们将模型1的Tree-lstm层的参数作为模型2的预训练的参数。模型2即为最终对目标领域数据进行分类的模型。我们期望随着训练轮数的增加,源域和目标域的数据经Tree-lstm变化得到的特征的分布能够越来越相近。这可以通过对上式添加TK-MMD函数来实现。

3. 实验结果

3.1 数据集

因为目前并没有公开的用于评估消费意图识别任务的数据集,所以我们自行手动标注了实验数据集。我们的数据集中包含了5个领域,分别是订火车票,订飞机票,买手机,买电脑,买电影票,其训练集,验证集,和测试集。这些数据随后将会公开。数据集的相关细节如表2所示。

表2 数据集样本数

3.2 实验结果

我们使用我们的模型在五个数据集上进行两两之间的相互迁移实验。表3中展示了本文的实验结果。

  • 在所有的领域的迁移上,我们的模型都取得了最好的结果,有较强的稳定性。

  • 通过与传统的非深度学习方法SCL, SFA比较,说明深度学习的模型有更强的表示能力,可以学习到更通用的特征适用于领域迁移。

  • 通过比较单独的CNN和Tree-lstm的结果,说明了由于消费意图识别的领域相关的特性,在源域上训练得到的模型不可直接用于目标领域的分类。

  • 通过比较LSTM+MMD和CNN+MMD的结果,说明基于树核的TK-MMD比传统的MMD能更有效的提升模型的迁移能力。

表3 实验结果对比

4. 结语

本文中我们构建了一个跨领域的无监督学习的消费意图识别的深度学习模型。在模型中,我们充分利用了深度神经网络和双样本检验的优势,使用TK-MMD来提升模型学习到的特征的可迁移性。我们在5个领域的数据上进行了两两迁移的实验,结果证明了我们的模型的优越性。最后,我们的模型也有充分的通用性,也可适用于其他的需要进行领域自适应的自然语言处理任务中。

5. 参考文献

[1] Xiao Ding, Bibo Cai,Ting Liu, Qiankun Shi. Domain Adaptation via Tree Kernel Based Maximum Mean Discrepancy for User Consumption Intention Identification, To appear in IJCAI 2018.

[2] Xiao Ding, Ting Liu, Junwen Duan, and Jian-Yun Nie. Mining user consumption intention from social media using domain adaptive convolutional neural network.In AAAI, 2015.
[3] SJ Pan, Q Yang. A survey on transfer learning. In TKDE, 2010.
[4] Sinno Jialin Pan, James T Kwok, and Qiang Yang. Transfer learning via dimensionality reduction. In AAAI, 2008.

哈尔滨工业大学社会计算与信息检索研究中心

入门无监督学习深度学习消费意图识别领域自适应最大平均差异
1
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

希尔伯特空间技术
Hilbert space

在数学里,希尔伯特空间即完备的内积空间,也就是说一个带有内积的完备向量空间。是有限维欧几里得空间的一个推广,使之不局限于实数的情形和有限的维数,但又不失完备性。与欧几里得空间相仿,希尔伯特空间也是一个内积空间,其上有距离和角的概念。

核函数技术
Kernel function

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

信息检索技术
Information Retrieval

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

损失函数技术
Loss function

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术
Transfer learning

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

验证集技术
Validation set

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章