腾讯 AI Lab来源

短文本分类,腾讯AI Lab联合港中文提出主题记忆网络

在 EMNLP 2018 中,针对短文本的处理,腾讯 AI Lab 发布了 论文 Topic Memory Networks for Short Text Classification。这篇论文由腾讯 AI Lab 主导,与香港中文大学合作完成。本文是主题模型文本分类神经网络框架下的一次结合,作为主题模型深度学习联合训练的一个早期的探索,能够很自然地被扩展到很多深度学习任务的上。

论文:Topic Memory Networks for Short Text Classification

论文链接:https://arxiv.org/pdf/1809.03664.pdf

文本分类 (Short Text Classification)

短文本因为其内容简短、易于阅读和传播的特性作为信息交互的载体广泛存在,例如新闻标题、社交媒体的信息、短信等等,因此如何让机器自动而高效地理解短文本一直是自然语言处理的重要任务,而文本分类作为文本理解的基础任务、能够服务于大量的下游应用(例如文本摘要、情感分析、推荐系统等等),更是长期以来学术界与工业界关注的焦点。然而,短文本分类任务本身又十分困难,这其中的原因主要来自文本的内容简短而引起数据稀疏性问题,从而导致了模型分类的时候没有足够的特征进行类别的判断。为了理解短文本分类的挑战,表 1 展示了一个 Twitter(推特)上的一个短文本分类例子。

表 1:Twitter 上文本分类的例子。

R1 和 R2 都是训练样本分别属于 Super Bowl (超级碗) 以及 New Music Live(新音乐盛典)类别,S 是测试样本属于 New Music Live 类别,但是仅仅从给定的 11 个单词,很难判断出 S 与新音乐盛典的关系。但是 R2 中 wristband(手环)与 Bieber(比伯)的共现极大地丰富了 wristband 的语义,将 wristban\d 与 New Music Live 关联起来,因为当时 Twitter 上支持 Bieber 送手环的活动使得训练语料中 wristband 和 Bieber 在 New Music Live 类别的 tweets 中大量共现。如果模型能够定位到 wristband 是一个关键的词,就更容易判断出测试样本 S 应该被分类为 New Music Live,否则的话,S 很有可能被错误分类为 Super Bowl,因为其与 R1 大部分的词都是重合的。

主题记忆网络 (Topic Memory Networks)

Topic Model(主题模型)的要旨是基于词在文章中的共现关系,从大量的词汇中找出主题词(例如 S 中的 wristbands),这部分主题词在一部分的文章中经常出现,但并不似常用词一般在大部分文章中都频繁出现。因为主题词的这种特性,相较于低频词或常用词,往往能更好地指明文本的类别。因此,过去的工作已经证明,用主题模型学出的主题表示,能够有效地提高文本分类的性能。然而,目前的大多数文本分类任务在用到主题表示的时候,往往采用两步走的方法,先训练好主题模型,然后将主题模型输出的主题表示去初始化文本分类的特征空间。近期,Neural Topic Model(神经主题模型https://arxiv.org/pdf/1706.00359.pdf)的提出,使得主题模型与大量的深度学习任务能够在多任务学习 (multi-task learning) 的框架下被联合训练,本文以深度学习最基础的任务——文本分类作为这种新的训练模式的一个初期的探索,提出了一种新的网络模型 Topic Memory Networks(主题记忆网络),网络结构如图 1 所示。

图 1:主题记忆网络的框架图。从左到右分别是神经主题模型、主题记忆机制与文本分类器。

主题记忆网络一共可以分为三部分,从左到右分别是 Neural Topic Model (神经主题模型)、Topic Memory Mechanism(主题记忆机制)、以及 Classifier(文本分类器)。其中,神经主题模型主要用于学习主题表示;主题记忆机制主要用于将学到的主题表示映射到对文本分类有用的特征空间当中;文本分类器主要用于输出文本分类标签,可以适配多种分类器(例如卷积神经网络(CNN)或循环神经网络(RNN)),因为 CNN 在之前的的工作中被证明对文本分类更有效,因此在本文对于主题记忆网络的实验探索(将于下文重点讨论)中,我们选择 CNN 作为文本分类器。

为了实现主题模型文本分类的联合训练,主题记忆网络的损失函数主题模型的训练目标 variational lower-bound 以及文本分类器的训练目标 cross-entropy 的加权和。

实验分析

为了探索主题记忆网络对短文本分类的性能,本文选择了四个基准数据集,分别为:TagMyNews 新闻标题、Snippets 搜索片段、Twitter 和 Weibo(新浪微博),四个数据集的统计信息如表 2 所示。

表 2:实验数据集详细信息。

本文选择了当下最好的短文本分类模型与主题记忆网络的性能进行了比较,在四个实验数据集的实验结果如表 3 所示,从实验结果中可以看出,主题记忆网络在四个数据集上都显著提升了 state-of-the-art 的性能。

表 3:主题记忆网络与比较模型的实验结果。TMN 表示主题记忆网络:TMN (Separate TM inference) 表示先预训练好神经主题模型,之后把其输出的主题表示初始化主题记忆机制来进行文本分类。TMN (Joint TM inference) 表示神经主题模型文本分类联合训练。两个版本的主题记忆网络的结果显著高于所有的比较模型(p<0.05 paired t-test)。

考虑到主题记忆网络能够对主题模型文本分类进行联合训练,那么主题模型是否能够获益于这种多任务训练,以学到更有意义的表示呢?本文对主题模型的输出进行了定量与定性的分析。在定量分析中,被广泛使用的 CV coherence 分数 (https://github.com/dice-group/Palmetto) 作为评测指标,比较模型包括经典的主题模型 LDA、短文本主题模型中的 state-of-the-art 模型 BTM、以及神经主题模型 NTM,越高的分数说明学到的 topic 表示越有意义,实验结果如表 3 所示,定量实验结果说明,通过与文本分类联合训练,主题模型也能够学到更有意义的主题表示。

为了探索为什么主题记忆网络能取得更好的性能,本文讨论了主题记忆网络对表 1 的测试样例 S 学到了什么表示,结果如图 2 所示。由结果读者可以观察到,与 S 最相关的三个主题分别与 Bieber、追星以及音乐相关。虽然三个主题的相关主题词大多都不被包含于 S 当中,但是通过挖掘词与词的共现关系,主题模型成功扩展了 S 中主题词 wristband 的语义,从而使得 S 得以被正确分类到 New Music Live。

图 2:主题记忆网络学到的对于 S 的表示。左图是主题记忆机制中存储的 S 中每个词与各主题之间的关系热度图,右图是关系最大的三个主题的相关词。

结语

本文是主题模型文本分类神经网络框架下的一次结合,也是主题表示与其他深度学习任务联合训练的一个尝试,希望能够对启发后续对于主题表示与深度学习的研究与应用。

理论文本处理EMNLPEMNLP 2018腾讯AI Lab
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

多任务学习技术

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

推荐文章
暂无评论
暂无评论~