腾讯提出用于文本匹配的多信道信息交叉模型,在真实任务中表现优异

来自腾讯 MIG 移动浏览产品部和阿尔伯塔大学的研究者提出一种用于文本匹配的新模型 MIX,这是一个多信道信息交叉模型,大大提升了文本匹配的准确率,在 QQ 浏览器搜索直达业务使用中也表现出了优秀的性能,相对提升点击率 5.7%。目前,这篇长论文已经被 KDD 2018 接收。

1 引言

短文本匹配在信息检索、问答、对话系统等自然语言处理任务中起着至关重要的作用。早期的文本匹配方法包括基于检索知识库的自动问答,以及基于词匹配和特征交叉(feature crossing)的 ad-hoc 检索 [17, 24]。然而,这些方法都依赖于手动定义的模板和规则,限制了调整良好的模型的泛化能力及其面向不同任务需求的可移植性。近年来深度神经网络模型的发展为提高自然语言处理能力带来了新的机遇。通过减少对人工特征工程的需求,深度网络模型可以更好地泛化,处理多种任务。近年来,研究者提出大量基于卷积神经网络和循环神经网络的深度网络结构,用于短文本匹配 [2, 3, 6, 7, 9, 11–15, 19–21, 23]。

本文对近年来出现的大量文本匹配深度学习技术进行了现实检验,发现尽管各种深度网络模型都有创新之处,但在实际应用中,尤其是在深度模型与语言结构和语义特征分析相结合的情况下,这些模型仍有很大的改进空间。本论文作者设计了一个多信道信息交叉模型(Multi-Channel Information Crossing,MIX),这是一个用于文本匹配的多信道卷积神经网络(CNN)模型,它在腾讯的线上流量中表现出了优秀的性能。

MIX 是 CNN 在多种粒度下的一种新型融合,并具有精心设计的注意力机制。MIX 的基本思想可以概括为:首先,MIX 使用在不同粒度下提取的特征来表征文本片段,这些特征是从实验观察到的与短语、词组、句法和语义、词频和权重,甚至语法信息相关的多个粒度中提取的,这是充分挖掘深层模型潜力的必要实践。文本匹配在多级特征上的组合会将深层架构表达所有级别的局部依赖性的能力最大化,并将卷积过程中的信息损失最小化。

其次,MIX 还提出了一种新型融合技术来组合来自多信道的匹配结果。MIX 中有两种类型的信道,两个文本片段的特征可以通过这些信道进行交互。其中一种是语义信息信道,它表示文本的意义,如一元分词、二元分词和三元分词。另一种信道包含 term 权重、词性和命名实体等结构信息以及交互的空间相关性。在 MIX 中,语义信息通道的作用是相似度匹配,而结构信息通道发挥注意力机制的作用。此外,MIX 使用 3D 卷积核来处理这些堆叠层,从多个信道提取抽象特征,并通过多层感知器来组合输出 [5]。信道组合机制使得 MIX 能够轻松地将新信道合并到其学习框架中,从而使 MIX 能够适用于广泛的任务。

研究者在腾讯的 Venus 分布式信息处理平台上实现并部署了 MIX,基于多个数据集和在腾讯 QQ 移动浏览器中的在线 A/B 测试对 MIX 进行了评估。在线评估部分中,研究者在英文问答数据集 WikiQA [25] 和一个从 QQ 移动浏览器收集的中文搜索结果数据集上测试了 MIX。WikiQA 是一个可公开访问的数据集,包含微软提供的开放域问答对。在 WikiQA 数据集上,MIX 在 NDCG@3 上的表现比多种当前最优方法至少高 11.1%,NDCG@3 是衡量排名质量的常用指标,在搜索引擎评估中被广泛采用。

另一个中文搜索结果数据集是在用户同意的情况下从腾讯 QQ 浏览器收集的,并从每天 1000 万活跃用户产生的在线搜索流量中采样得来。该数据集包括 12 万个 query-document 条目和审核者生成的标签,这些标签显示数据集中每个 query-document 对的匹配程度。在此数据集上,MIX 在 NDCG@3 方面的表现至少比所有其他当前最优方法高出 8.2%。

此外,在腾讯 QQ 浏览器的在线 A/B 测试中,与未使用 MIX 的设置相比,MIX 实现了 5.7% 的点击率增长。评估结果展示了 MIX 在生产环境中提升文本匹配准确率方面的优秀性能,以及它可以泛化至不同语言数据集的能力。

3 MIX 模型

本章介绍 MIX 模型的细节。研究者将全局匹配定义为两个句子之间的匹配,将局部匹配定义为句子中文本元素之间的匹配。受基于互动的模型的启发,MIX 模型组合使用全局匹配和局部匹配技术,对两个文本片段之间的相关性进行建模。依赖于深度神经网络强大的表征学习能力,MIX 模型能够有层次、多维度地描绘文本匹配问题的本质。如图 1 所示,MIX 模型将文本匹配问题高效分割为以下子问题:

图 1:MIX 模型架构图示。

首先,如图 1 左上方所示,句子被解析成不同粒度的文本片段,如一元分词、二元分词和三元分词。用这种方式,MIX 通过找到文本片段最合适的语义表征(可以是单词、短语或词组)来改善局部匹配的准确率。这里的目标是尽可能多地捕捉不同互动级别上的信息。


其次,如图 1「attention units」部分所示,研究者提取语法信息,如相对权重词性标注,据此在注意力信道中设计注意力矩阵,以封装丰富的结构模式。研究者使用该方法首先研究了全局匹配和局部匹配之间的关系,然后证明其注意力机制能够基于局部匹配构建全局匹配,从而增强整体匹配的质量。

第三,如图 1「weighed channels」和「2D-convolution」部分所示,研究者将局部匹配信道和注意力信道交叉起来,以为局部匹配提取有意义的特征组合。

图 7:空间注意力层的元素对应亮度。

4 性能评估

4.1 离线测试

表 1:在 WikiQA 数据集上的单机测试评估结果。

表 2:在 QBSearch 数据集上的单机测试评估结果。

4.2 在线测试


图 8:在线 A/B 测试中返回搜索结果上的点击数。

图 9:在线 A/B 测试中两组的反射率(每小时点击数)及对应箱线图。


论文:MIX: Multi-Channel Information Crossing for Text Matching 

摘要:短文本匹配在信息检索、问答和对话系统等多项自然语言处理任务中发挥重要作用。传统的文本匹配方法依赖于预制模版和规则。但是,对于只有有限单词的短文本来说,这些规则无法很好地泛化至未观测数据中。随着深度学习计算机视觉语音识别推荐系统领域中的成功运用,近期很多研究致力于将深度神经网络模型应用于自然语言处理任务,以降低人工特征工程的成本。

本论文提出了 MIX 模型(Multi-Channel Information Crossing),该多信道卷积神经网络模型可用于生产环境中的文本匹配,它具备针对句子和语义特征的额外注意力机制。MIX 在不同粒度上对比文本片段,以形成一系列多信道相似度矩阵,它们与另一组精心设计的注意力矩阵交叉起来,将句子的丰富结构展示给深度神经网络

我们实现了 MIX,并将该系统部署在腾讯 Venus 分布式计算平台上。由于 MIX 具备工程设计极佳的多信道信息交叉,因此在 WikiQA 英文数据集上的评估结果显示:MIX 在归一化折扣累计增益(normalized discounted cumulative gain,NDCG@3)指标上优于大量当前最优深度神经网络模型,至少高出 11.1%。

此外,我们还利用腾讯 QQ 浏览器的搜索服务使用户执行了在线 A/B 测试。结果显示 MIX 将返回结果点击量提高了 5.7%,原因在于 query-document 匹配准确率有所提高,这展示了 MIX 在现实生产环境中的优秀性能。

理论自然语言处理论文腾讯
21
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

线搜索技术

最优化问题中,线搜索是一种寻找目标函数 的局部最小值 的近似方法。 它是最基础的迭代近似方法之一,另一种是置信域方法。 线搜索近似首先找到一个使目标函数 下降的方向,然后计算 应该沿着这个方向移动的步长。 下降方向可以通过多种方法计算,比如梯度下降法,牛顿法和拟牛顿法。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

分布式计算技术技术

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

A/B 测试技术

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
在网上好像尚未发现原文,楼主可否提供一个paper链接