Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

QQ浏览器实验室作者

ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减

这篇ACL 2022研究提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。

作为国际最受关注的自然语言处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,于 5 月 22-5 月 27 举办。受到疫情影响,国内 NLP 从业者参与大会受到很多限制。

为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心在 5 月 21 日组织了「ACL 2022 线上论文分享会」。

腾讯 QQ 浏览器搜索技术部高级工程师唐萌为我们带来了论文《Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents》分享。该论文已被 ACL 2022 接收。

以下是唐萌论文分享的回顾视频。本文也对该论文核心内容进行了介绍。

论文地址:https://arxiv.org/abs/2203.02898

文本语义匹配是一项被广泛应用到各种场景的基本任务,如社区问答、信息检索和推荐等。最新的匹配模型,例如 BERT,通过统一处理每个词来直接进行文本的比较。然而,查询语句通常需要在不同的粒度上与内容进行匹配。具体的,关键词代表了应该严格匹配的事实信息,如动作、实体、事件。而意图词则表达了抽象的概念和想法,通常有多种表达方式。在这项工作中,我们提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。我们的方法可以很容易的与预训练语言模型(PLM)相结合,不影响其推理效率。在三个基准集上,实现了在广泛 PLM 模型上的稳定效果提升。

DC-Match 匹配,可以很容易的与文本匹配分类模型相结合。它包括三个训练目标,即: 全局匹配模型的分类损失;基于远程监督的分类损失,用于区分出关键词和意图;遵循分治思想的特殊训练目标,使用 KL-divergence 来确保全局匹配分布 (原始问题) 与分离开关键词和意图 (子问题) 后所得出的组合分布是相似的。

1、基于 PLMs 的文本语义匹配

首先, 我们定义文本语义匹配任务,即给定两个文本序列,文本语义匹配的目标是学习一个分类器来预测序列是否是语义等价的。这里代表两个序列中第 i 个和 j 个词,代表两个序列的长度,y 可以是二分类的目标来预测两个序列是否等价,也可以是多分类目标来反映文本序列的匹配程度。

最近,预训练语言模型 (PLM) 在文本理解和表征学习方面取得了显著的成功。它们在具有启发式自监督学习目标的大规模文本语料库上被预训练,然后被作为强有力的序列分类器在下游分类任务中被 fine-tuning。对于文本语义匹配任务,通常通过增加来连接,并作为 PLM 编码器的输入序列。是每个序列前面的一个特殊标记,这个标记对应的最终隐藏状态作为整个序列的表示。在 fine-tuning 阶段,仅引入分类层来进行最终的预测。这里代表可训练的权重,K 代表分类的类别数:


最后,我们计算微调的标准分类损失如下:


2、基于远程监督分离出关键词和意图

我们假设每个句子都可以分解为关键词和意图。直观地说,关键词代表事实信息,例如应该严格匹配的动作和实体,而意图传达可以用不同方式表达的抽象概念或想法。通过将关键字从意图中分离出来,匹配过程可以分成两个更容易的子问题,这两个子问题需要不同级别的匹配粒度。

在缺乏人工标注数据的前提下,为了自动的分离开关键词和意图, 我们借鉴了远程监督方法。我们通过引入外部知识库中的实体, 来提取原始文本中的实体提及来自动生成关键词标签。所有提取的实体被标记为关键词,句子中的剩余单词被标记为意图。在获得弱标签信息后,我们添加一个辅助训练目标,迫使模型学习分离出关键字和意图。

给定 PLM 的输出,我们把输出分为两组, 分别对应关键词分类和意图词分类两个目标,分类目标的损失函数如下, 其目标是推动 PLM 学习关键字和意图的表示, 使得它们彼此远离, 使得模型可以在不同的粒度上对句子内容进行建模:



3、分治匹配策略

我们将原匹配问题分成两个更容易的子问题: 关键词匹配和意图匹配,并假设它们相互独立,然后将子问题的解组合起来,给出原问题的解。

我们假设每个子问题遵循与原问题相同的目标,组合得到的概率分布 Q(y)可以从两个子问题的联合概率分布 P(yk, yi) 导出, 如下:


其中,表示匹配度的目标类别,意味着具有比更高的匹配分数。例如,在三类场景中,y ∈ {2,1,0}分别表示完全匹配、部分匹配和不匹配,Q(y = 0)即至少有一个子问题被推断为不匹配的概率。

为了对子问题建模,我们重新使用 PLM 模型来分别对关键词和意图进行匹配,并且获得条件概率代表 mask 掉意图的文本序列,代表 mask 掉关键词的文本序列。那么,在独立子问题的假设下,的条件联合分布为:


最后,为了确保全局匹配分布 (原始问题) 与子问题的组合解分布相似,我们使用双向 KL - 散度来最小化两个分布之间的距离,通过这种方式,我们期望全局匹配模型学会更好地做出最终预测:


训练和推理

在训练阶段,我们结合三个损失函数来联合训练模型:


在推理时,我们根据原问题的条件概率直接推断句子对的匹配类别,即:


这意味着我们的推理过程与 PLM 基线完全相同,没有额外的计算。虽然我们使用外部语料库来自动获得远程监督的标签,但它可能会导致信号不完整或有噪声,从而给子问题引入偏差。因此,,我们只在训练阶段使用其标签作为全局匹配模型的辅助信息来进行增强。

实验

在实验阶段, 我们在三个文本语义匹配基准上评估了我们的方法和所有基线:两个英文数据集 MRPC 和 QQP,以及一个中文数据集 Medical-SM。为了公平比较,我们使用相同的超参数来微调每个 PLM 的原始版本及其 DC-Match 变体。

实验中,模型分为两组。第一组是传统的神经网络方法,第二组是受益于大规模预训练的 PLMs。我们可以看到,PLMs 的表现优于传统的神经匹配模型。

我们对不同的 PLMs 进行了实验。数据可见,所有 PLMs 的匹配精度在两个数据集上都稳定增加。这表明,通过将匹配问题分解成更容易的子问题,这种分治策略可以有效地给出原问题更好的解决方案。尤其我们可以看到,DC-Match 策略为小数据集 MRPC 带来了更显著的效果提升。这表明关键词和意图的信息是文本语义匹配的重要特征。尤其是当训练数据有限而无法找到有用的潜在模式时。


此外,我们在中文文本匹配数据集 Medical-SM 上评估了我们的方法。Medical-SM 是一个三级分类数据集,也即完全匹配、部分匹配、不匹配。除了 acc 之外,我们还使用 MacroF1 来作为评估指标。从表中看到 DC-Match 仍然提高了 PLMs 的匹配效果,表明我们的策略在多分类场景和不同语言中都是非常有效的。


消融实验

我们通过消融实验来论证每个子模块的有效性。以 roberta 模型为主模型,从图中数据可以得出,在仅添加了关键词和意图识别远程监督损失 (+Lds) 之后,结果与原始 PLMs 没有显著不同。这反映了该辅助训练目标不能与原始文本匹配问题直接关联,因此 Lds 本身可能对最终目标没有帮助。然而,我们任务中移除 Lds,仅保持分治的训练目标(+Ldc),我们观察到与完整的 DC-Match 版本相比,效果有所下降。

这说明,远程监督目标确实有助于模型学会将关键字从意图中分离出来,并获得不同匹配粒度级别的有区别的内容表示,这有助于子问题的解决。



鲁棒性实验

分治策略将关键字从意图中分离出来,为最终的匹配判断提供了额外的可解释性。我们通过进行多中文变化来评估 DC-Match 鲁棒性。我们观察到原始 PLM 和它们的 DC-Match 变体的效果都有所下降。然而,与原始 PLMs 相比,DC-Match 增强后的 PLMs 可以保持更稳定的效果,这表明 DC-Match 可以在一定程度上提高 PLMs 对于文本语义匹配任务的鲁棒性。


关于 QQ 浏览器实验室

QQ 浏览器实验室成立于 2021 年,致力于探索下一代信息与服务获取和交互方式。未来将依靠 AI、搜索、大数据、推荐算法的技术研究,提升信息与服务的获取效率,革新用户与世界的交互方式,成为探索下一代信息与服务获取方式和交互方式的研究平台。
理论搜索ACL 2022QQ浏览器
相关数据
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

语义等价技术

在计算机元数据中,语义等价是来自不同词汇表的两个数据元素包含具有相似含义的数据的声明。

远程监督技术

该方法由 M Mintz 于 ACL2009 上首次提出,与传统预先定义关系类别不同,Distant Supervision 通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。

意图识别技术

意图识别指理解说话人的意图 。

推荐文章
暂无评论
暂无评论~