空崖作者

揭秘!机器人和你对话时在想什么?

阿里妹导读:为什么聊天机器人越来越普及?聊天机器人不仅可以节省时间,提升效率,还能一天24小时提供服务,更是可以减少误差。聊天机器人背后的问题原理是什么?效率如何提升?就是今天我们要了解的内容。本篇内容已被收录于ACL2019,希望对你有所帮助。

本篇内容已被ACL2019收录“Simple and Effective Text Matching with Richer Alignment Features”。

1.背景

在Chatbot整体解决方案中, 既有面向任务型的taskbot(诸如订机票、查天气等), 也有更偏向知识问答的qabot,而在客服场景下,最基础的类型也是这类。如果从知识库的形式来区分qabot,可以有 基于「文档」的doc-qabot、基于「知识图谱」的kg-qabot、基于「问答对」的faq-qabot等。我们这里重点关注的是最后一种faq-qabot(也简称faqbot), 这种形式的方案对用户而言易理解易维护,也是目前chatbot解决方案中不可缺的一部分。

faqbot就是将query匹配到一条「问答对」上,从技术的角度看,有两大类方法, 一是text classification, 二是text matching,它们各有适合的场景,前者适合咨询量大且比较稳定的faq,后者适合长尾或时常变化的faq。

店小蜜是我们提供给阿里平台商家的一套智能客服解决方案。在店小蜜中, 基于Faq的问答是个很基础的部分,我们在这个领域,在文本分类和文本匹配上进行了各方面的研究和实践, 在本篇中重点对文本匹配的基础模型进行介绍。

「文本匹配」是NLP方向的一个重要研究领域,有着悠久的历史,很多NLP任务都与此相关,比如 natual language inference、parahparase identification、answer selection等,都可以归结成「文本匹配」问题。

有很多人研究这个课题, 当前优秀的匹配模型有哪些?这些模型有什么异同?这些模型存在哪些问题?这些都是我们展开这个项目需要先分析和回答的问题。我们通过分析SNLI榜单上的模型,有几个结论:

  • 优秀的匹配模型都可以归纳成embed-encode-interacte-aggregate-predict五个步骤, interact部分主要是做inter-sentence alignment;
  • 在interact步骤中的对齐操作,设计会比较复杂;而且很多模型只有一次interact步骤;
  • 也有些更深的模型结构,会做多次的inter-sentence alignment, 但因为较深的模型面临着梯度消失、难以训练的问题;
  • 不管是参数量还是响应时间,支撑像店小蜜这样对实时性能要求比较高的场景,都不是很理想。

所以我们在设计的时候, 要求我们的模型在更少的参数量、更简洁的模型结构、更少的inference cost, 保证更容易训练、更适合部署到生产环境, 在这几个前提下, 我们也希望能借鉴深层网络的优势,让我们可以很方便地加深我们的网络层次, 让模型有更强的表达能力。

2.模型

我们通过对学术界提出的各种模型,诸如Decomposable Attention Model、CAFE、DIIN等, 归纳总结,一个匹配模型的整体框架基本上有Embedding Layer、Encoder Layer、Interaction Layer、Aggregation Layer和Prediction Layer五层, 只是每一层都有不同的设计,我们实现一种可插拔的匹配模型框架, 每层都有一些典型的实现。
为了增强我们模型框架的表达能力, 我们将Encoder+Interaction Layer打包成一个Block, 通过堆叠多个Block, 通过多次的inter-sentence alignment,可以让我们的模型更充分地理解两句文本之间的匹配关系。
我们基于这种框架,通过大量试验得到一个模型结构RE2, 可以在各类公开数据集、和我们自己的业务数据上都能得到最优的结果,如下图所示。

RE2包括有N个Block, 多个Block的参数完全独立。在每个Block内有一个encoder产出contextual representation, 然后将encoder的输入和输出拼在一起,做inter-sentence alignment,之后通过fusion得到Block的输出。第i个Block的输出,会通过Augmented Residual Connection的方式与这个Block的输入进行融合, 作为第i+1个Block的输入。

下面我们详细介绍每个部分:

2.1 Augmented Residual Connection

连续的Block之间用Augmented Residual Connection来连接, 我们将第n个Block第i个位置的输出记作:是个全零的向量。


第一个Block的输入为, 也就是Embeddling Layer的输出, 在Augmented Residual Connection中,第n个block的输入为:


其中 [;] 表示拼接操作;

在interaction layer的输入中,存在三种信息, 一是original point-wise information, 在这里就是原始的词向量,在每个Block中都会使用这份信息;二是通过encoder编码得到的contextual information;三是之前两层Block经过对齐加工过的信息。这三份信息,对最终的结果都有不可替代的作用, 在试验分析中会展显这一点。在我们这里encoder使用两层CNN(SAME padding)。

2.2 Alignment Layer

这块我们使用Decomposable Attention Model(Parikh et al., 2016)的对齐机制:


2.3 Fusion Layer


这块我们参考CAFE中对concat、multiply、sub三个操作分别通过FM计算三个scalar特征值, 我们针对这三个操作, 用独立的三个全连接网络计算三个vector特征, 之后将三个vector拼接并用进行projection。

2.4 Prediction Layer

输出层就比较常规,针对文本相似度匹配这类任务, 我们使用对称的形式:


针对文本蕴含、问答匹配这类任务, 我们使用

其中H表示多层全联接网络;

3.试验

3.1 数据集

要验证模型效果,我们选择三类NLP任务, Nature Language Inference、Paraphrase Identification、Question Answering, 选用SNLI、MultiNLI、SciTail、Quora Question Pair、Wikiqa这样几份公开数据集。评估指标,前两个任务选用Acc, 后一个任务选择MAP/MRR。


3.2 实现细节

我们用Tensorflow实现模型, 用Nvidia P100 GPU 训练模型, 英文数据集使用NLTK分词并统一转小写、去除所有标点。序列长度不做限制,每个batch中的序列统一pad到这个batch中最长序列长度,词向量选用840B-300d Glove向量,在训练过程中fix住,所有OOV词初始化为0向量,训练中不更新这些参数。所有其他参数使用He initialization, 并用Weight normalization归一化;每个卷积层或全联接层之后,有dropout层,keep rate设为0.8;输出层是两层前馈网络;Block数量在1-5之间调参。

在这几份公开数据集上, 隐层大小设为150;激活函数使用GeLU激活函数。优化算法选用Adam,学习率先线性warmup然后指数方式衰减,初始学习率在1e-4~ 3e-3之间调参;batch size在64~512之间调参。


3.3 结果


我们在这几份公开数据集上,均取得state-of-art的结果(不使用BERT的情况下):



同样这个模型性能上也有很良好的表现,参数量和inference speed都有很强的竞争力, 从而可以在我们店小蜜这样的工业场景中得到广泛应用,给我们匹配准确率这样的业务指标上带来显著的提升。



3.4 结果分析


★ 3.4.1 Ablation study


我们构造了四个baseline模型, 分别是:


  • 1) w/o enc-in: alignment layer只使用encoder的输出;
  • 2) w/o residual:去除所有block之间的residual 连接;
  • 3) w/o enc-out: 去除所有encoder,alignment layer只使用block的输入;
  • 4) highway: 使用highway 网络融合encoder的输入和输出,而不是直接拼接。



在SNLI上得到的结果如图所示。通过1)3)和完整模型的对比, 我们发现alignment layer只使用encoder的输出或只使用encoder的输入,都会得到很差的结果,说明原始的词向量信息、之前Block产出的align信息、当前Block中encoder产出的上下文信息,对最终的结果都是缺一不可的。通过2)和完整模型的对比,我们发现Block之间residual连接发挥了作用;而4)和完整模型的对比显示,我们直接拼接的方式是个更优解。


★ 3.4.2 Block数量的影响

如上图所示,通过Augmented Residual Connection连接的网络,更容易在深层网络中生效,能够支撑更深的网络层次,而其他baseline 模型,在Block数量大于3时, 效果会有很明显的下降,并不能支撑更深层模型的应用。


★ 3.4.3 Occlusion sensitivity


前面讲过, 在alignment layer的输入中,其实是三类信息的拼接:原始的词向量信息、之前Block产出的align信息、当前Block中encoder产出的上下文信息, 为了更好地理解这三份信息对最终结果的影响,我们参照机器视觉中相关工作, 进行了Occlusion sensitivity的分析。我们在SNLI-dev数据上,使用包含3个Block的一个RE2模型,分别将某层Block中alignment layer输入特征的某部分mask成0向量,然后观察在entailment、neutral 、 contradiction三个类别上的准确率变化:



可以得到几个分析结论:


  • mask原始的词向量信息, 会对neutral和contradiction类的识别带来比较大的损失, 说明原始词向量信息在判断两个句子差异性上发挥着重要作用;
  • mask之前Block产出的alignment信息, 会对neutral和contradiction类带来比较大的影响,尤其是最后一层Block的这部分信息对最终的结果影响最大, 说明residual connection使得当前Block能更准确地关注应该关注的部分;
  • mask住Encoder的输出结果, 对entailment的影响更大,因为encoder是对phrase-level 的语义进行建模, encoder的产出更有助于entailment的判断;


★ 3.4.4 Case study



我们选了一个具体的case分析多层Block的作用。

这个case中, 两句话分别是“A green bike is parked next to a door”“The bike is chained to the door”。在第一层Block中,是词汇/短语级别的对齐, 而“parked next to”和“chained to”之间只有很弱的连接,而在第三层Block中, 可以看到两者已经对齐, 从而模型可以根据“parked next to”和“chained to”之间的关系,对两句话整体的语义关系做出判断。从中也可以看到,随着Block的递增, 每层Block的alignment关注的信息都随之进行着调整,通过不止一次的alignment, 可以让模型更好地理解两句话之间的语义关系。


4. 业务结果


在店小蜜中,自定义知识库是由商家维护,我们提供知识定位方案;在店小蜜无法给出准确回复时, 我们会推荐相关知识,这里的文本匹配模型,也主要用在店小蜜的这两个业务模块。我们重点优化了7个大类行业模型(服饰、美妆洗护、鞋、电器、茶酒零食、母婴、数码)、一个大盘基础模型和相关知识推荐模型。在保证覆盖率的情况下, 7类主营行业准确率从不到80%提升到89.5%,大盘基础模型准确率提升到84%,知识推荐有效点击从14%左右提升到19.5%。


店小蜜自定义知识库后台配置:




店小蜜旺旺咨询示例:




总结展望


我们在工业场景下,实现了一个简洁同时具有很强表达能力的模型框架,并在公开数据集和业务数据集上取得很好的结果。


  • 这种「通用」的语义匹配模型,已经对当前的业务带来很大的提升, 但是,针对店小蜜这样的业务场景, 是否在不同行业不同场景下可以得到更合适更有特色的解决方案,比如融合进商品知识、活动知识等外部知识做文本匹配。
  • 怎么进一步完善FaqBot的技术体系,比如在文本分类、Fewshot分类等方向,也是我们团队的一个重点工作。
  • 随着BERT模型的出现,NLP各项任务都达到了新的SOTA。然而BERT过于庞大,对计算资源的需求很高,因此我们想利用Teacher-Student框架将BERT模型的能力迁移到RE2模型上。


最后, 我们是达摩院-智能服务-小蜜FAQ算法团队, 如果想了解更多最新进展,欢迎邮件联系 gaoxing.gx@alibaba-inc.com ,也欢迎业界优秀青年加入我们,用AI重塑服务~

阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
工程知识库知识图谱聊天机器人
1
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

暂无评论
暂无评论~