AAAI20 基于关键词注意力机制和回复弱监督的医疗对话槽填充研究

论文名称:Understanding Medical Conversations with Scattered Keyword Attention and Weak Supervision from Responses

论文作者:施晓明,胡海峰,车万翔,孙钟前,刘挺,黄俊洲
原创作者:施晓明
下载链接:http://ir.hit.edu.cn/~car/papers/AAAI2020-Shi-medconv.pdf

(本工作完成于腾讯公司实习期间)    

1. 医疗对话槽填充任务简介

语音识别自然语言处理的最新进展促进了口语对话系统(Spoken Dialogue System)作为信息访问自然接口的广泛应用,其中典型的应用包括自动化呼叫中心及智能设备的虚拟助理。口语对话系统中的一个关键组成部分是口语理解(Spoken Language Understanding),旨在将自然语言解析为计算机能够有效处理的逻辑语义表示。槽填充(Slot Filling)是其中一个重要的模块,通常被视为一个结构化预测问题,其中有监督学习算法,特别是递归神经网络(RNN)获得了比较好的效果。传统的槽填充是根据预先设定好的领域词对用户问句进行序列标注,标注其中领域相关的核心词,从而从预测的标注中提取出结构化的语义表示。

在医疗领域,用自然语言与患者交流以询问症状、病史、个人信息等的对话系统也吸引了越来越多的关注[1][2]。本工作将研究重点放在医疗对话系统中的槽填充任务上。医疗对话槽填充旨在将存在口语表述和医学实体的对话解析为逻辑语义表示,如图1所示。

图1 医疗对话槽填充的一个例子 

2. 任务挑战

与传统领域的槽填充任务相比,医疗对话槽填充主要面临两个挑战。一是医学对话数据不对齐,即结构化语义表示中槽值在原始问句中没有显式地出现,造成不能以传统的序列标注任务来建模。不对齐的问题主要来自两个方面:患者的口语表达和分散的关键词,具体地说,绝大多数患者不通医术,患者的病情陈述是用口语表述来描述的,表述用词与医学专业术语存在差异,同时患者与患者的表述之间也存在表达习惯和方言上的差异;第二类来源是患者总是以无序的顺序陈述自己的健康状况,从而分散了单一医学术语。如图2中的例子,“腹痛”在用户陈述中被以“肚子”和“痛”这样的口语话表述方式分散表示。

图2 医疗对话数据与标注之间不对齐现象的一个例子第二个挑战是精标注的医疗对话数据难获取。医疗对话数据标注需要具备专业医学知识的标注人员,这些标注人员必须具备专业的医学知识,导致注释成本高。

3. 方法介绍

由于医疗对话数据和标注不对齐的问题,不能以传统的序列标注任务来建模。因此,我们将该任务定义为多标签分类问题,其中输入为医疗对话数据,输出为该语句的语义结构化表示。此外,为了更好地识别患者口语化表述中的不连续关键词,我们使用了关键词注意力机制,旨在使得模型对医学关键词更加敏感。

面对数据标注成本高的挑战,我们利用大量无标注数据,将回复作为问句的弱标注信息,从而减少对于精标注数据的需求。具体来说,在线医学社区中存在着大量的医学对话,医生总是在他们的回复中用专业化的表达来复述病人的症状,这很容易通过字符串匹配医学知识库中的医学概念来获得医学术语。如图2中的示例,医生提到了槽值“腹痛”,而该术语正是患者陈述的病症。因此,基于医生回复中的医学术语与病人的询问密切相关的直觉,我们提出了一种新的方法,将医生回复中的医学实体作为模型预训练的目标,然后再在标注良好的数据上进行精调。

3.1 关键词注意力机制

本节将介绍关键词注意力机制。关键词注意力机制旨在识别与槽填充任务高度相关的词。模型如图3所示。

图3 关键词注意力机制示意图

3.2 患者陈述编码及分类

编码器的目的是将自然语言输入请求转换为实值向量。我们使用几类文本分类编码器对输入自然语言序列进行编码,包括TextCNN[3]、RCNN[4],TextRNN[5],DRNN[6],RegionEmbedding[7],和Star-Transformer[8]。

3.3 模型预训练与精调

我们在无标注数据集上对分类器进行预训练,这个过程中将无标注数据回复中的医学实体词作为标签。然后在小量精标注数据集中对所学习的模型进行精调。该模块如图4所示。

图4 模型预训练与精调框架图

3.3.1 弱监督数据用于预训练

医生的回答常常用正式的医学术语复述患者的症状,因此包含了与患者健康状况相关的医学术语。基于这种直觉,可以将医生的回答作为患者病情陈述的弱监督。同时,弱监督方法充分利用了未标注的数据,有助于降低标注成本。尽管使用无标注数据进行预训练可能会导致模型无法学习准确的标签,但它可以帮助模型消除大多数负面标签。在这之后,预训练得到的模型将根据标注良好的数据进行精调。

3.3.2 精标注数据用于模型精调

在上个阶段,分类模型已经学习了无标注数据的相关槽值信息(即已预训练),然后将模型训练在精标注数据上进行再训练。无标注数据预训练步骤有助于模型消除大多数负面标签,而精调步骤旨在根据精标注数据,使模型更准确地分类。

4. 实验结果及分析

4.1 实验数据

为了对任务进行更好地研究,我们从在线医疗平台上爬取了大量的医疗问诊对话,并对少量对话数据进行了标注,对于无标注数据,我们将回复与医学知识库匹配得到医学实体词。该数据集统计如表1所示。

表1 数据集统计信息

4.2 实验结果

在该数据集上我们对各分类器都进行了实验,主要结果如表2所示。我们使用10000个无标注的数据进行预训练,并使用所有标注数据进行模型精调。在表中,“A”表示添加关键词注意力机制,“WS”表示使用无标注数据。

表2 主要实验结果

将原始分类器与添加关键词注意力机制的分类器进行比较,可以发现在Micro F1和Macro F1上,添加关键词注意力机制的模型分别比原始分类器的性能提高了3.12%和3.92%。这说明关键词注意力机制可以显著提高模型的性能。此外,关键词注意力机制在Macro F1上比在Micro F1上有更大的提高。这表明关键词注意力机制可以帮助模型在频次低的标签上改进更多。此外,关键词注意力机制使模型的召回率提高了5.27%,说明关键词有助于识别测试时训练数据中看不到的口语表达。这些结果表明,对分散的医学关键词给予更多的权重是提高任务效果的有效途径。

通过对弱监督预训练分类器的性能分析,我们可以发现弱监督预训练方法对Micro F1和Macro F1分别提高了3.36%和6.78%,效果提升显著。无标注数据包含更多的低频标签,这使得Macro F1获得了更大的提升,同时,召回率也得到进一步的提高。原因可能是无标注数据包含了更多不同的口语表达,这些口语表达在标注的数据中没有出现,这导致模型可以识别在训练数据中没有看到的实例。所有这些结果表明,将医生回复作为患者病情陈述的弱监督是有效的。

图5 精标注数据对于结果的影响我们尝试分析在固定的无标注数据时,精标注训练数据量的影响。如图5所示,红线表示经过预训练的TextCNN分类器的性能,绿线表示训练数据量分别为500、600、700、800、900的原始TextCNN分类器的性能。

结果表明:1)当标注数据量较小时,弱监督会导致更多的提升;2)无标注数据的弱监督信息总是有助于模型获得更好的性能。由此可见,医生回复中的弱监督信息是十分有用的。

5. 总结

本文针对医疗槽填充任务的两个挑战,提出了关键词注意力机制和医生回复弱监督的方案。实验表明,该方法能显著提高模型的性能。今后,我们将从回复弱监督的角度,进一步完善数据,进而尝试更多的方式来提高医疗槽填充任务的性能。

参考文献

[1] Wei, Z.; Liu, Q.; Peng, B.; Tou, H.;Chen, T.; Huang, X.; Wong, K.-F.; and Dai, X. 2018. Task-oriented dialogue system for automatic diagnosis. In Proceedings of ACL 2018,201–207.

[2] Xu, L.; Zhou, Q.; Gong, K.; Liang, X.;Tang, J.; and Lin, L. 2019. End-to-end knowledge-routed relational dialogue system for automatic diagnosis. AAAI.

[3] Lai, S.; Xu, L.; Liu, K.; and Zhao, J.2015. Recurrent convolutional neural networks for text classification. In AAAI 2015.

[4] Liu, P.; Qiu, X.; and Huang, X. 2016.Recurrent neural network for text classification with multi-task learning. arXiv preprint arXiv:1605.05101.

[5] Yin, W., and Schu ̈tze, H. 2018. Attentive convolution: Equipping cnns with rnn-style attention mechanisms. TACL 6:687–702.

[6] Wang, B. 2018. Disconnected recurrent neural networks for text categorization. In Proceedings of ACL 2018, 2311–2320.

[7] Qiao, C.; Huang, B.; Niu, G.; Li, D.;Dong, D.; He, W.; Yu, D.; and Wu, H. 2018. A new method of region embedding for text classification. In ICLR.

[8] Guo, Q.; Qiu, X.; Liu, P.; Shao, Y.;Xue, X.; and Zhang, Z. 2019. Star-transformer. In Proceedings of NAACL-HLT 2019, 1315–1325.

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论对话系统注意力机制
相关数据
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
推荐文章
暂无评论
暂无评论~