云从科技联合上交大提出DCMN匹配机制,刷新机器阅读理解记录

2019年3月8日,云从科技联合上海交通大学发布论文,宣布在自然语言处理(NLP Neuro-Linguistic Programming)上取得重大突破,该研究在大型深层阅读理解任务数据集RACE数据集(ReAding Comprehension dataset collected from English Examinations)登顶第一。

在此论文中,云从科技与上海交通大学基于原创DCMN算法,提出了一种全新的模型,使机器阅读理解正确率提高了4.2个百分点,在高中测试题部分超越人类水平(机器正确率69.8%、普通人类69.4%)。

云从科技表示,这一研究成果,在应用领域搭配文字识别OCR/语音识别技术后,NLP将会帮助机器更好地理解人类文字/语言,并广泛应用于服务领域:帮助企业判断客户风险、审计内部文档合规、从语义层面查找相关信息;在社交软件、推荐引擎软件内辅助文字审阅工作,从枯燥的人工文字工作中解放人类

突破语义理解瓶颈

此次云从科技和上海交通大学在自然语言处理(NLP)领域的深度阅读理解上登顶RACE排行榜第一名。RACE是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约28000个文章以及近100000个问题。它的形式类似于英语考试中的阅读理解(选择题):给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从四个选项中选择正确的答案(Answers)。该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理,选出正确答案。相对以往的抽取类阅读理解,算法要求更高,被认为是“深度阅读理解”

RACE数据集的难点在于:由于正确答案并没有直接使用文章中的话术来回答,不能直接从文中检索得到答案。必须从语义层面深入理解文章,才能准确回答问题。

云从科技是怎么让机器在庞大的题库文章中(28000个)找到正确答案的呢?

据介绍,云从科技与上海交通大学首创了一种P、Q、与A之间的匹配机制,称为Dual Co-Matching Network(简称DCMN),并基于这种机制探索性的研究了P、Q、与A的各种组合下的匹配策略。

结果显示,采用PQ_A的匹配策略,即先将P与Q连接,然后与A匹配,策略都得到了更优的结果。

再将模型(基于PQ_A策略)与其他已知的模型、以及纯粹基于BERT自身的模型进行了比较,得到如下的结果:

红框部分是上海交大与云从科技的结果,红框以上部分是人类学生的结果,红框以下是其他模型的结果。在黑框中,上海交大与云从科技部分优于人类

从RACE leaderboard上结果比较可以得到以下结论:

  • 云从科技与上海交大的单体模型就已经超越榜单上所有的单体或Ensemble模型;
  • 云从科技与上海交大的Ensemble模型在高中题目(RACE-H)部分优于人类结果(Turkers)。

以下是对此论文的技术介绍:

论文标题:Dual Co-Matching Network for Multi-choice Reading Comprehension



地址:https://arxiv.org/pdf/1901.09381.pdf

  1. DCMN匹配机制

以P与Q之间的匹配为例,说明DCMN的匹配机制。下图为P与Q之间的DCMN匹配框架。

云从科技和上海交大使用目前NLP最新的研究成果BERT分别为P和Q中的每一个Token进行编码。基于BERT的编码,可以得到的编码是一个包含了P和Q中各自上下文信息的编码,而不是一个固定的静态编码,如上图中Hp与Hq

其次,通过Attention的方式,实现P和Q的匹配。具体来讲,是构建P中的每一个Token在Q中的Attendances,即Question-Aware的Passage,如上图中Mp。这样得到的每一个P的Token编码,包含了与Question的匹配信息;

为了充分利用BERT带来的上下文信息,以及P与Q匹配后的信息,将P中每个Token的BERT编码Hp,与P中每个Token与Q匹配后的编码Mp进行融合, 对Hp和Mp进行了元素减法及乘法操作,通过一个激活函数,得到了P与Q的最终融合表示,图中表示为Spq; 

最后通过maxpooling操作得到Cpq,l维向量,用于最后的loss计算。

  1. 各种匹配策略研究

除了P与A之间的匹配之外,还可以有Q与A、P与Q之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行了试验,以找到更加合适的匹配策略,分别是:[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]

“PA”表示先将P和A连接为一个序列,再参与匹配,“PQ”与“QA”同理。符号“[ ; ]”表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A]模式下的模型架构如下图:

7种不同策略通过试验,采用PQ_A的匹配策略,即先将P与Q连接,然后与A匹配,无论是在初中题目(RACE-M)、高中题目(RACE-H)还是整体(RACE),该策略都得到了更优的结果。


理论语义理解RACENLP机器阅读理解上海交通大学论文云从科技
2
相关数据
云从科技机构

云从科技是从中国科学院孵化的人工智能企业,专注于人脸识别等计算机视觉技术研发。核心技术源于四院院士、计算机视觉之父——Thomas S. Huang 黄煦涛教授。研发团队曾于2007年到2016年7次斩获智能识别类世界大赛冠军。云从科技作为中国科学院战略性先导科技专项的唯一人脸识别团队,参与了人脸识别国标、部标、行标起草与制定; 2017年2月,云从科技入选国家发改委重大工程,与百度、腾讯、科大讯飞共同负责人工智能公共平台建设。

http://www.cloudwalk.cn/
基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~