杨雪峰作者

追一科技杨雪峰博士WOT演讲:阅读理解应用与挑战

在解决搜索的最后一公里上,人类一直在不断探索,从自动摘要知识图谱到机器阅读理解。追一科技高级研究员杨雪峰博士在WOT大会上,分享机器阅读理解的前沿动态,企业服务落地应用中的困难与挑战。

WOT2018全球人工智能技术峰会11月30-12月1日在北京召开。通用技术、应用领域、行业赋能三大章节,13大技术专场,60+国内外一线人工智能精英大咖站台,分享人工智能的平台工具、算法模型、语音视觉等技术主题,助力人工智能落地。

追一科技亮相盛会,分享在前沿AI技术研发应用上的探索。追一科技高级研究员杨雪峰博士受邀主持WOT机器学习分论坛,并发表了「阅读理解技术探索与企业服务中的应用」主题演讲,介绍了机器阅读理解的前沿动态和研究突破,应用落地中,追一科技如何解决诸如冷启动、高并发和拒绝回答等一系列挑战。

「从搜索引擎的下一步,到今天在企业服务中多种探索应用,阅读理解是目前自然语言处理里面新兴的、非常有挑战、非常有实际意义的场景」。杨博士表示,在阅读理解上,模型的复杂程度、数据量级等,都给了大家很大的操作空间,包括科技巨头等都对阅读理解趋之若鹜,纷纷刷榜各种比赛。

杨博士介绍说,追一科技也在努力探索阅读理解的应用落地,包括客服培训、专业咨询、儿童教育等知识问答领域,都有阅读理解的应用场景,但同时也面临很多的挑战,比如冷启动阶段的数据处理,金融私有化环境下如何提速、高并发,获取新模型等等。

“我们会应用多种技术方案,实现综合效果的最优化。”杨博士介绍说,追一会尽量提供给用户智能化的简单有用的平台,启动之后,能够不断的循环和滚动优化,后续运营起来会越来越简单。

以下为杨博士在本次WOT大会分享摘要:

阅读理解解决了什么?

杨雪峰博士在WOT演讲

机器阅读理解有很多形式,通俗的说就是针对给定的问题,从段落、上下语境中找到答案,答案可以是很多种形式,一个词、片段、数字、符号都有可能,答案还有可能不在原先文本中,需要去总结出来的答案,这都是阅读理解的不同的形式。

需要找到答案的形式不同,难度也是有很大区别的。

再说一下机器阅读理解本身的意义。在解决搜索的最后一公里上,人们不断探索,从自动摘要知识图谱到机器阅读理解。

如果从实际角度来说,搜索引擎公司是最关注阅读理解的。之前大家经常会说“搜索引擎目前还不够好,大家在下一步要走向何方”?在比较早的时候,大家会说自动摘要Summarization是一个特别重要的方向。把搜集到的网页提取出一个摘要、简略的描述,用户在搜索的时候,不点击进网页就可能知道网页是不是他想要的东西,主题是不是他关心的。

后来在2012年的时候,谷歌将本体语义网的技术应用到搜索场景之中,而且重新起了一个名字Knowledge Graph,特别火爆,直接替代了在学术界惯用的一些名词,现在成为了知识图谱语义网、本体这些技术的统称。

Knowledge Graph可以让我们直接从结构化或者是非常半结构化的数据里面找到针对问题的具体场景的答案。但是它的作用还是有限的,因为知识必须存储在已经处理好的可以人工提取或者半自动提取的知识库里。它的成本是很高的,只能处理你处理过的东西。

阅读理解帮助我们从一个完全无结构的文本当中,找到想要的答案。可以是一个网页、一段文字、APP下的描述性文字,甚至是微信文章。直接帮你从网页里面去找到你最希望要的答案,可能是一个数字。比如问姚明身高,用知识图谱,可能直接里面存了一个节点,姚明这个实体和属性身高,就是一个具体值。如果没有这个知识,但是在网站百科或者某一个页面里有介绍姚明,介绍了身高多少,这时候用阅读理解技术一样去解决这个问题。

目前对这些技术最感兴趣的就是各大搜索巨头,包括百度、谷歌、微软

阅读理解场景应用

结合追一科技这块的探索,分享几个阅读理解的场景。

第一个是,需要快速教育引导新员工的场景。比如客服,是流动性很强的群体,而企业希望新人可以尽快的上岗。涉及读一些操作手册、业务常用文档,阅读理解就可以起到作用。真实线上应用的时候,阅读理解可以实时帮助员工,针对相关问题从需要学习的文档中找到答案,解决问题,避免犯错,从而尽快上岗。

还有在很多金融领域里面一些专业咨询。比如说买某只基金、咨询一些问题的时候,客户经理或者经纪,有些东西一样是要查询,如果有当时的文档和数据,也可以直接用阅读理解的方式去查询

第三个是General Knowledge QA。主要目前需求场景是在K12以下的给孩童用于教育应用的通用知识问答系统比如说儿童早教机,幼儿辅导。有些环节,随便问一些问题就可以找到答案,相当于起到半娱乐、半丰富大家知识的功能。

在YiBot系统里会有很多不同的子机器人和对话管理系统去衔接。有解决FAQ类的,有解决任务型、流程导航的,如订机票、开基金;有针对闲聊的,针对查询数据库的,还有目前在尝试落地的针对阅读理解,知识在结构文档内。

在阅读理解的流程是三个方面,第一个是Query Rewrite. 常用NLP里Query Rewrite功能,分词、命名实体识别、归一化等。接下来是Context Searching,真正的侯选文档并不是一个文档,是一个文档集,上百篇上千篇段落,从里面筛选出最有可能的Top 3,Top 3之后再进入MRC系统,找到一个真实的答案。

如何突破冷启动

冷启动这个问题在阅读理解是非常难处理的。

不同的公司业务场景不一样,但是目前阅读理解很难说做出一个通用的模型去解决大家所有文档的直接问答的问题,这是不切实际的,目前达不到这样的情况。所以,我们针对不同的业务的时候,会做很多不同的处理。

最难点就是数据问题,追一科技会给客户提供比较智能化的标注平台。想让客户标注,建立起业务,就要把客户的操作简化成划、点,只有用这些简单的操作的时候,客户才会愿意去帮你做起来。必须要提供给客户一个非常简单易用的平台,后续越来越简单,甚至后续不用标注数据的形式, 可以直接给标注人员推荐问题。

万事开头难。最前面的标注是避免不了的,但是后续会越来越简单。这时候我们也要求不能只标注我们推荐对的,因为这样最终问题会趋向于几类最简单的问题,还要求让他有些直接操作,必须给我们每天标注多少个,这样可以发现实际的问题。

Unanswerable问题如何破?

有很多问题AI是回答不了的,如果回答不了,还随意给一些答案的话,会造成非常严重的后果,特别是一些保险、金融行业,一旦遇到金融场景或者是跟钱相关的,都会比较敏感。

怎么去解决这样的问题,目前只能找到一些变相手段去缓解。

第一个当然是标注更多,人力去干扰的事情,这是随着人力投入更多效果会更好的事情。第二个是不同的Context之间,把很多问题交互进行一些应用、数据的增强。把除了这个答案之外的片段进行各种组合,文本的变换,去重,和其他的文本进行变换,变相的达到一种增强。

未来还有很多挑战值得我们去做。

客户在CPU机器上,可能还想不断叠加数据之后训练新的模型。因为金融模型都会要私有化部署,数据整个东西都是接触不到的,客户希望是一个闭环系统。这种情况下,想要在CPU机器上去训练这样的模型,目前阶段是非常有挑战的事情,基本上说不可能,他可能等一周,那种情况下这个东西就不可用了。

还有更高一级的,Yes或者是No的逻辑

大部分客户问问题的时候,并不会非常直接问文档里面找到的问题,而是更倾向于一种文本蕴含的形式,判断用户说的逻辑与企业的文本里面描述的逻辑,是不是一个意思,只要告诉用户Yes或者是No。后续追一科技还会去支持这样情况的阅读理解,判断是否是一样信息、一致意思的功能。

最后,就是目前产品过程中都只是像SQUAD,答案必须是连续片段,没有自己生成,后续也许会添加,从文本当中自己生成这样的东西。

杨雪峰博士简介:

追一AI Lab 高级研究员,新加坡南洋理工大学博士。

主要研究方向为文本的向量化表达,语义匹配,阅读理解,信息抽取对话系统

杨雪峰博士在智能服务、金融科技等领域的AI技术落地有多年经验,现在追一科技主要从事前沿技术探索与实践工作,主导阅读理解技术相关产品。深圳市海归高层次人才,CMRC2018阅读理解比赛冠军。

追一科技
追一科技

主攻深度学习和自然语言处理,以技术之美,融合场景,共创更美好AI世界。

https://zhuiyi.ai/
产业追一科技自动摘要NLP知识图谱机器阅读理解杨雪峰
2
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自动摘要技术

自动摘要是指给出一段文本,我们从中提取出要点,然后再形成一个短的概括性的文本。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~