机器之心专访科大讯飞研究院北京分院副院长王士进

聊天机器人、机器翻译、智能客服等都是自然语言方面很好的应用。在聊天机器人、机器翻译等话题越来越火热的今天,我们采访了讯飞研究院北京分院副院长王士进,他为我们介绍了科大讯飞目前在自然语言处理方面所做的多项研究,以及他对该行业的技术应用和发展方面的看法。

王士进,讯飞研究院北京分院副院长,2003 年毕业于中国科学技术大学,获信息科学与技术工学学士学位,2008 年获得中科院自动化所模式识别与智能系统博士学位。长期从事语音语言、人工智能等技术的研究,2014 年带领团队获得 IWSLT 口语翻译中英和英中方向第一名,2015 年获得 NIST OPENMT 机器翻译中英方向可用性评价第一名,2015 年带领团队开展阅读理解等人工智能技术的研究。


机器之心:目前讯飞在自然语言处理方面都做了哪些研究?

 

王士进:讯飞早期研究的是做语音技术,包括语音合成和识别。但那会的语音识别率不是足够的好,识别中有很多错误,对于文本理解技术的需求不是特别大。最近几年语音识别得到了极大的提高,讯飞的很多产品能达到 95% 以上。高识别率的文本对于后面基于语义,也就是自然语言处理相关的研究就十分重要了。

 在自然语言技术上,讯飞有几个大的技术方向,第一个是个人助理方面,背后有一套语义理解框架。Chatbot 现在很热,Siri、小冰、小娜都是这个技术的产品。这是自然语言的一个很好的应用,采取的问答形式,把问题转化成命令,常见的比如移动、保险、银行业务的电话服务,或者在微信公共号服务,能直接获得答案。讯飞目前也在做这种技术,智能客服技术。

 另一分支是机器翻译。讯飞从 2011 年开始做机器翻译,用了两三年时间就把口语方面的技术和产品做起来了。2014年,讯飞首次参加国际口语机器翻译评测比赛(International Workshop on SpokenLanguage Translation),在中英和英中互译方向中以显著优势获得第一。2015 年讯飞又拿了 NIST 机器翻译人工可用度评价的第一名。同时讯飞还做了一套支持援藏援疆干部的技术产品,援藏援疆最困难的是语言关,语言通了,交流障碍就会少很多。

 第三个分支是全学科阅卷。语音技术其中一块就是语音评测,就是你说口语的内容,机器听了之后,告诉你好不好。讯飞现在把这个技术延伸到全学科阅卷,包括两个部分的应用,语音是一个部分,另一个是文本评测。在中国的考试中,最多的是纸笔卷,主观题多,要写很多字。讯飞做了一个 OCR 技术,能把手写的东西转换成文本,我们在这个方面做得非常好,准确率基本可以达到 95% 以上。基于这个技术,讯飞又做了评分和诊断技术。比如在英语方面,去年我们在某国家级英语考试验证,我们的产品在这个考试翻译题和作文题中的评分比大多数专家老师的评分准确度还要高;同时我们的评阅系统,可以指出具体语法错误,格式错误和错词等。

 而中文作文评分相对要相对难一些,因为要评判作文的立意和整个篇章的结构,不像英文更多的是看有没有字词拼写和句子结构错误。但是讯飞中文作文的评阅系统也通过了验证,相关性、分差上表现的也比专家要好。它还能写作文评语,找出文章立意和篇章结构上的错误,区分出议论文的引论句和立论句还有论点,可以方便学生查找自己薄弱的地方

 我们还瞄准了另一个人工智能最热门的技术,阅读理解。谷歌、Facebook 和诺亚方舟等很多机构都在做这个事情,人与机器最大的区别就是人能够去学习去进化,比如一个开始什么都不知道的小孩可以通过学习去推理归纳来吸收更多的知识,提高自己的智能。国外有很多研究机构都在钻研如何让机器去阅读更多的材料,从非结构化的文本中推理和归纳出知识,提升机器的智能。你根据文本提出一个问题,机器能通过阅读文本来回答你的问题,这就表示它理解了文本。

 同时,讯飞还参与了 863 类人答题研究项目,这个项目有 9 个课题,囊括了全国四十多个做人工智能和自然语言处理的公司和研究机构。

 机器之心:保罗艾伦几个月前发布了一个结果,在中学考试上,那次他们失败了,比一般的学生要差一些。日本每年也会发布一些结果,日本去年就比普通学生要高了。咱们的 863 会不会也去公布一些阶段性的结果。

 王士进:有可能会公布一些阶段性的结果,这取决于测试的情况。是这样的,在日本,高考和某个大学的入学考试有很大的差距。他们先做了那个比较简单的考试,技术上稍微简单一些,表现的也就比较好一些。我们知道技术本应是循序渐进的,但是中国的考试机器人直接面向高考,考试本身难度大,所以技术难度也大。

 机器之心:你现在负责研究的是高考机器人的哪部分研究?

 王士进:我主要负责机器翻译和阅读理解,同时也在参与 863 计划,高考机器人上难度最大的就是阅读理解和写作。

 机器之心:机器翻译这块有没有相应的产品?讯飞在中英翻译方面得过一些奖,那有没有面向消费者的产品?

 王士进:我们与移动合作的个人助手里面有这个翻译服务。另外我们和一些省市签订一些援藏和援疆的合作协议中也有少数民族语言翻译服务,向援藏和援疆的干部提供手持式的交互设备,通过手机来查看,也可以配上扩音器,让它自己放出来。在维汉和藏汉翻译上面,确实给援藏援疆干部的日常工作生活带来的方便。

 机器之心:目前机器翻译相关的产品还不多,你认为主要是哪些原因,主要是准确率的问题吗?

 王士进:这里有两个原因,第一个原因是整体的精度还不是特别让人满意。第二是讯飞目前做的语种还比较少。用户可能会选择像谷歌翻译那种虽然精确度不高,但是可以进行多种语言翻译的应用。如果能攻破语种限制后,别人可能就愿意去使用你的产品了,所以我们针对这个在做国家一带一路方面的翻译研究。

 机器之心:嗯,人工智能发展到现在,从感知到认知的发展过程非常困难,但是也是必须要走的过程。能解释一下语音识别和自然语言处理在研究方面的关系吗?

 王士进:这两块一直是分不开的。比如说现在的口语翻译,这个过程一般是先将语音识别成文本,然后再对文本进行翻译。但是这样会造成错误,比如如何识别中出了错,翻译一定不准确。所以我们也在想办法把识别的多候选加入进去,使得机器在翻译的时候有更多的数据来源可供参考。像现在讯飞的听见系统就能够对语音识别结果进行智能纠错,对一些识别的语气词做出顺滑。其实有很多技术实际上是感知和认知结合的。很多技术看上去像是感知技术,其实是将很多认知技术集合在一起形成的

 机器之心:你对整个自然语言处理行业的技术应用和发展有什么看法吗?

 王士进:那我谈一谈我自己的看法吧,也不一定准确。整个行业来看,大部分任务中的感知技术基本都已经克服了,效果和人类感知基本相当了。60年前就已经有人提出人工智能了,但是人工智能最终形态是机器的自主学习和推理。将来自然语言处理的发展,我觉得会有几个重大的应用:第一个就是类似于个人助理这种形式。个人助理的后台会接入非常多的服务,通过命令的方式来操作可穿戴式设备或者家庭智能终端设备。第二是对非结构文本的分析推理和认知,在医疗法律领域应用的较多,比如像wason这类的机器人,这类机器人可以解决医疗领域名医资源有限的困境。AlphaGo已经验证了只要有足够的数据去训练它,就可以起到非常好的辅助作用,还可以把一些感知技术加进来,比如CT、人体的心跳脉搏、全程的医疗日志的分析等,有了这些,医疗机器人可以做出非常好的判断。这种机器人在法律上也会有很好的应用,法律讲究公开公平,判案需要参考许多过往的案件,而机器人可以根据大量的案例学习实现例案同判。第三个自然语言应用场景是教育领域,比如在教育领域怎么自动分析学生的语音、语言、作业、考试等过程数据,并且给出评估和推荐,让学生花更少的时间做更高效的学习。

 机器之心:有一个预测说基于对话系统的 bots 未来会改变整个 App 市场?

 王士进:对,以前我们通过 App 市场去安装软件,在手机上装各种 App 其实问题不太大。但是以后的智能家居或者是万物互联这种情况下,就不太好去装 App,这就需要统一的智能人机交互去对接各种服务。

 机器之心:您能介绍一些新的研发情况吗?比如说涉及到算法和模型这块吗?

 王士进:科学是这样,平稳地前进一段时间,再遇到一个发展的时机。讯飞最早做的是DNN,后来到 RNN,近期在语音识别和图像识别上又突破了 CNN 技术。在自然语言处理这块也是这样,怎么把 CNN 运用到自然语言处理上是当下研究最热门的话题。词向量也已经成为讯飞的一个标配了。我们自然语言处理最早是基于词汇,现在基于深度学习,就是要把词变成一个很小的向量,这样在向量空间中,语义才能衡量的更好。

 机器之心:人类在做阅读推理时会结合一些上下文,可以在宏观和微观之间跳跃着去理解全文,目前我们在研究中是如何让机器也拥有这种能力的?

 王士进:是这样的,有两种情况一种是结合背景知识,这是现在最难的地方,怎么把背景知识也就是常识应用到模型中去,还有一种是结合上下文,这还是比较容易的,因为上下文就在文本当中。最难的还是让机器运用 common sense(常识)来理解全文。关于这个,我们现在在做一个比赛,我先打个比方,「父亲无法举起儿子来,是因为他太重了。」这里面的common sense 指的就是「重」和「举不起来」之间的关联理解。没有上下文告诉你,重和举不起来是因果关系,但是作为 common sense,你是已经知道了这个结果。Common sense 和知识图谱的关系比较大,我们现在也在做基于知识图谱的推理,就是如何从大量繁杂的信息中抽取共性的知识,学着去做推理。这里同时还需要进行歧义消解,比如某些人说的刘德华可能就是自己的名字和明星刘德华不是同一个人。这里面涉及的技术还蛮多的。总之,基于大量信息通过阅读去理解推理,形成知识库或者知识图谱,这是机器学习或者说人工智能将来进行迭代的一个重要方式。

 机器之心:之前看过一例子,一个是 Facebook 去读小说《权力的游戏》,然后问了一个关于情节的问题,它答出来了。

 王士进:是的,那个 Deepmind 读了 1600 多篇爱情小说,然后自己写了一篇爱情小说。这种通过阅读大量同类型文本,然后写出新的类似文本的技术,是大趋势,也就是通过阅读更多的东西,来提升人工智能。

 机器之心:自然语言处理非常难,这是因为我们对人类语言理解的不够呢?还是说这方面的技术还不成熟?

 王士进:关于理解不到位,我打个比方,比如说现在飞机比鸟飞的高飞的好,但是我们对鸟为什么能飞并没有理解的那么到位,虽然我们一开始是通过研究鸟来造飞机的。现在自然语言处理也是这种情况,人类只在一定程度上知道脑的结构,并不能够完全去认知大脑,但是基于这种不完整理解情况下做出来的人工智能,在很多方面已经比人类大脑本身表现的要好了。

 自然语言处理是在更高的语义层次上理解信息,现在的方法在机器翻译和问答等技术上已经比以前有了很大的进步,但是在认知智能上还没有取得革命性的突破。所以现在大家对于人工智能更多的期望是如何获取更多的知识,以及基于知识形成推理的规则,从而去进行智慧的预测。这其实无论是在个人助理,还是智慧医疗、智慧教育方面,都顺承了这个理念。

 机器之心:现在用深度学习做自然语言处理,此前的理论还需要吗?

 王士进:在整个架构上可能还会有一些辅导和参考作用。现在做深度学习,有些任务就不太需要知识了,但我们的经验发现如果在深度学习自然语言理解框架中加入一些知识辅导,会使得整个收敛过程更加理想。比如如果自学一门语言,慢慢的也能学会,但是如果有老师教你一些方法,你可能就会学的更快更好。

 机器之心:微软研究院做的一些工作会把不同的模型和方法进行整合,然后在图像上和自然语言处理上会取得一些进步。讯飞在基础研发上会有这样的做法吗?

 王士进:自从深度学习带来很大的变革之后,很多东西都是可以相互促进的。原来不同领域之间的界限也不再很清晰。比如,现在很多做语音研究会借鉴图像上的方法,做自然语言时,我们也会借鉴语音方面的技术,很多不同领域的技术差异虽然有一些,在理念上都是一致的。

 机器之心:那现在这个卷积神经网络比之前的递归神经网络用在自然语言处理上,它的优势在哪里?

 王士进:其实是要两者结合用的。卷积神经网络可以看到更多的细节,它是一层一层的。以前的递归神经网络有个弊病,它会把看到的所有历史压的扁平化,这样会造成后面的预测中出现信息损失。人看东西一定会有侧重点,CNN在分层看东西时会把里面重要的部分挑选出来,它对细节看的更清楚,RNN对历史看的更长。CNN与RNN结合起来会对预测和判断做的更好。

 机器之心:Deepmind做的强化学习,那个也可以用?

 王士进:现在很多场景都看好强化学习。因为我们现在的数据量还不够,强化学习通过碰撞,能产生更多的数据。

 机器之心:接下来无监督学习是比较困难的部分吗?

 王士进:无监督或者轻监督学习的是未来的一个主要方向,因为随着深度学习和计算能力的提升,越来越多的任务需要数据,但问题在于很难获取很多精细标注的数据。所以现在研究人员一部分是在研究如何用更好模型来建模,还有一部分人是在研究怎么去创造这个大数据。无监督学习在创造大数据中起到了更好的作用。比如一个语音搜索框,用户用语音输入后发现错误,进行修改,这种修改就是用户创造了大数据,虽然不一定全对。无监督最大的一个特点就是一定有噪声的,所以它也需要大量数据来弥补这种噪声。

 机器之心:我们现在耗费大量时间精力去做高考机器人,这个东西给我们带来的意义是什么?

 王士进:做高考机器人根本上是希望让机器人借助高考这个场景,从本质上去突破一些推理和认知的一些根本性问题。高考机器人做题必须对题目有理解,而不只是用记忆的知识。比如很多汽车公司去参加车赛,不只是为了拿到名次,更多是推动技术提升。此外还希望高考机器人能够代替老师去批阅试卷等等。

 总的来说,目前最难的还是基于知识的推理,这是各个学科都涉及的,语文的阅读理解,地理历史的填空选择都是涉及这块。数学因为本身是逻辑很强的学科,有一套理论体系,可以进行较为规范的推理。不过数学物理化学的难点在于理解题目,理解题目之后做题就不是很难了,而文科从题目到解答很多都是非结构化的文本,没有一个通用的标准的逻辑,解决起来就比较困难。

理论NLP机器翻译聊天机器人产业专访王士进科大讯飞应用