周明:如果用一个词形容NLP圈的2017,我选「想象」| 人物对话

「得语言者得天下」,微软全球执行副总裁沈向洋说过。其中的考量很简单,语言难,相比于以语音、图像为代表的感知智能层,以自然语言处理技术为代表的认知智能层是当下人工智能发展的主要难题。
语言也意味着一切。「如果 NLP 取得突破的话,那么知识获取就会突破,推理就会突破,解题、回答问题、预测等能力都会取得突破。」微软亚洲研究院副院长周明说。他认为,语言一旦突破,会带动认知智能的突破,带动整个人工智能的突破。
1999 年,清华大学任教的周明,在李开复邀请下加入微软亚洲研究院负责自然语言计算组。过去十八年,他带领团队解决语言相关的人工智能基础问题,自然语言理解业务已经覆盖中文,日文,英文三种语言,在分词、句法分析、语义分析、机器翻译、情感分析、问答、理解、文摘、搜索引擎、聊天对话等技术点都有所布局。
这些研究成果逐渐应用于微软 Office、必应搜索、Windows 等产品,团队还参与研发包括微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目。微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统开发的背后,同样也有他们的身影。
在这次专访中,周明向机器之能讲述了这一年 NLP 圈的起伏变化。他认为,如果要用一个词来形容 NLP 圈的 2017,那这个词应该是「想象」。
以下为对话原文,机器之能做了不改变原意的整理。
微软亚洲研究院在 NLP 领域的技术布局包括哪些? 
这张图能很好的展示微软 NLP 的布局,我们有产业、产品和研究三个层面的布局。
产品布局主要是通过必应(Bing)搜索体现的,搜索是很考验自然语言处理能力的一项应用,因为它涉及到对问题、文档进行理解。理解能力加强后,搜索的准确度就会有所加强。另一方面有了理解能力,用户在搜索框提一个问题,系统自然就能返回一个答案,不需要像以前一样,需要用户从若干个页面链接中自己寻找。此外,搜索业务还能够与问答系统进行整合,通过对话和回答为用户提供信息服务。
产品层面除必应团队外,我们还有微软商业智能团队,他们和必应团队一样,着重解决如何将自然语言技术做好、落地、实现很好的用户体验这个问题。

研究层面微软在总部和 MSRA 都有布局,主要从事图中 NLP 基础技术和核心技术两个栏目下的这些技术点的研究。比如偏基础研究的团队会研究知识如何表达(Embedding),如何做语义分析这类问题;偏应用技术的团队会解决机器翻译、问答理解、信息检索、推荐、聊天对话等问题。
产品团队和技术团队合作,就是 NLP+,解决搜索引擎的关键技术、客服、商业智能、语音助手等等问题。比如我们的智能助手微软小娜(Cortana),聊天机器人小冰等等。在底层我们会和用户画像、大数据、云计算、机器学习、知识图谱等相应团队合作,我们将他们的成果用在自然语言分析和推理上。
所以说我们每一个团队在做技术的时候都不是独立的,都可以得到周围相关团队的支持,我们是按全局一盘棋的设想来布局的。
那么作为研究院,具体来说微软亚洲研究院如何与产品部门,例如微软(亚洲)互联网工程院进行协作的? 
自从建院以来,MSRA 一直强调要做有用的研究,所以我们和产品组有很好的合作,我们会互相了解对方的需求。我们研究院知道公司的产品战略,知道他们需要用到怎样的技术,对于有些还不存在的技术,我们会想要超前一些,把他们能用到的技术提前开发出来。另外产品部门也知道我们的需求,比如我们需要数据,产品组就会提供很多数据来给我们使用。

一旦我们研究院把某些技术突破了,产品组就能很快地将技术融入到他们的产品之中。因为我们双方已经很默契了,所以基本上从我们的技术成型,到他们上线,「一夜之间」就能完成。像上个月我们参与 SQuAD 比赛的 R-NET 就已经在微软的产品中得到使用。当然,有的时候产品组需要重新编写代码,因为产品需要有安全性、速度等等的考量,还要跟已有的系统很好地配合。
过去一年,MSRA NLP 取得了哪些进展?
这一年的进步可以总结成四个方面,神经机器翻译、聊天机器人、阅读理解、创作。

首先神经机器翻译,这里有几个例子。红色字体是原来做的不好的地方,现在有了神经机器翻译,能够做的非常好,句子非常流畅,用词非常准确,和人的标准答案相仿,甚至有的地方你会感觉到比人类翻译的还要好。

神经机器翻译发展的前提是有大规模的双语对照语料,只要数据够大,就能达到这样的效果。所以在科技新闻领域,因为语料很多,现在翻译效果已经能够达到人类的水平,但是在一些其他语料较少的领域,比如科学论文,翻译水平还是不行。

去年微软和华为合作,在 Mate 10 手机中嵌入微软的神经网络机器翻译,可以算得上是在终端运行神经网络机器翻译的第一例。在手机上运行神经网络,由于运算速度、存储能力的限制,微软机器翻译产品团队对网络做了不少针对性的优化。

聊天机器人方面,我们和微软(亚洲)互联网工程院合作,从 2014 年起推动微软小冰,后来有了日本、美国、印度、印度尼西亚一共五个版本,可以说进展还是很快的。

现在小冰各个产品的用户总和已经达到两亿多,平均交互轮数是 23 轮,我认为这很了不起。小冰的技术落地后,小冰团队最近又做了一个音箱,让她以实体的形式走进家庭。微软小冰之外我们还有智能助手微软小娜(Cortana),能够完成面向任务的对话交互。

阅读理解方面我们刚刚在 SQuAD 数据集上的 EM 分值上超越了人类,这是一个突破,带动了一些产品的进展,例如搜索引擎、客服等。

创作的话我们探索了一些对对联、写诗、谱曲等等。

这四个方面代表了我们在 NLP 领域的一些进步。在这张图中我用金字塔形来表示这四个技术之间的关系,难度是逐级上升的。

最下面神经网络机器翻译现在效果已经非常好了,因为它是 Single-turn,一句进一句出。聊天机器人就要难一些,是 Multi-turn,对以前聊的东西也要有记忆。机器阅读理解除了当前的句子,上下文,还要融入世界知识,会更难一些。最后创作,最开始我们都不了解要怎么建模,因为创作是感性的东西,比如写诗、写词,强调灵感和文采,要为这些东西建模其实是很难的。目前我们在创作方面只是能利用简单的技术进行模仿,离人类真正的创作水平还很远。

再往上其实还有更难的,比如解决一个问题、做决策、做预测,都是和自然语言相关的,是认知智能的一部分,现在我们还没有做很多。
除了在现有产品中能够使用到的技术,MSRA 还做了哪些脑洞大开的创新? 
有很多,举个例子,我们做的对联。微软没有一个产品能用到它,必应、Office、Azure 都用不上,但是我们认为对联是人工智能的一个重要标志,因为它代表着创作,创作是当前人工智能还需要摸索的一个领域。

我认为做脑洞大开的创新有两层意义,一是促使你去思考和解决人类常见的问题,二是开脑洞产生的技术可以旁征博引,比如我们做了对联,这里面的一些技术可以放到微软的机器翻译里面,提高机器翻译的准确率。实际上科学之间是相通的。
NLP 技术在整个人工智能领域中,处在怎样的地位?有怎样的意义? 
这个要从技术本身讲起了。因为图像、语音技术都是 Single-turn 的技术,就是一个输入一个输出。而自然语言是 Multi-turn,做完一次输入输出后,要把结果作为下轮输入的一部分继续输出。最典型的例子就是多轮对话,系统需要结合之前的对话生成内容;还有就是机器阅读理解,需要考虑上下文;写诗,一句诗是一个 Single-turn,那写个绝句就是做四次 Single-turn,而每一次都要将之前的结果考虑进去。

这有什么意义呢?我认为可以理解为两个层面。首先,从 NLP 技术本身来说,有很多原来不敢想象的应用现在可以落地了,比如自动客服、神经网络机器翻译,原来不敢做,现在可以往前走一点了。第二层我认为,因为 Multi-turn 是其他智能领域还做不好的技术,一旦这一技术有所突破,再加上世界知识的普遍使用,从技术上会反哺图像识别和语音识别等。他们现在是 Single-turn,将来有可能是 Multi-turn;他们现在没用到背景知识,将来有可能可以结合背景知识做一些事情。

所以说 NLP 对其他智能,对整个人工智能领域都会有推进作用,这也就是为什么沈博士(指沈向洋)说「得语言者得天下」的原因。
你在 ACL 等国内、国际学术会议中也担任要职,那么就你观察,这一年在理论研究层面,有哪些明显的趋势? 
自四年前语言学相关议题大规模引入神经网络以来,效果相较于统计时代有了很大的提升。除了下图展示的这些基本的问题之外,这些年我们着重解决的问题还包括如何用小数据训练出与大数据相仿的结果、如何用单语数据帮助双语数据进行翻译水平的提升(因为有的场景下双语语料很少,却有大量的单语数据)、强化学习在聊天和机器翻译中的应用等。

具体到这一年的话,在神经网络机器翻译任务上我们看到了更多单语数据的加入。比如我们研究院刘铁岩博士领导下的对偶学习的研究对神经网络机器翻译的影响,就用大规模单语数据,提高了神经机器翻译的水平。

在对话方面,我们已经能够利用用户的当前输入和上下文以及用户画像进行个性化建模,这里面涉及到很多模型理论上的研究和设计,比如怎样做用户画像,怎样对上下文信息进行编码,怎样通过注意力模型将最重要的信息捕捉到,以及怎样生成上下文相关的、用户个性化的、有主题知识的、不空洞回复,也表现出了从 Single-turn 到 Multi-turn 的过渡。

阅读理解是去年一个非常强的热点,也就是说我们的技术在上图的金字塔中已经走到了阅读理解这一步,利用端到端的训练,引入背景知识来解决阅读理解问题。

再往上,把自然语言技术延伸到其他领域,例如音乐、创作,去年我们做了一些很好的尝试,也取得了一些进展。
如果用一个词来形容过去的一年,你会选择哪个词?
我觉得是「想象」。曾经一些我们认为不能解决的任务,比如阅读理解,或者一些不应该我们 NLP 解决的任务,比如音乐,由于有了更好的工具,更大的数据,我们才发现这些东西是能够解决的,是能够和 NLP 相结合的,这在之前是不能想象的事情。这种想象是伴随着行动产生的,同时又能引领我们走向新的道路。没有技术的进步,很多事情我们想都不敢去想。
未来一年,你对 NLP 相关技术和应用的发展抱有怎样的期待? 

我们还是从这四个方面说,首先神经网络机器翻译,未来一年,在典型的场景和领域下,比如新闻,达到人类的水平是可以期待的。然后在对话领域,客服会有较大的进展,由于问答技术、聊天技术、阅读理解技术的提升,客服的效率将会被大大提高,但不会完全替代人类客服。

在创作领域,很多新闻可以由机器人来完成。还有一些过去很多不敢尝试的,例如歌词、音乐的创作,我认为明年会有一些好玩的新东西出来,至于说能产生多大的影响,怎样落地,现在还不可知。但是作为一种社会现象,我认为在创作领域,明年还是可以期待一下的。
想要提升创作水平,目前有哪些技术瓶颈? 
如果是站在很工程的角度,就是数据不够。和机器翻译等任务相比,写歌词、谱曲之类的数据要少很多,所以我们要想办法获得更多的数据。第二就是灵感不高,目前神经网络所做的创作都是源于已有数据的,所以只能是追随者,现在机器写出的歌会让人有一种似曾相识的感觉,没有灵感上的迸发。这是大数据的特点,训练数据中谁的歌多,就像谁多一些,然而真正有才华的艺术家是很少的,所以要想让机器有非凡的才华,还是有很长的路要走。

但是现在机器对创作者可以起到辅助的作用,对于艺术家来说,可以起到提示作用。比如写着写着没词了,机器一提词,可能就会有新的灵感冒出来。对于普通人来说,机器其实是降低了普通人的创作门槛。
你认为,在未来,还有哪些新的技术方向有待摸索? 
首先我认为多模态的融合会带来很大的机遇。就比如说图像和文字的结合,现在「读图」这件事更多的是图像领域的科研人员在做,NLP 领域的人很少涉足,NLP 研究人员一般是你读出来什么,表示成自然语言的形式,我再进行后续的处理。但我认为,做 NLP 的人需要了解信号是怎样输入进来的,这很重要。就自然语言来讲,在信息的感知层面,现在除传统的键盘输入外,还有语音输入、图像输入,这和我们人类观察世界的方式是一致的。人类在接受外界信号时,实际上在脑海中是形成了一系列的自然语言的表述的,从这个表述出发,我们才会想去创作。所以说,信号是如何进来的是非常重要的。

图像和语言充分衔接后,就会产生非常大的机会。比如跨媒介交流、基于图文的多媒体问答对话、搜索(直接用图片搜索或者图文混合信息搜索)。其实我们人是不怎么区分图片、文字、声音,因为到脑海中都会变成表述。这样类比到神经网络上,我们也可以对不同类型的信息源同等对待,同等建模,得到一个融合的信息,再基于这种信息进行编码解码,然后再生成其他媒介的东西,或者混合媒介的东西。

这个方向有所突破的话,对机器人领域的发展会非常有帮助。它感知对方,了解对方是什么样的人,说过什么话,机器人得到对方的一个统一的印象,就可以做出自然的表情和反应。现在机器人的多模态、人机交互是做不好的,未来可以期待一下。
对于当前的人工智能行业来说,人才是无法回避的话题,你认为,当下行业急需怎样的人才? 
我觉得有两类人才,一个是系统实现型人才,这些人能够在了解现有的技术方法理论之后,快速解决问题。我们需要特别特别多这样的人才,现在中国这样的人才并不多。第二类人才是拔尖人才和领军人才,他们知道现在技术的发展水平和状况,并且能够预测未来的一些领域的发展,提出一些新的理念、理论体系,还能够亲自身体力行,带领团队让技术落地。

从微软亚洲研究院的角度,我们希望两者兼顾,因为第一,我们是工业界的研究院,我们要做一些有用的研究来快速帮助提升微软产品的智能水平,并释放一些通用的技术给社会或第三方机构。第二,作为一个研究院,我们也有使命将最先进的方法、思想、理念释放出来,帮助整个人类社会。

我们鼓励跨领域的研究,将不同背景的人凑在一起来解决一个问题。比如在微软的对联、写词、谱曲等技术的研究过程中,我们会学习到其他学科的一些方法。有一些想法在人家学科是常识,没什么了不起的,我们学会了之后再反哺到我们的技术中,就很有优势了,两边学科都懂,那你建的模型就比别人好,思路也开阔。我们希望未来的创新是基于这种跨领域的、交叉学科的。
微软亚洲研究院为产业培养了不少人才,同时也面临着人才流失的问题,这一年情况有所好转吗?对此你怎么看? 
任何公司都有人才流动的问题,有人来有人走,这其实挺正常的。宏观上来看,对社会是一个正面的促进,只有人才流动,新兴学科才能够发展起来。人才都集中在一起,对新的机会视而不见,这也是不科学的。我们微软亚洲研究院被称作黄埔军校,「校」是什么意思,有学生来,有学生毕业,这才叫学校。学生毕业之后还在黄埔军校,那就不是军校,那是黄埔军营。

所以对于我们来说,学校价值的体现就在于我们的学生强,人脉广。从我个人角度而言,也不是说一定要让我的员工留下来天天做自然语言,这对他们来说不一定是最好的事情。他们应该去做别的方面,甚至图形图像、大数据,都可以做。或者到学校去当教授,培养更多的人才,让他们尽最大的努力对社会产生贡献。

整个微软亚洲研究院的人对此也是有同感的,我们的使命就是把优秀的人才培养出来,让一般的人才变优秀,优秀的人才变杰出,然后再去引领更多的人,把整个社会带动起来,这也是过去 20 年来微软亚洲研究院所秉承的理念。我们看到很多人才从这里走出去,实现了自己的人生价值,对社会产生了很大的贡献,我们乐见此事的发生。

我们和中文信息学会以及中国计算机学会合作举办了很多次暑期学校,每一期能够培养 200 到 300 名研究生和博士生,目前已经十几年了。我们还有实习生计划,自然语言方向已经有 450 多名实习生从我们这里得到过培训,他们现在在中国的各个地方、各个公司,现在很多都是领军人物了。另外,我们还培养了 20 名左右的博士生和 30 名左右的博士后,这些人除了少数留在微软,很多也都在其它公司或者学校工作,有一些人已经担任院长和博导。

但与此同时,我们也反对恶意的人才挖角。有些公司为了人才不择手段,甚至连人带技术一起挖过去,我们认为这是不道德的,一方面触犯了法律,另一方面也是对人才的不尊重。因为有的时候,公司挖这个人才过去,一夜之间有了一个新技术,那这个人才对他来说就没有太多利用价值了,这样的公司不是抱着培养人才的目的去的,更不会说让这个人才培养更多的人,而是一种急功近利型的、短期的行为,我们对此强烈反对。

另外我认为,如果我们的社会是一个金钱至上、薪水至上的社会,对中国赶超世界先进水平会产生很大的阻碍。多挣一些钱,社会就是先进社会吗?我认为是反的,如果一个社会道德体系良好,大家和谐共同发展,就算短期没有经济上的显著表现,长期也一定会胜出。

现在很多在校生,已经没有了我们当年那种为国家奋斗终身的意志,哪里钱多去哪,以后的路以后再说。我认为这样一代一代传下来的话,我们整个行业、整个社会未来堪忧。微软作为一个负责任的公司,我们对社会是有使命感的,我们需要对员工、客户、股东负责,更需要对社会负责。

你认为,现在我国的自然语言处理技术在世界上处在怎样的水平? 
我认为现在美国第一,中国第二。这里有几个指标,首先在世界上最著名的自然语言领域的学术大会 ACL 上,美国无论在投稿率还是录取率,都排名第一位,中国在过去五年一直排名第二位,后面是一些其他国家,比如英国、德国、日本、韩国等。但是中国的论文数量比其他几个国家加起来都多,这说明了中美两国遥遥领先的位置。

中美之间大概有每年 20 篇左右的论文数量差距,实际上只要有一个「涨停点」,中国就有可能跟美国并驾齐驱,甚至超越,这是指日可待的。
你认为,与其他国家相比,中国在人工智能方面的优势与劣势是什么? 
首先,政府有明确的纲要进行鼓励,不论是投资还是政策都在鼓励人工智能的发展。然后中国有强烈的需求,我们有 7 亿多网民,电子商务、搜索、办公系统、云服务,这些需求中国在社会上都是排名第一的。再然后,有了这么强的需求,就有很多的数据,也有很清晰的商业模型,就又会有越来越多的投资加入,越来越多的公司成立。另外,大学的研究力量也在一点点增强。

中国有一个清晰的蓝图,又有很强的执行力,本身又有这么强的需求。在过去几十年的发展中,包括网络、云、人才等基础设施都齐备,所以我觉得我们是一个万事俱备的状态。同时,也没有人来掣肘,不像其他国家可能会有人有不同的意见,我们基本上是全国上下都在迎接人工智能时代的到来。所以我相信,中国在人工智能领域能够实现弯道超车,如愿以偿地达到世界顶级水平。

但与此同时我们也看到了一些顾虑。比如第一,我们照比美国来讲,顶尖人才的数量还是要少很多,我们通才比较多,比如编程人员、做系统的人员我们有很多,但是能够提出先进理念思想、引领潮流、引领世界的人才相对来讲还很少。

另外我们的博士生,追随的意愿太强,很多人的目标就在于写几篇文章,能毕业就行。我更希望我们的博士生引领的意愿更强,可能一开始还没有能力引领,只能追随,但慢慢的,应该有自信心来引领这个世界。必须有强大的信心驱使着我们,我们才能通过技术难关达到世界发展的顶点,这其中志向起到很大的作用。

虽然我们期待在学术理论上引领世界,但是回到现实,目前工业产品都是数据驱动的,也就是说谁有数据,谁就能第一时间建模,第一时间得到用户反馈,然后快速迭代自己的系统来满足用户的需求,所以说实际上,谁掌握场景、数据,谁就掌握了入门主动权。

目前各个行业都要数字化、智能化。但咱们国家很多工业体系连数字化都没有完全达到,在数据的采集、整理、建模方面还没有达到很好的智能状态,这里有很多研究以及创业的机会。就是说先不管理论突破,就算是能将现有的模型巧妙的用在各个领域,提升行业效率,对社会都是极大的贡献。

比如交通、医疗、教育、司法、金融,这些行业背后有一堆数据,但这些数据要么没有被及时存起来,要么存起来却也找不到,要么就是没把它建模,没有使它的数据潜能发挥出来。所以这些领域只要把数据做好,加上人工智能的一些能力,就会极大的提高整个社会生产力的潜能,这个非常重要。需要工业界的人和人工智能界的人共同努力,工业界要找到需求,人工智能界要将系统做成可实现、可无缝对接、可跟踪的东西,不要总是高高在上。

所以从这个意义上来说,场景加数据就是决胜之道,其他都是随之可以沓来。

有说法认为,人工智能会拉大数字鸿沟,强者愈强,最终造成垄断,你是否赞同? 
我认为,先进国家、先进公司抱着盈利和实现自己社会使命感的目的,一定会将一些技术普惠到民间。但是同时,有些大公司也会希望构建自己的技术壁垒。但我个人认为,国家政策应该通过建立普惠制度极力消除这种鸿沟和壁垒。

现在很多技术没有生态环境发展不起来,那么为了要有这个生态环境,你就要把你的一些东西释放出来,让所有人受益,让大家在你的基础上发展新技术,整个生态环境才能起来。所以一个公司一家独霸,什么都做得好,不借鉴其他公司的任何东西,然后站在世界的制高点上,完全封闭,不开源,谁也不给用,直接垄断,这种情况很难出现。

现在的形势就是开源,你中有我,我中有你,社区互相贡献,互相促进,共同发展。当然,不排除有些国家经济水平还没有达到能够跟上人工智能浪潮的程度,比如人员配置不足,基础设施建设欠缺,那这些国家可能会在人工智能竞争中落在下方。
你怎样看待人工智能与人类失业的关系?
我的看法还是很正面的。第一,由于人工智能的进步,很多原来做不了的事情现在能够实现了,最典型的是智慧城市。以前你用一万个人、一亿个人也解决不了智慧城市的问题,它涉及到基础设施、信号灯调配、车辆识别、调度与管理,没有人工智能,这件事想都不敢去想。

智慧城市让整个社会效率提高了,那么人们就能有更多的时间去做更多的事情,比如以前你在车上堵一个小时才能到,现在半个小时就到了,那你就能做很多新的事情,或者把原先的工作做得更好。这说明了什么,人工智能释放了人类更多的潜力,节省了更多的时间,创造了新的机会。

第二,人工智能对现有职业有一定的冲击,比如翻译、新闻稿,类似这种任务人工智能能够很好地完成。但其实仔细想想,人工智能是将人类的需求充分的挖掘出来了。就像翻译,以前人们出国,很少有能带得起翻译的,现在有了语音翻译这件事情,普通人也能有翻译了。

还有写稿,很多稿子都要求时效性,以前雇多少人也不一定能很好地满足时效性,现在让人工智能先很快地生成一个稿子,编辑人员检查一下就能发稿了。教学方面也是一样,人工智能出题、改卷、减少了老师的工作负担,使教育更加公平、个性化。所以说人工智能对现有的人员没有进行冲击,反而提高了现有人员的工作效率和能力。

当然,有些情况下,比如客服,由于效率的提高,原来需要一百人,现在需要五十人。但我认为,现在的客服大多数都是年轻人,他们整天回答枯燥的问题,还要笑脸相迎,承受很多压力,人工智能能把这部分人解放出来,让他们有自己的爱好,发展新的职业道路,也是正面的。

所以整体来讲,人工智能是会起到辅助人类,让社会变得更美好的作用。


产业
1
王艺
王艺

机器之心编辑

返回顶部