Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

用公开语料推进NLP研究,孵化现象级产品 | 专访阿里AI Labs聂再清

相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁Dave Limp所说,“亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。” 

亚马逊Amazon Echo、苹果Apple HomePod、谷歌Google Home

如果说PC时代的搜索引擎成就了谷歌,造就了这家当今世界最大的数据公司,那么随着智能产品的普及,谁先用现象级产品掌握了语音的入口,谁就将成为AI时代的赢家。

然而目前,在复杂的现实场景中,智能音箱的交互体验依然有限,比如调节空调温度的时候,向智能助手喊话可能还不如直接动手按按钮来得方便。创新工场人工智能工程院副院长王咏刚也曾公开表示,仅仅是智能音响的唤醒词背后,就蕴含有巨大的技术含量:“想把唤醒词做到唤醒70%以上,唤醒的区间1米到10米,想把唤醒词做到兼容非常多的不同噪音环境是非常非常难的技术,这件事在所有现在已经发售的智能音响来说,能做好的寥寥无几。”

图:2001太空漫游里的超级电脑HAL 9000距离我们依旧遥远,不过在外形上,不论是天猫精灵还是苹果HomePod,都似乎在致敬HAL。

国外的厂商如亚马逊、谷歌、苹果、索尼,国内的如阿里、京东+科大讯飞、小米甚至喜马拉雅都在抢占智能音箱的市场。2015年售出250万台、2016年520万台,亚马逊Echo一直是音箱领域的霸主。而谷歌在今年10月初的发布会上,在原有的Google Home之外,发布了两款智能音箱Google Home Mini和Google Home Max,定位低端和高端消费者,直接对应亚马逊的Echo Dot和苹果的HomePod。

阿里发布于今年7月的智能音箱——天猫精灵,可以被视为阿里布局在语音交互领域的入口级产品。10月20日,天猫双11预售开始,原价499元的天猫精灵,“双11价”超级会员价格为99元。目前国内多数用户尽管对智能音箱有好奇,但出于较高的价格等原因,对于购入相关产品仍停留在观望态度,而这次天猫精灵的双11价,似乎试图给国内观望用户提供一次低成本接触人工智能的机会。

图:截至大数据文摘发稿,天猫精灵的预定数量已经超过29万台。

同样是背靠电商资源和云服务,阿里的天猫精灵是否有机会超越亚马逊Echo?

阿里的视野显然不仅限于音箱,音箱也不会是语音交互的唯一入口。在刚刚结束的云栖大会上,阿里宣布开放天猫精灵的内置人机交流系统AliGenie。就这一举措而言,阿里想做的一定不仅仅是打造智能家居设备的中心。未来,无人小店、酒店、机场候机室等行业的普通硬件产品都将能够借助开放平台获得语音交互能力,提供智能语音服务。越来越多的硬件设备和行业场景都将进入语音时代,而且人人都可以成为开发者,构成一个”智联网“产品生态系统。

大数据文摘有幸对天猫精灵背后的研发团队——阿里人工智能实验室(以下简称 AI Labs)北京研发中心总负责人聂再清博士进行了专访。

聂再清博士此前就职于微软亚洲研究院任首席研究员,他和谷歌Daydream/Tango项目技术主管李名杨博士的入职,被视为阿里达摩院成立后的“第一枪”,也预示AI Labs未来的产品方向——除了天猫精灵这一语音交互产品外,很有可能会推出基于视觉交互,甚至“机器人”类型的人工智能产品。

AI研究院不仅要“研究驱动”,更需要“产品驱动”

图:阿里巴巴人工智能实验室北京研发中心总负责人聂再清。聂再清博士于今年10月加入AI Labs,此前他就职于微软亚洲研究院任首席研究员,主要负责自然语言理解、实体挖掘的研发工作。加入AI Labs之后,聂再清博士的主要研究内容仍是基于语音转化成文本后的文本语义理解,并将主要负责知识图谱和自然语言理解的研究团队的建立。

采访中,聂再清博士一再表示,相比其他企业的研究中心,阿里AI Labs最大的特点是在研究的同时注重产品的孵化。“阿里AI Labs和传统实验室的区别是除了技术之外,还有市场、设计等等部门,非常适合孵化一个产品。我和团队的座位在一起,大家作战式工作,非常紧密,喊一声就都听到了。”

而聂再清自己也非常强调用户的反馈,希望做出产品级的东西让每个人都能用上,真正改变人类的生活方式。而这一点很契合马云在云栖大会主论坛上对“达摩院”的定位:research for solving problem(点击查看大数据文摘相关报道《阿里成立达摩院预计3年投千亿,马云称它要活的比阿里更久》)。

“我非常认同马云老师说的‘research for solving problem’,有些人做研究可能目光比较长远,他不需要别的feedback(反馈)就可以想到一个改变100年以后的事情的研究方向,但我可能看不到。我非常强调feedback loop(反馈环路),更希望用户给我反馈,让我在用户的指导下做一些东西出来。”

聂再清认为随着天猫精灵的内置人机交流系统AliGenie平台的开放,阿里能够赋能第三方在平台上,让更多人参与进来。进而建立一个有相当流量的生态,在这个生态中让每个开发者都有利可图,进而用公开语料大大地推进自然语言理解和知识图谱的研究,让机器更好地理解人的语言。

对一个人来讲,研究和产品可能无法兼得,但一个团队可以

当被问及一个好的AI团队应该是研究导向还是产品导向的时候,聂再清颇有感慨:“在刚开始的时候,一个研究人员需要更多的积累,所以是研究导向的,但一旦有了想法,有了某个机会,一定是产品驱动。对一个人来讲,研究和产品可能无法兼得,但一个团队可以协作完成。”

而关于什么是好的AI人才?聂再清认为他首先应该关心前沿技术,要参与到学术圈里去对话、去交流、去得到同行的反馈,同时要比较落地、了解用户的需求,还要有情怀、对推进技术向前发展充满热情。

“我很喜欢做研究,但我个人比较喜欢做一些真正落地的产品级的东西,希望让每个人都能用上这个东西。我以前做的人立方也很成功,很多人报道、很多人知道,但没有达到人人都知道、人人都用上的状况。我非常希望有一个机会,能创造一个东西来改变人类的生活方式。”聂再清说。

大数据文摘还就聂再清博士在NLP研究领域的相关工作进行了提问,以下为专访实录:

大数据文摘:

可以介绍一下您目前的研究方向吗?

聂再清:

我们在做的事情是把大量公开数据、公开知识,利用到模型里去。我的设想是建立一个很大的可替换词词典,把每个词从一个string(字符串)变成一个ID。比如,“姚明”这个词,可能大部分人想到的是打篮球的姚明,但可能也有人想到其他的姚明。

这个东西微软或者阿里巴巴全部自己做也不行,必须有一个生态,和开发者们一起做,同时必须利用大数据。互联网上各种人说了很多话,怎么能利用公开的语料,根据说话的不同的意图建立可替换词?

阿里在做天猫精灵,这是一个全新的语音交互平台。语音输入这是一种新的输入方式,它需要一个入口。不一定是跟音箱交互,可以是在车里面讲话,可以是对着电视机的遥控讲话。怎么能让用户觉得跟机器交互得更加自然?这就是我们努力的方向。

大数据文摘:

深度学习的研究方法在NLP领域占主导地位,但大家也有些疑问——到底有什么进展?

聂再清:

我主要介绍三个方向的进展:

  • 神经机器翻译,深度学习的方法比传统研究方法有很大提高
  • 语言生成模型及其应用(写诗、写歌)
  • 语义理解——用深度学习来有效理解用户意图和实体抽取。具体来说,我们用递归神经网络去进行语义编码,再加上一层卷积层来看到更多的全局信息。这点具体可以参考我们在KDD 2017上发表的论文(关注大数据文摘后,在公众号后台回复“阿里”,即可下载论文)

大数据文摘:

目前在自然语言理解领域的研究存在哪些难点?

聂再清:

自然语言理解或者语意理解,到目前为止我觉得还是人工智能里面最需要突破的、最难的一个方向。

首先因为自然语言有所谓“多样性”,同一个意思,有各种各样的表达方法。那你怎么能够穷举这个表达方法呢?我们有一些方法,但是还没有一个大的生态。这一块我觉得还可以做很多事。

另外呢,自然语言还有一个“歧义性”,同样一种说法,在不同场景下有不同的意思。怎么去把文字放在不同语境下去进行理解。在这块还有很大的挑战。可以看一下我们在ACL 2016上发表的论文(关注大数据文摘后,在公众号后台回复“阿里”,即可下载论文)

大数据文摘:

如何看待“人工智能研究目前领先于产品落地”这一质疑?

聂再清:

其实现在人工智能有很多方面进入了产品,支付宝刷脸、AR试衣服都是人工智能的体现。人工智能通过技术转换,为产品的某个特征服务。任何东西要变成产品级,都要融入一些别的东西进来,因为产品需要获得用户的注意力和参与,让用户喜欢,这样才会产生数据。

相比模型而言,数据更重要。Model可以简单也可以复杂,model的改变可能增加5%的准确率,但如果数据量级增加,即使简单的model也可能有很好的效果。作为一个产品,只有大家对你有兴趣,才会体验和反馈,这样我们才能更好地理解数据。未来,人工智能一定会越来越多地进入人的生活,也会掺杂传统的软件功能。

作者:龙牧雪、魏子敏

编辑:韩蕊

聂再清简介
聂再清博士于今年10月加入阿里AI Labs,此前他就职于微软亚洲研究院任首席研究员,主要负责微软自然语言理解、实体挖掘的研发工作,在对象级别搜索与大数据挖掘方面申请国际专利十余项。他带领团队通过大数据挖掘和众包建立Web-scale知识图谱,是微软学术搜索、人立方,以及企业智能助理EDI的发起人和负责人,也是微软自然语言理解平台LUIS的技术负责人。相关技术已经应用在Bing、Office、Cortana等产品上。加入阿里AI Labs之后,除负责北京研发中心的各项研发工作外,还将重点突破知识图谱和自然语言理解这两个研究方向。


大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业NLP智能音箱产业天猫精灵 X1Echo阿里巴巴阿里AI Labs
暂无评论
暂无评论~