小i机器人创始人朱频频:人工智能与产业应用正向循环

导语:在 5 月 26 日,机器之心和小 i 机器人共同承办的「人工智能遇上大数据」分论坛上,小 i 机器人的创始人、总裁兼CTO 朱频频博士为在座观众带来主题为《人工智能与产业应用正向循环》的精彩演讲。

image-2.jpg

以下为朱频频博士演讲整理(有删减):

今天我演讲的题目是人工智能与产业应用正向循环,我要表达的意思是什么?刚刚很多专家都谈到了人工智能技术的发展路径,从我的角度来看,人工智能需要大数据来驱动的。这些大数据从什么地方来呢?这些大数据从产业化的应用里来,获得的这些数据,通过现有的人工智能算法产生更好的智能,更好的为产业应用服务。

几年前出了一份报告,说人工智能会有一个爆发期。国际大公司在人工智能上投入了很多精力,其中包括谷歌,AlphaGo 的事情大家也都清楚。FaceBook 在开源方面比谷歌早,很早就开源了一个深度学习工具。另外 IBM 在认知智能方面,也投入了巨大的精力。

人工智能的发展有三个必要条件:一是更强的计算能力,不断增强 CPU 计算能力和 GPU 浮点计算能力,另外也包括专用芯片或者量子计算的能力;二是大数据的几个推动。很重要的一点是更强的算法。

这个图讲的是人工智能中的一些产业路径图,牵扯到很多技术和应用。其中有几个方面是小 i 机器人比较关注的,第一个方面是虚拟客户助手,也就是平时所说的智能客服;第二个是智能机器人,我们看到智能机器人产业的发展属于爬升期阶段;还有 Siri 这样的虚拟个人助手,这种助手还处于一个比较早期的阶段。

小 i 在 2004 年,在 MSN 上推出了这样一种机器人,没想到应用发展很快。也做了其他特定功能的机器人,比如查天气的、看股票的,还有可以聊天的。在 2006 年的时候就尝试能不能教给机器人一些相应知识,开发所谓的虚拟客户助手,这种机器人的好处显而易见。比如这是为招商银行做的微信上的智能客服,在手机 App、营业厅里面都有这个机器人的出现,有虚拟的也有实体的。他们可以辅助人工提高工作效率,做到全天候、全业务的覆盖。

中国建行使用了虚拟客户助手之后,给我们反馈了这样的数据:他们大概节省了 6 千个坐席。另外交通银行使用后都取得非常好的实际效果。

还有一种虚拟个人助手,类似 Siri 模式,另外也包括 Cortana、度秘等。这个产品还没有真正发布,是 Viv。

图片中是一些应用,机器人与人很自然的交流。除了聊天客户服务的虚拟需求之外,给机器加上外壳以及其他功能,在特定场景上进行服务,这是智能服务机器人。比如这里把小 i 大脑连接进去,可以让它跳舞、回答问题。最右边这款机器是我们跟韩国合作的机器,适合在银行大厅里面为客户服务。

现在演示的是一款叫索非亚的机器人,里面有小 i 的人机交互能力,可以模拟人类自然表情。业界把计算机智能分成计算智能、感知智能和认知智能。感知智能应用主要是图象识别,越来越接近人的水平。对人类特有的认知智能而言,把对整个世界的认识抽象化,用知识的形式表示出来,进行分享和传承,这才是具备认知智能。

现在很多人在研究语言、知识、常识这样的能力。实体的机器人有一个人类外观不一定是完全,分为感觉、运动、思考三个层面。最重要的是思考,决定是不是智能机器人有没有思维能力?

Bot 是早期国外就有的虚拟的机器人,小 i 也已经做了很久。最近 Bot 在国际上成为了新的热点。 这个会颠覆人机的交互方式,并且取代搜索,成为互联网的入口。

小 i 无疑是国内智能机器人的第一品牌,我们每年的交互数超过百亿、拥有领域相关的知识库,这需要长期不断的积累。我们在国内行业的定位,在智能领域遥遥领先,也参加了国际标准的制定。

最近,我们同 Nuance 成立了联合实验室。中国人工智能产业发展联盟也刚成立,我们是这个联盟的早期发起单位之一。另外在资本方面,也获得的资本的一些青睐,拥有很多资本资源。

刚刚提到发展和应用,我们用什么技术来做机器人呢?有一个发展的过程,早期的输入符号有点像把你的逻辑交给机器人,充分发挥很强的计算能力,非常像演绎的方法。做一个比喻,比如规则系统就像流水线上的一个工人,你让它干什么,它就干什么,照你说的做。

怎么看待深度学习的特点?最重要的能够自动找到跟结果最关联的一些特征。所以打个比喻,就像一个职业经理人,你去告诉他任务,给他足够的资源,他能够找到合适的方法来解决这个问题。现在很多人讨论,机器未来会怎样?会不会实现完全自主?也许有可能,但这不是目前产业界能看到的状态。

机器学习其实不仅仅有人工神经网络这块,起码分为五块。这里面用到比较多的符号主义。目前怎么解决智能问答的问题?我们有一个非常领先的智能引擎,它已经发展到第10代了。小 i 在长期积累过程中,积累了自己的知识模型,包含有海量的数据。这些数据包括从概念到本体的知识方面,还有专家系统以及语言方面的数据。

更重要的一点是什么?小 i 机器人知识学习体系分三部分,我们有专家、运营人员和机器。三方共同实施这个过程,其中运营人员进行审核,因为很多数据都是垃圾信息。

我们的主要数据来源有结构化的数据,还有非结构化的数据,我们最终的目标是把它转换成知识性的数据。这需要对聊天日志进行聚类,会发现很多新的语义表达方式。挖掘出新的表达方式在后台显示,由工作人员审核,检验其正确性。这整个流程可以完成对知识的学习和分析,这款产品准备明天正式分布。

除了在知识学习过程中,我们会用到机器学习跟智能学习。我们还在引擎方面做了一些尝试,我们使用了深度学习在自然语言方面的一些结果。比如这个副引擎,跟主引擎一起工作。当主引擎不能很好的完成工作时会由副引擎完成。这里面用到了深度学习方法。中间这个是词向量的模型,我们要训练一个背景知识,然后再进行训练解决问答里的任务。当一个用户发出一个输入的时候,会先经过这个词向量上的引擎,然后再经过下面的一些模型完成整个问答过程。大概就是这样一个过程,我没有非常细节的描述。

在基于 CNN 的深度学习模型里面做情感分析,我们看到右边会出现一些实时情感分析的结果,红色代表负面信息,绿色代表正面信息。

我们把深度学习的结果跟传统分类算法学习做了一个类比。这个表格中,在三百万左右的训练集上面,二者的结果差别非常大。

总结

小 i 以虚拟机器人和实体机器人的形式,把人工智能商业化,包括语言智能自动化、硬件智能人性化、智能服务营销化等。我们已经拥有了很多客户,比如银行、政府机构这些大型客户。也包括其他产业内的客户,比如电子商务、航空、汽车等等。

我们从客户那里获得了大量数据。这里我用实际的数据来表达小 i 机器人成长和学习的过程。这是某大型商业银行做的一个客户服务效果统计:这是 2015 年 10 月份的结果,当时大概有一千万的绑定用户,接近 2 万条的知识,应答准确率达到 98%。机器人可以处理 95% 内容,处理不了的 5% 转人工服务。

可以非常清晰的看到,机器人在不断的学习和成长。因为我们有很多的客户和产业应用,获得了大量的数据提升自己。我们希望把这一套形成产业的正向循环。人工智能需要产业的正向循环。我们从大量的业务中获取大数据,通过学习的方法(包括专家参与),进一步获得大量领域中的知识和语义,这又能更好促进产业应用和发展,形成产业良性循环。




理论机器人机器之心大数据产业