Yuanchao Li作者Joni Chung编辑

你认识ERICA吗?她是当今最像人类的机器人

类人机器人的发展之路上,ERICA 是一个不能不提的存在,她具有栩栩如生的外观设计和出色的语音合成系统。机器之心技术分析师对相关论文进行了解读。

论文地址:http://ieeexplore.ieee.org/document/7745086/

引言

这篇论文介绍了一个自动化机器人系统 ERICA,该系统能够进行对话交互,具备先进的传感和语音合成技术,并被一些人认为是截至目前最像人类的机器人。

ERICA 有出色的视觉设计、面部表情和具有很高表现力的语音合成器,是当今最像人类的机器人。她的传感技术基本上是目前能力最好的技术,并配置了高性能的语音识别,能够使用麦克风阵列区分不同的声源以及精准追踪人们的位置和运动状况。

开发者的目标是让 ERICA 能以让人信服的类似人类的方式与人类进行面对面的交流。

图 1:ERICA 的照片背景:当今的机器人

局限性

近些年来,不管是研究界还是大众媒体,机器人都越来越常见了。新闻中出现了名人和个人的机器人复制品,电影和电视节目也在描绘人与机器人共同生活的场景。但是,当今的机器人在执行自动会话交互方面的能力还非常有限。当今的机器人可分为以下类别:

类别

  1. 非人形机器人和虚拟智能体:能够进行非常拟真的会话交互的虚拟智能体已经被创造了出来。Virtual Human Toolkit [1] 提供了一整套对话和角色设计工具,可用于开发看起来很真实的动画图形角色。Furhat [2] 则是开始试图将 2D 世界与 3D 世界连接起来的机器人,它具有一个可运动的头部和使用反向投影的面部,能够展现各种各样的面部表情。
  2. 人形机器人:研究者已经开发出了一些具有不同程度类人度的人形机器人,有的能够使用看似自然的姿势和其它社交线索执行相关的交互。这些机器人的造型各异,有机械式的,有动物式的,也有卡通造型和抽象形象。Leonardo [3] 就是一个表达能力很强的机器人,是专为人类交互研究设计的。Aldebaran 的 Nao 机器人已在人机交互研究中得到了广泛的使用,软银的 Pepper 也有望成为另一个能实现丰富的人机交流的平台。
  3. 拟人机器人:现在已有一些看起来就像人类的机器人。汉森机器人公司已经生产出了很多具有高度表现力的人头机器人,比如 PKD [4]、BINA48、Han 和 Jules,其中某些被安装在一个身体上。这些机器人具备先进的人工智能技术和表达清晰的面部表情,但看起来还是很机器人,有时候还能看到金属部件或暴露的线缆,而且一般还缺少具有表现力的语音合成技术。Geminoid 机器人系列 [5] 也具有高度拟人的外观和表情。

平台架构

这里我们介绍 ERICA 的平台架构。

硬件和驱动

ERICA 的机械和美学设计是与机器人制造商 A-Lab 合作开发的。

外观

她的面部特征比例遵循整容手术中使用的美学理论原则,比如通过所谓的“维纳斯线”(即 Baum 比例)的理想角度和比例定义了鼻子的投影角度,通过“三分法原则”确定了下巴、鼻子、眉毛和发际线之间的等距离的垂直区域 [7]。

整体而言,ERICA 的身体有 44 个自由度(DOF),如图 2 所示,其中 19 个自由度是可控制的。图 2 的右图展示了其主干骨架。

图 2:ERICA 的自由度。左:面部自由度。右:骨架自由度。用黑色标注的关节是主动关节,白色的则是被动关节。

语音合成

ERICA 的语音合成使用了为 Hoya 的 VoiceText 软件设计的定制语音。大多数句子的默认呈现方式通常都是平滑的,语调由语法决定,而且也可以通过人工方式设置音高、语速和声音强度指标。语音合成器生成的音频信号会被发送回机器人以生成嘴唇同步和身体运动行为,如图 3 所示。

传感

ERICA 目前使用的是有线网络连接的外部传感器来跟踪人类的位置,定位声源以及识别语音和韵律信息。图 3 的左侧即为其传感框架。

图 3:ERICA 系统图示,其中包含传感器输入、内部控制逻辑以及与语音合成和运动生成的交互

控制架构

ERICA 平台的软件架构结合了一个记忆模型、一组用于生成动态运动的行为模块以及一个用于对话管理的灵活的软件基础设施。图 3 的中图即阐释了该交互逻辑的核心元素。

公开展示

在公开展示过程中,开发者邀请了一些媒体人和参观者上台使用一个无线麦克风向 ERICA 或研究者提问,如图 4 所示。

图 4:公开展示的照片在投影屏上给出了 30 个主题的列表,来访者可以按次序向 ERICA 询问有关这些主题的问题。在回应了每个问题之后,ERICA 也会基于对话状态的历史回敬一个问题。举个例子(原对话为日语):

来访者:你年纪多大?

ERICA:我 23 岁。虽然我才被开发出来,但请不要说我是 0 岁小孩。(笑)

ERICA:你认为我看起来会更大一些?

来访者:是的,我确实这么想。

ERICA:(咯咯地笑)谢谢!人们一般都认为我看起来更年轻,所以我很高兴听到你这么说。

在演示过程中,ERICA 也会在不同的时间回应研究者和主持人说的话。来访者、主持人和两位研究者都使用了各自的麦克风,而且每个麦克风的信号都是单独进行语音识别和韵律信息处理的。这让 ERICA 能以适当的方式回应每一个人。比如:

研究者:(在回答了一个来访者的问题之后转向 ERICA)。ERICA,你是最棒的机器人,对不对?

ERICA:(转向研究者并且微笑)是的!(然后,经过短暂停顿后,摆出一个担忧的表情)嗯……实际上,我想想。这取决于给我编程的研究者做得好不好。

成就和未来研究

硬件平台

至少有一家新闻机构以头条形式报道了这场演示活动,参阅http://mashable.com/2015/08/12/erica-android-japan/,“日本的 ERICA 机器人没有其它会说话的机器人那么恐怖”。未来,全身姿势和表现能力将会是必备的。

语音合成

语音合成的自然性和表现力已经相当让人满意。未来,话语将与姿势和表情一起生成。

非言语行为

  1. 显式的表情和姿势:ERICA 具有微妙的面部表情,看起来像人一样。但仅凭 ERICA 的硬件配置,创造非常夸张的表情是很困难的,但对于日常任务,微妙的表情应该会更有用,尤其是在习惯含蓄表达的日本文化中。
  2. 隐式行为:ERICA 交互期间使用了隐式行为模块来调节呼吸、眨眼、注视、说话节律和微微点头等行为。未来,这些模块还会继续改进,融入更多新的隐式行为,比如用于发出笑声时的运动控制、无意识的摆动以及通过调整注视和身体运动来隐式地表达情绪的方法。
  3. 多模态感知:ERICA 已有的传感器网络对这一演示已经相当足够了。未来还会收集伴随语言传达的信息,实现在噪声环境中的韵律信息提取。
  4. 渴望和意图:目前,ERICA 的应用逻辑都是人工设计的话语序列。未来将会结合 Interaction Composer [8] 等视觉工具来协助交互过程的设计。最终将有必要基于语义表示和机器人的渴望和意图来生成行为。

总结

ERICA 是当今最像人的机器人,具有类人的外表、面部表情和高度表现力的语音合成器。她的传感技术也是当前最好的一些技术,具有高性能的语音识别能力,能够使用麦克风阵列区分不同的声源以及精准追踪人们的位置和运动状况。这项研究有助于我们理解能使用当前最佳的技术做成什么,也能帮助我们解决创造真正类人的机器人之路上的关键问题,进而帮助我们找到前进的方向。

参考文献

  1. A. Hartholt, D. Traum, S. C. Marsella, A. Shapiro, G. Stratou, A. Leuski, L.-P. Morency, and J. Gratch, "All together now: Introducing the Virtual Human Toolkit," in Intelligent Virtual Agents, 2013, pp. 368-381.
  2. S. Al Moubayed, J. Beskow, G. Skantze, and B. Granström, "Furhat: a back-projected human-like robot head for multiparty human-machine interaction," in Cognitive Behavioural Systems, ed: Springer, 2012, pp. 114-130. 
  3. C. Breazeal, A. Brooks, J. Gray, G. Hoffman, C. Kidd, H. Lee, J. Lieberman, A. Lockerd, and D. Mulanda, "Humanoid robots as cooperative partners for people," Int. Journal of Humanoid Robots, vol. 1, pp. 1-34, 2004. 
  4. D. Hanson, A. Olney, S. Prilliman, E. Mathews, M. Zielke, D. Hammons, R. Fernandez, and H. Stephanou, "Upending the uncanny valley," in Proceedings of the national conference on artificial intelligence, 2005, p. 1728. 
  5. S. Nishio, H. Ishiguro, and N. Hagita, Geminoid: Teleoperated android of an existing person: INTECH Open Access Publisher Vienna, 2007. 
  6. C. Becker-Asano and H. Ishiguro, "Evaluating facial displays of emotion for the android robot Geminoid F," in Affective Computational Intelligence (WACI), 2011 IEEE Workshop on, 2011, pp. 1-8. 
  7. P. M. Prendergast, "Facial proportions," in Advanced Surgical Facial Rejuvenation, ed: Springer, 2012, pp. 15-22. 
  8. D.F.Glas,S.Satake,T.Kanda,andN.Hagita,"AnInteractionDesign Framework for Social Robots," in Proceedings of Robotics: Science and Systems, Los Angeles, CA, USA, 2011.
技术分析人形机器人
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

https://www.intel.cn/content/www/cn/zh/homepage.html
相关技术
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

类人机器人技术

类人机器人是一种具有与人类相似外形的机器人。类人机器人的主要特性包括:1. 可以在人类日常环境中工作 2. 可以使用人类日常使用的工具 3. 具有与人类相似的外形 目前类人机器人的设计主要来满足功能方面和实验方面的需求。针对功能性设计的类人机器人需要协助人类完成一些高危险,高难度的任务以及辅助病人,幼儿及老年人的日常生活和娱乐等。类人的设计使其可以很好的在人类日常环境中行走以及使用人类日常工具。同时,其类人的交互模式使其可以更好的完成辅助人类以及交互娱乐的功能; 而针对实验需求的类人机器人可以帮助人类更好的探究人类自身的认知,智力,心理等多方面特点。 通常来讲,类人机器人完整的模仿人类的外形,具有躯干,头部和四肢。也存在针对部分特定人体进行仿真的类人机器人,例如只模仿腰部以上的PR2机器人,只模仿腿部的机器人,以及只涉及眼睛和嘴来模仿人类面部表情的机器人(例如Kismet机器人)。此外,仿制人在普通类人机器人的基础上进一步从美学角度上对人类的皮肤,毛发,神态等模仿,从而达到了以假乱真的效果。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

暂无评论
暂无评论~