藏在智能音箱中的秘密

上个月,谷歌和亚马逊分别公布了迷你智能扬声器Google首页迷你粉笔和Amazon Echo Dot 2,价格都低于50美元这些藏在智能语音设备中的虚拟小助手们能够管理你的日常生活曾经只存在于科幻小说当中的技术,如今都是依靠着自然人机语音接口实现的。


1966年,麻省理工学院的Joseph Weizenbaum发明了第一个聊天机器人Eliza,它可以做出适当的回答,比如“对于你感到沮丧,我非常抱歉”,但从功能上来说,它们只是检测了输入的关键字,然后触发了预编程的回答。


和Eliza相比,现在的智能音箱明显更接近人类,功能也更多样化。微软的智能语音助手Cortana以讽刺的幽默闻名;而Google Home可以管理简单的计划,比如点个披萨或者陪你玩虽然现在的智能音箱还没有达到科幻电影“她”中人工智能系统Samantha的程度,但也已经足够有吸引力了--2500万的用户立即购买了Echo,500万的用户购买了Google Home。而且,这只是个开始。


智能音箱无需动手操作,这使得人机交互的用户体验更加友好,从而在功能上提供了更多可能性。实际上,这是未来的交互模式。不过,尽管人们知道这些虚拟助手能做更多新事情,极少数人真正了解它们是怎么做到的。

同步最近参与了由Innoworld在硅谷组织的一场线下活动,讨论了当今虚拟助手运用的科技。


胡峻玲博士是Question.ai的总裁及创始人,同时也是人工智能前沿会议的主席。她介绍了构造虚拟助手的六个关键要素:语音识别,语音合成,自然语言理解,对话系统,聊天机器人,以及音乐推荐系统。


语音识别和言语合成

智能音箱必须检测人类的声音,并且将其转换为机器可读的形式,这也被称为语音识别。数十年来,研究者们常常被噪声所困扰,深度学习带来了革命性的改变。 2012年,基于深度学习的AlexNet在ILSVRC中胜出,它在图像识别方面大获成功。2013年来,深度学习也已经被广泛地运用到了语音识别当中。


“深度学习让我们能够实现端到端的语音识别”。胡博士说。为了创造这样一个用户接口,智能音箱必须开发远场(far-field)语音识别功能Echo采用了七个麦克风组合的阵列技术,使其能从很远的地方,甚至是在嘈杂的房间里,辨别并处理声音指令.Echo还对音箱做了调整,使其能辨别不同用户的声音。


锚定智能检测(Anchored Smart Detection)会唤起智能音箱的工作。这个关键步骤是由亚马逊团队首次引入的。它使用远距离循环神经网络(RNN)识别唤醒关键词以及随之而来的用户需求。


语音合成,是另一种虚拟助手运用的语音相关技术。一旦智能音箱决定了要说什么内容,语音合成便将词汇转换成声音。


虚拟助手首先通过词典将文本输入简化到词典当中。然后,词典会转化成一个音素串(phoneme string),也就是一个将单词分辨的单元。虚拟助手获得了一个音素后,会使用韵律建模,音高,音长,响度,语调,节奏等方式进行处理。最后,音素串和韵律注解会被整合到声音识别模型中,从而转换成流利的语言表达。


“Alexa能说得非常流利,听上去不像一个机器人。”这是因为我们研究了韵律建模。“胡博士说道。


核心要素 - 自然语言理解

在语音识别和语音合成之间,有一个关键步骤是自然语言理解(NLU),这是让虚拟助手具有阅读理解能力的关键。举例来说,当用户说「我在弹钢琴」的时候,系统并不知道什么是「我」或什么是「钢琴」。这种时候,自然语言理解的研究者们必须找到方法,将人类语言转换成一个标准的形式。



虚拟助手首先会挑出一些特有名词,比如城市名,公司名,乐曲名下一个步骤是词类归纳,也就是将单词分到八个类别:动词,名词,限定词,形容词,副词,代词,同位语,感叹词。



最后一步是语法分析,也就是将一串自然语言或机器语言符号依照语法规则进行分析。但是,如果用户没有注意语法规则,语法分析可能没办法正确工作。现在,许多研究项目正在抛弃了语法分析,寻找其他替代方案解决端到端的自然语言处理问题。


对话系统


虚拟助手还需要两个步骤来启动一个对话:探测用户的意图,以及决定如何回复。


对话行为(对话行为)将用户需求与对应的系统功能联系起来 - 比如,用户想听一个笑话,一首歌,或者是想点一个披萨。在接受这个输入需求之后,虚拟助手会根据语调,首位单词和谓语动词来捕捉特征;然后,将这些特征归类到一个对话行为中去,比如需求,陈述,是非问题,或是确认问题。


对话行为步骤。

紧跟着对话行为步骤的,是对话决策(对话政策),它决定了系统接下来要做出怎样的动作。


如今,用户们希望能与虚拟助手们进行多重互动的自然对话,因此对话系统需要一个状态追踪器去维持现有的对话状态。这包含了用户最近的对话行为,以及当前用户表达的全部信息(整套插槽填充约束)



现在,对话系统通过强化学习来搭建。这使得虚拟助手能更加机敏地响应用户的需求。


聊天与推荐服务


显然,一个智能音箱不仅仅是一个对话机器人,它还要适应不同用户的不同需求,提供聊天服务或音乐推荐服务。


聊天机器人在声音和内容两个方面都要与人类似,这是人机顺利交互的关键。亚马逊和谷歌等公司正鼓励开发嵌入式设备机器人。它们应该基于开源聊天机器人接口,如亚马逊Lex Chatbot或Google的API.ai.


音乐推荐功能是当今智能音箱的另一个核心功能。就像个人音乐电台一样,要凭借机器学习训练海量数据,为用户播放最适合的乐曲。这非常类似于亚马逊的产品推荐功能,还是YouTube的视频推荐功能。


音乐推荐算法要学会评估用户的偏好。这主要是利用收听特征(收听时长),用户特征(收入,年龄,性别,地理位置等)和曲目特征(曲目,艺术家,流派,频道,关键词等)作为数据库进行学习的。


在不久的将来,就机能和性能而言,不同的智能扬声器间不会有太大区别。差别将主要在于功能的多样性.Echo和Google Home正不断竞争,尽可能地发展和集成更多功能。


?未来的虚拟助手可以将我们的生活掌管到什么程度呢只要拥有足够的数据和合适的模型,它们将有无限的可能:


“罗马餐厅随时都有莫纳迪啤酒吗?”
“他们的莫纳迪啤酒在晚上七点之前有特价活动,卖五美元一品脱。不过记得你晚上九点要接Leslie,得限制酒量啊。如果你喝了超过两品脱,我就要把你的车给锁了......而且你已经胖了两公斤了,你真的确定要吃意大利菜吗?......对了,猫还抓了只老鼠回家......」

硅谷顶级人工智能大会将在本周五盛大召开,请抓紧报名 www.aifrontiers.com代码AI4JQZX。


原文链接:https//syncedreview.com/2017/10/31/inside-the-voice-inside-your-smart-speaker/

入门产业智能音箱语音识别自然语言理解
刘晓坤
刘晓坤

机器之心编辑

返回顶部