微胖编译

Alexa学会了「回忆」,但这还只是机器「理解上下文」的一小步

前几天,亚马逊推出了三个针对 Alexa 的改进方案,而且要在 5 月底之前实现这些功能。

其中重要的一个功能叫做「context carryover」(上下文转携):当语音请求从一个转向另外一个时,Alexa 可以「回忆」起之前的信息。

也就是说,当用户连续问几个问题时,不需要在第二次发问时重复同一个信息点。比如,问「Alexa,西雅图的天气怎么样?」之后接着问「这个周末呢?」,它可以理解到用户要的还是西雅图在周末的天气情况。

利用深度学习模式在口头语言理解流程中的优势,它可以更自然地理解用户的后续问题并作出恰当回应。

另外,Alexa 还将拥有一项新的记忆功能,可以帮助 Alexa 保存用户指示它记住的信息,并加以提醒。

例如,通过发出类似「Alexa,请记住肖恩的生日是 6 月 20 日」这样的指令,Alexa 就会回答:「好的,我会记得肖恩的生日是 6 月 20 日」。Alexa 也可以在当天向用户自动发出提醒。

最后,亚马逊还提高了 Alexa 的搜索和执行新「技能」的能力,这种新的「技能」与智能手机应用程序相当。

例如,询问 Alexa 如何去除衬衫上的油污,就会激活「汰渍剂」技能,通过去污过程与用户交谈。

还有些技能帮 Alexa 用户检查信用卡余额、获得开盘的股票价格,或者只用几句话就能把酒和饭菜搭配起来。

最近,《科学美国人》采访了亚马逊语音助手研发业务负责人 Ruhi Sarikaya。

他曾于周四在法国里昂举行的 AI 会议上发表主题演讲。Sarikaya 讨论了语音识别和自然语言处理的进步如何帮助简化 Alexa,使技术能够更好地解释用户想要什么。《科学美国人》也就相关问题与他聊了聊。

语音会是我们与设备交流的主要方式,你是根据什么做出这样的判断?

想想 1976 年吧。

苹果 (Apple) 联合创始人史蒂夫•沃兹尼亚克 (Steve Wozniak) 创建了第一台带有显示器和键盘的个人电脑。直到今天,人们仍然使用显示器和键盘来与他们的大部分设备进行交互。

即使使用智能手机,你要么打字,要么触摸屏幕来获取输出。这是一个问题,因为它实际上让我们患了「葛优瘫」。即使你可以四处走动,但注意力仍然集中在屏幕上。

这种情况会随着语音技术变化而有所改变。原因有三个:

小型设备的计算能力增强; 收集和分析大量数据的能力; 以及机器学习的进步,特别是深度学习。这些类型的人工智能算法使语音识别和自然语言理解更加准确。

想在消费产品中很好地使用语音界面,最大的挑战是什么?

主要集中在两个层面:组件层面(component-level)和用户体验层面。

当环境相对安静时,语音识别准确率非常好。如果有背景噪音或很多人在说话,那么我们仍然需要应对这个挑战。多个人同时说话时,你需要能跟踪不同的声音。

至于理解自然语言,上下文语境是关键挑战。

如果数字个人助理的任务仅限于少数领域或功能,例如,播放音乐,就很容易理解用户的意图。除此之外,如果还需要对电影、视频和有声读物的数据进行筛选,如果接到一个突然的命令,「播放 X」这个指令的意思就会变得模棱两可,因为它可以指这些任务中的任何一种。

与智能设备设备交互,上下文语境为什么那么重要?

如果你和我正在聊天,我可能会把上次我们谈话时的信息代入。我们不需要重复我们之前讨论过的一切,以实现无缝对话。

这对人们来说是很自然的。但是,当你和机器交谈的时候却不是这样。现在,你必须使用精确的措辞才能被理解。

你可能认为如果一台机器足够聪明,它将能够从早期的对话中获取信息。

比如,如果问「Alexa,西雅图的天气怎么样?」之后接着问「这个周末怎么样?」,我希望听到这个周末西雅图天气情况,但不会在第二个问题中明确说出来。

如果我问「Alexa,今天的日程安排是什么?」系统利用存储在日历上的信息会立刻作出反应。如果我接着问,「这个周末怎么样?」我希望这个周末能得到日历信息,而不是天气信息。

对于第二个问题,在没有背景的情况下,可能会有许多种答案。这被称为「会话上下文」,它允许机器根据当前的会话正确地回答问题。

机器如何学习理解上下文?

从接收语音命令的设备开始。

你不能在亚马逊 Echo 上播放视频,所以当用户要求设备播放一个特定标题时,这就缩小了设备的选择范围。

 您还可以使用该设备查看用户的个人偏好,包括先前的请求和随着时间推移给设备发出的其他命令。这就是机器学习发挥作用的地方。

背景噪音很大,如何提高 Alexa 的识别能力?

这是一个开放的问题,我们正在取得进展。过去致力于发展语音技术之后,我认为有几种不同的方法:

一是先清理或移除背景噪声,然后对剩下的数据进行语音识别。当你这样做的时候,一个副作用就是你可能删除一些与语音本身相关的数据。

另一种技术是尽可能多的收集特定环境中的声音,并配备系统地图,或识别不同的声音ーー无论是背景噪音还是语音。但挑战在于,因为有这么多不同的声音,以至于很难确定它们的来源,尤其是电视机开着的时候。

亚马逊如何使用 Alexa 用户的信息?

我只能谈 Alexa 的机器学习部分。

机器学习依赖于从 Alexa 用户收集的数据。我们不会使用所有这些数据ーー我们为某些类型做了标注,以便教 Alexa 识别不同的声音线索、音调 (男性和女性) 和口音。我们的客户是多样化的,我们希望 Alexa 能够识别不同的用户。我们不能建立一种只适用于一类声音的技术。

亚马逊如何解决人们对 Alexa 隐私问题的关注?

Alexa 在云端存储用户信息,而不是设备本身比如 Echo 或者智能手机。

消费者有能力删除他们想要 Alexa 忘记的任何内容:应用程序和"管理你的内容和设备"网页中使用到的任何信息。

例如,你可以通过在 Alexa 应用程序中访问「Settings」中的「History」来检查与 Alexa 的语音交互,并删除与你的账户相关的特定声音记录。

文章来源:https://www.scientificamerican.com/article/alexa-how-do-we-take-our-relationship-to-the-next-level/?utm_source=twitter&utm_medium=social&utm_campaign=sa-editorial-social&utm_content=&utm_term=tech_news_text_free&sf187853846=1

产业自然语言理解深度学习Alexa亚马逊
暂无评论
暂无评论~