Rik R 王宇欣编译

奖金高达350万美元的Alexa Prize竞赛背后,是亚马逊在聊天机器人上的野心

来看看如何让智能助理变得更聪明。

Alexa Prize 是亚马逊举办的一项百万美元大奖赛,这项赛事的初衷是鼓励大众创造出能够像人类那样聊天的人工智能。


颁奖典礼上,去年的获胜者们对 2018 年的参赛者友好地发出了「警告」:你的聊天机器人会一团糟,它会说一些讨人厌的话,而且它还会脱机。

「机器说起话来尽出洋相。」Elizabeth Clark 这样说道。她来自华盛顿大学,是去年的冠军小组 Sounding Board 的成员,在台上与她的研究员们分享了各自的经验。

教会机器如何开展真正的对话是人工智能所面临的最艰难挑战之一

「圣诞期间发生的最多的一件事情就是,很多人都想与我们的机器人谈论圣诞老人,」Clark 说道,「不幸的是,我们拥有的有关圣诞老人的内容都是这种:『你知道前几天我意识到了什么吗?圣诞老人是有史以来最精心的谎言。』」


聊天机器人之所以选择说这一句,是因为其训练算法有教过它使用 Reddit 上的笑话。Clark 解释道,虽然对于成年人来说这句话很有趣,「不过你想想,那些想和圣诞老人交谈的人很多都是孩子。」


在圣诞节前,你会告诉一个好奇的三岁小孩说圣诞老人是个谎言吗?这可是非常失礼的事情。

这类失误完美地囊括了 Alexa Prize 所提出的挑战,这个比赛将有助于塑造出语音计算的未来发展。

从表面上看,亚马逊并没有太多的要求:创建一个使用 Alexa 的聊天机器人,它只要能够正常地与人类交谈 20 分钟即可,那么你就有机会得到 150 万美元的奖金(另外还有 200 万美元的其它赠款和奖品)。

但正如 Clark 所说的,这仍然超出了当前技术的能力范围。

计算机对这个世界所知不多,人们也没有什么简单的方法可以教会它们说话。“不要毁掉孩子们的圣诞节”——这条训诫并不容易被编译成代码。

这也是 Alexa 的机器学习首席科学家 Rohit Prasad 把这个奖项与 DARPA 超级挑战赛相比较的原因,后者是由美国军事机构在 2000 年中期为打造自动驾驶汽车而建立的一系列竞赛——虽然早期的参赛者们没能完成这个任务,但比赛所提供的百万美元奖金却刺激了这项研究的发展。

Prasad 表示,他希望 Alexa Prize 能够让对会话式人工智能拥有类似的发展。

亚马逊在竞赛中的收益

今年,世界各地的大学中选出的 8 个团队将利用亚马逊的资源分别打造出他们自己的聊天机器人,包括Alexa 的基本语音识别工具,AWS 的免费计算能力,以及千万名 Alexa 用户的训练数据栈。

上个月,这些机器人在美国上线,用户的反馈将帮助团队在 11 月份开启的评选进程前进行改善。如果你现在住在美国并且想和一个机器人聊天,只需对着任何一个  Echo 设备说,「Alexa,我们来聊聊吧」,就将被随机分配给某个团队的聊天机器人。

在去年举办的首届比赛中,华盛顿大学的聊天机器人平均只能成功进行 10 多分钟的对话,而今年这项大奖花落谁家仍保持着悬念。

当然,亚马逊这样做并不仅仅出于学术利益的考量。

通过组织 Alexa Prize 比赛,公司让人工智能领域中一些最聪明的人才排着队在其平台上搭建技术,还有机会聘请到那些拥有光辉前途的研究人员。

正如 Prasad 所说:「作为 Alexa Prize 的一部分,参赛者打造出的所有技术都适用于 Alexa。」


而当记者向这些团队询问这一点时,他们都没有感觉到自己被「利用」了。一位研究人员表示:「这对他们来说很划算,但对我们也很有利。」


在 Prasad 设想的未来里,Alexa 可以像人类那样进行对话,谈论诸如电影、新闻和体育之类的话题,回答人们所关心的细节问题,还将具备超出普通问答机的能力范围。区别在于「谁赢得了 NBA 总决赛」和「詹姆斯昨晚的表现怎么样」这两个问题的答案。

「一个更健谈的 Alexa 会变得更加个人化,用户可以将这一实体当做自己的一个朋友、伙伴。」Prasad 说。

然而,一个像钢铁侠的贾维斯那样内敛而机智的虚拟助手,却有可能只会出现在幻想中。

如果你曾与 Alexa 或是 Siri 以及谷歌助手交谈过,那么你就会意识到现在的人工智能助手在会话方面是多么愚蠢。

它们至多只能处理一些基本命令,比如「启动一个五分钟的定时器」。在某些糟糕的情况下,它们甚至无法正确理解包含一个以上从句的句子。

诚然,正如 Prasad 所设想的那样,Alexa 有很大潜力成为家庭的一份子,但这更多地说明了人们对周围世界进行拟人化的本能,而非该技术的核心能力如何。

问题在于:如何教会 Alexa 开展真正的谈话?

每个人都从机器学习入手,但是最后人们都意识到它并不是真正管用

对于今年 Alexa Prize 的参赛队伍来说,解决这项艰巨任务有两个基本方法。

第一种是使用机器学习,尤其是深度学习,去分析大量数据,并慢慢筛选出一个正常对话的模式。

这是最令人兴奋且最新式的选择,然而,不断有团队表示,这也是最不切实际的做法。一位竞争选手说道:「每个人都从机器学习开始,最终,每个人都意识到它并不真的管用。」


原因是什么呢?

人类语言是由严格的规则和多样的变体构成的,人工智能系统很难仅仅通过数据去学习这些知识。语言包含许多涉及语法、拼写和音调的棘手规则,也是一个充满无限想象的空间,人们可以使用近乎无限多的词语来传达相同的基本信息。

在有限任务中,机器学习非常善于学习模糊的规则,例如发现猫狗之间的差异或是识别皮肤癌,但它并不能轻易地将一堆数据转换成构成现代英语的复杂、交叉且偶尔不合理的指南。

虽然人工智能很擅长生成与所见例子相匹配的新数据,例如在看到大量的红毯明星照之后画出假的名人肖像,但它在语言领域很难不犯错误。

第二种方法则是为聊天机器人编写一个可遵照的特定规则和模板,这是一种被称为「手工制作」或「硬编码」的人工智能设计方式。例如,如果一个用户说「最喜爱的球队」这个词,并以问句的形式表达出来,那么计算机可能会扫描特定运动方面的索引,找到提及「棒球」的相关内容,然后输出一个预先写好的回复:「我最喜欢的球队是洋基队」。

这种方法可以产生与提问相一致的结果,但设计过程费时,会犯很多错误,且只能处理有限数量的话题。

不过,很多时候这种硬编码式的聊天机器人在复杂的条件可以走得相当远。以 ELIZA为例,这个诞生于 20 世纪 60 年代的「精神病专家」聊天机器人,仅仅通过「你能详细说明一下吗?以及「这让你感觉如何?」这样的常见短语而出名。

但是,一个纯手工打造的聊天机器人最终会撞上 Alexa Prize 的评委们,这些人不仅会发现其谈话生硬,还会察觉到它们无法谈论突发性新闻这类最新话题——这在去年的判决中经常出现。

有参赛团队表示,解决办法就是将这两种方法融合起来,即把机器学习的创造性与手工制作的形式结构结合起来——聊天机器人的部分智能是由数据池生成,也有部分来自预先编写的规则。当然,某种情况下也可能会作弊。


来自瑞典皇家理工学院(KTH)的  Fantom 聊天机器人团队就使用了这种方法,他们表示自己的做法并不涉嫌作弊。

面对以上这些技术挑战,Fantom 团队表示,他们不想冒险使用互联网上的数据集去训练一个机器学习聊天机器人。

「如果你的数据是从 Reddit 上刮来的,你会无法控制内容。」Fantom 团队的 Gabriel Skantze 说道。因此,他们转向了另一个亚马逊产品:劳务众包平台 Amazon Mechanical Turk。

Amazon Mechanical Turk 是一个需要人类智慧而无实际训练的劳务众包平台。上面的任务通常是费力和重复性的,包括音频录制、数据录入、识别照片和视频中的对象等。而这些正是人工智能所要自动化的任务,对于许多需要生成训练数据或测试其系统的人工智能研究人员来说,Mechanical Turk 是一个不可或缺的的工具。

在 Fantom 团队的例子中,他们决定利用它为聊天机器人写回复。他们收到的每一个查询会被发送给一个人类 Turker,由他来作答并将其发送回去。这是一个自动化的过程,但是由人类来为机器做工作。

在被质疑这种做法似乎是绕过了挑战赛中的人工智能部分时,Fantom 团队的研究人员表达了反对。

虽然他们的聊天机器人将利用人类来生成回复,但是在回复对会话的反馈方式方面,蕴含着一个强大的机器学习元素。每次聊天机器人听到一个无法回复的新问题时,它会把问题发送给 Turker,并把他们的回复添加到一个巨大的对话树中。

机器学习将有助于识别出那些已经遇到过的问题的变种。如果聊天机器人已经回答过某个问题,例如「我喜欢足球。你最喜欢的球队是哪个?」,那么当它被问及「你最喜欢的足球队是哪个?」时,它就可以使用同样的回复。

「随着时间的推移,我们将开发出越来越多的智能策略来填充这棵对话树,」团队的Ulme Wennberg 说,「以便让它能够理解我们刚刚谈论了什么,你想谈论什么,我们应该谈论什么。」


优秀的对话人工智能离不开个性与模仿

在塑造聊天机器人的人物形象方面,Fantom 团队也投入了大量的工作。

这是构建一个令人信服的对话伙伴的关键组成部分,团队的常驻语言学家 Mattias Bystedt 创造了一个有关美国名人及其个性类型的「壮观文件」,以找出「对美国人最有吸引力的东西」。他把最常见的特征联系起来,并根据这些特征写了一些个性提示,来指导 Turker 的回复。

「我们正在创造一个角色,就像电视节目中那样,」名为 Jonas Ivarsson 的研究人员这样说道,「为此,我们必须弄清楚人们被吸引点在哪里。」


Fantom 团队的方法可能看起来很笨拙,但它具有创造性,并且提出了一个经常被忽视的人工智能事实:许多自动化过程都是以人类劳动所创造的数据开始的。

使用机器学习来生产回复的其他 Alexa Prize 参赛团队仍然需要在一些数据集上训练他们的聊天机器人,他们中的大多数将转向少量由人类生成的常用数据源,如 Reddit、Twitter 和转录的电影对白。

对于来自犹他州杨伯翰大学的团队来说,找到训练数据源很简单:他们瞄向了他们的同学。

为了收集数据,这个 Eve 聊天机器人团队成立了聊天小子挑战赛(Chit-Chat Challenge)——一个需要学生提交对话记录的校园比赛。

该团队称,对话内容可以是任何事情,但不能包括个人信息或是只有大学生才感兴趣的话题。比赛评定标准是对话长度和独创性,得分最高的参赛者会获得 iPad 和 MacBook Pro 等奖项。

杨伯翰大学的 Nancy Fulda 说,这项挑战赛获得了意想不到的成功,产生了大量的有用数据。

「互联网给我们提供了大量的文本,但没有一个是对人类会话的真实模拟。」她说。

与其他竞争对手一样,Eve 团队原本尝试使用 Reddit 数据训练机器人,但他们认为通过这些数据训练出来的人工智能不太会令人愉快。

Fulda 表示,杨伯翰大学是一所由摩门教会所拥有并经营的宗教大学,所以学生们共享「同一个世界观」,这反过来又为聊天机器人创造了「一个更加统一的个性」。

到这里为止,Eve 团队与 Fantom 团队的做法是一样的。但当 Fantom 的研究人员计划逐字回收他们通过人类生成的回复时,Fulda 和她的队友将试着在数据上训练出一个机器学习系统,以编写他们自己的对话。

考虑到之前发生在 Alexa Prize 上的对话「车祸」,记者向团队发问他们这样做会不会很难。

「一点都不,」他们说,「只需先把单词进行转换即可。」


Fulda 解释,为了训练机器学会词汇,首先先要要让它们来读维基百科 而且是所有的维基百科。

神经网络会在小窗口中扫描文本,每次只集中在一个单词上,但也能「瞥见」目标单词周围的三到四个单词。然后,神经网络就学会了预测某一目标单词之后可能出现的单词组合,并将这些数据转化为所谓的「矢量表示」。 你可以将这些矢量想象成三维空间中的点,尽管这些数据的维度一般要远超三维(通常是数百维)。

矢量的位置是任意的,并且矢量本身并不捕捉任何与单词有关的意义,但是两个矢量之间的关系具有意义。

「通过查看空间中的不同单词,你可以推测出它们的性质。」Fulda 解释道, 「『苹果』、『梨』和『橘子』这样的单词彼此之间会紧密连接,而像『disestablishmentarianism(主张政教分离者)』这样的词则会与上述单词相距甚远。」


,还设计了一种新型机器人架构。在这个架构中,中央对话管理器可以把会话呈递给附属的「迷你技能」,这样一来, 每种机器人都有不同的特点:有的可以谈论电影,有的可以阅读新闻,还有的可以和人开玩笑。

这意味着,团队可以根据他们的希望,为用户定制对话进行的方向。他们甚至还增加了一个可以追踪用户情绪和口头反馈的子系统,有助于团队遵循对话风向,就像水手一样能够让船安全驶入海港。

「如果有人表示『很无聊,太可怕了,太糟糕了』,那么我们会检测到这些反馈,然后表示我们非常遗憾。」Elizabeth Clark 说道,「我们总是想要确认用户说了些什么,然后改变主题并提出一些新的方向。」


这种做法的结果非常有效。团队表示他们很高兴不用再参与 Alexa Prize 第二年的竞争。当有人问他们为什么不在座谈会期间回来时,他们的导师很快地大声回应道:「他们需要完成博士学位!」


可能会让人们上瘾的对话式人工智能

亚马逊高管表示,Alexa Prize 展示了他们的一种决心。

基于语音的计算就是未来,他们这样说道,或者更准确地说,它是未来的一部分。

「我坚信,环境计算是会一直留存下去的。」亚马逊的设备主管 Dave Limp 说道, 「一年前我不会这样说,那时我们还没有走到这一步。」


如果环境计算确实成立,那么亚马逊将有一个非常好的机会在该领域一马当先。

Limp 表示,与谷歌助理和苹果的 Siri 不同,Alexa 是独一无二的,它从来没有考虑在手机上进行开发,这意味着它不必与现有的用户界面竞争。

「我们必须从头开始搭建我们的助手,」他说道。

与此同时,亚马逊将 Alexa 视为一个平台性服务。负责语音助理的团队不仅为消费者提供新功能,也在构建工具,以便其他公司可以将 Alexa 用于自己的产品和服务之中。这就是为什么 Alexa 会出现在闹钟到汽车等各个领域。

在许多方面,亚马逊公司使用语音助手的策略也反映出了其云计算服务 AWS 的能力。AWS 可以为其他公司提供计算处理能力和数据存储服务,现在基于 Alexa,亚马逊正在试图为他们提供语音界面。如果环境计算是未来,那么 Alexa 很可能成为占据主导地位的操作系统——语音计算版的 Windows。

「我的工作可以让我有机会对未来进行展望,」 Limp 说道,「我可以看到制造商正在制造什么,我们的算法团队正在提出什么,最尖端的科技是什么。我和我的团队可以将这些点相连接,为客户想要的未来去做一些冒险。」


他认为,客户想要的是一种通过与空气对话就可以掌控身边数字化世界的钥匙。

这也解释了为什么 Alexa Prize 对亚马逊是如此重要:公司想要确认,语音界面可以在未来拥有远超当前的能力。

借助亚马逊在建设和推广计算平台方面所拥有的商业影响力和专业知识,Alexa 成为全球默认的语音界面并不令人奇怪。但是,如果人工智能可以像手机识别屏幕触控一般了解简单的语音命令,是否会改变世界呢?

也许答案是否定的,这仅仅意味着人们会少看电脑屏幕而已。

显然,人工智能社区的野心远大于此。如果人们能够真正地与设备进行交谈——不仅仅是命令它们,而是要与它们对话——那么人类与数字世界的关系就会被颠覆。

想象一下,一台可以像人类一样讲话的计算机,而且还具有互联网的知识以及机器的灵活与耐心。再想一下,如果它听起来还像你最喜欢的明星或者你认识、喜欢的人,那么你将会在这样的设备上花费多少时间。

尽管研究人员对自己的团队在今年的比赛中获得 150 万美元大奖的机会表示乐观。但他们也同意,实现真正的谈话仍然遥遥无期。

当 Sounding Board 团队被问到对话式人工智能尚未解决的挑战是什么时,他们给出了这样的答案:

深度,理解,智慧。

正如团队的负责人 Hao Fang 所总结的那样:「我们不能与用户进行更深入的对话,因为我们无法理解用户所说的全部内容,也无法理解我们从对话中学到的内容。」


必须承认的一点是,目前聊天机器人尚处于开发的初始阶段。人们仍然可以清楚地察觉到机器人存在理解的鸿沟,也可以听出来聊天对象的声音是人为制造出来的。

今年 Alexa Prize 中各个团队的开发技巧固然值得称赞,但要让聊天机器人达到人类这种巧舌如簧的程度,还有很长的路要走。

产业语音助手亚马逊
暂无评论
暂无评论~