为什么机器讲话的声音难以做到娓娓动听?

你也许看过IBM Watson在2009年智力竞赛节目Jeopardy!上的精彩表现,又或者瞥过一眼该科技公司让Watson和网球女将Serena Williams,经济学家Richard Thaler,和摇滚音乐人Bob Dylan对话的最新广告。

即使没有,你也应该在某个时间段和会说话的计算机接触过。但是,创造一个能交谈并且有说服力的电脑真的很难。在纽约时报周一的报道中,专栏作家John Markoff就讨论了创造IBM Watson语音功能背后的心血,并探讨了创造更加自然、可令人接受的电脑语音的不易。

语音功能是人机交互的迷人挑战之一:当涉及到声音通讯,社交和情感线索是非常重要的。如果类似Apple Siri和Amazon Alexa的助手软件的声音不自然,沟通将会很不愉快。假设类似的系统不能够识别用户的语调并相应地适度调节自己的声音,那结果也会很令人烦恼。用户在无奈中反复问同一个问题,感觉就像被不断生产相同回复的人工声音侮辱了智商。

自Siri问世以来,笔者就撰文写过在创造可以娱乐用户的产品同时,应该避免惹怒他们的重要性。事实上,把人工智能融入到现有社会结构的需求,解释了为什么我们觉得有必要给机器人分配类似性别的特征。也许这甚至可以解释为什么Apple最近收购了Emotient,一家专注于理解和应对人类情感的公司。

her

Joaquin Phoenix在电影《她》中爱上人工智能

同样有趣的是拥有一个真正引人入胜的情感功能强大的计算机,像导演Spike Jonze在电影《她》中刻画的那样。不过,就连它也很难解码并且模仿人类沟通的细微之处。正如IBM Watson多式联运实验室的高级经理Michael PichEny对纽约时报说的那样:「一个好电脑的界面是一件艺术品,并应该被视为艺术品来对待。」

随着机器学习和运用人工智能的传播,技术人员正面临着人工智能变得太过真实的问题——近乎毛骨悚然的实感。

其中一个突出的领域是科技驱动的语音技术,纽约时代专栏作家John Markoff写道。当类似AppleSiriAmazonAlexa的声控助理被安装进像iPhoneAmazon Echo的设备,软件设计师开始注意语言和如何跨越让令拟人技术有毛骨悚然感觉的恐怖谷uncanny valley)。该理论的假设指出,由于机器人与人类在外表、动作上相似,所以人类亦会对机器人产生正面的情感;直到一个特定的程度,他们的反应便会突然变得极其负面。哪怕机器人与人类只有一点点的差别,都会显得非常显眼刺目,使整个机器人显得非常僵硬可怖,使人有面对行尸走肉的感觉。可是,当机器人和人类的相似程度继续上升,相当于普通人之间的相似度的时候,人类对他们的情感会再度回到正面,产生人类与人类之间的移情作用。

461px-Mori_Uncanny_Valley_zh.svg

恐怖谷理论

「恐怖谷理论uncanny valley)在1970年由日本机器人专家森政弘提出。随着机器学习创业公司的萌芽和类似GoogleFacebook的巨型科技公司涉水人工智能领域,恐怖谷理论变成了一个越来越困扰技术人员的现象。它可以催生我们对人工智能的恐惧,导演Thomas Gibbon甚至在2014年指导过同名舞台剧。

本文作者:Mandy,参考来源MIT TRNYT

入门
返回顶部