撰文高静宜

测评 | 小度智能音箱的性价比究竟「高」在了哪里?

在这场悄然打响的智能音箱价格战上,百度终于拿出了自己的王牌。

「89 元,这只是酒店菜单上一份凉拌豆腐丝的价格啊。」

在 6 月 11 日百度在京举办的小度新品发布会上,身为「小度智能音箱」代言人的蔡康永在揭晓其尝鲜价后惊讶地说到。

在这场悄然打响的智能音箱价格战上,百度终于拿出了自己的王牌。

这是继两个月前发布国内首款智能视频音箱小度在家后,百度小度 AI 硬件系列的第二款产品。

相比前作,不带屏幕的小度智能音箱小巧而便携,外观呈圆柱体,直径约 90 毫米,高约 102 毫米,接近一听可乐的大小。

麻雀虽小,五脏俱全。百度智能生活事业群组(SLG)总经理景鲲表示,这款智能音箱拥有「毫不妥协的硬件配置」。

不仅拥有高效的语音识别速度及优质的音频处理效果,能够提供 360°的听觉体验,还搭配了主动降噪、波束成形和远近场拾音技术,可以在 5⽶内通过语音轻松唤醒。

除了音质外,智能程度也是衡量智能音箱产品差异性的重要衡量指标之一。

在景鲲口中,小度智能音箱追求的是「更领先的智能体验」。

在被要求对小度智能音箱与小 S 进行比较时,蔡康永也笑言:「S 虽然个儿小,但腿肯定比小度长;而在脑容量上,可能差了一万倍吧。」

那么,景鲲口中的那么「领先」意味着什么?蔡康永所谓的「万倍脑容量」究竟如何?在这款智能音箱上百度的 AI 技术实力体现在哪些方面?

为了解答这些问题,我们对小度智能音箱进行了一次深度测评。

AI「小当家」的贴心指数

小度智能音箱号称百度 AI「小当家」。而对于用户来说,一个「小当家」的存在不仅仅是通过对话来解决生活中遇到的问题,更重要的是足够「贴心」。

景鲲表示,小度智能音箱就是这样一款智能产品,「它会越用越懂你。」

以听音乐场景为例,用户在使用智能音箱的过程中有超过 30% 的音乐需求是所谓的「泛需求」,换句话说,可能发出的指令并不会具体到某一位歌手的某一首歌,而往往是带有标签的一大类歌曲,例如「嗨曲」、「Rap」、「新歌」、「韩国女团的歌」。

最开始,小度会根据相应的歌单为用户随机推荐歌曲,伴随着用户使用频率的增加以及对歌曲喜好的表露,小度可以不断学习用户的听歌习惯,进而掌握用户的最爱歌单及曲目,并在此基础上进行推荐。

而小度智能音箱之所以能够进化成为一个「专属点歌机」,背后是对曲库中歌曲打上了 7000 多个音乐标签,例如「心灵深处的声音」、「硬核说唱」、「入睡纯音乐」等。如此一来,相比于第 1 天,在第 30 天使用音乐推荐时,小度推荐的音乐会更加符合用户的音乐品味。

当然,小度智能音箱的「贴心」不仅局限在听音乐场景,也体现在日常交互的方方面面。它不是人们传统认知上的冰冷的机器管家,而更像一个「老朋友」。

例如,小度智能音箱会根据不同的用户做出不同的问答响应。也就是说,同样在早晨唤醒小度,它可能会为喜欢听音乐和喜欢听新闻的用户提供不同的问候与内容。

这是小度智能音箱的场景定制化功能,能够针对早晨和晚间两个场景,可以根据用户的使用习惯,在特定时间打包新鲜的资讯、天气、穿衣指南、交通、股市行情等信息。

值得一提的是,在不同时间段与小度进行交互时,还可能会收获附加小惊喜。

例如,在对小度说「晚上好」时,会出现蔡康永的声音帮助转达小度对你的关心。在中午对小度问候「早上好」时,小度则会回以「什么?12 点是早晨了吗,我以为人类管这个叫中午呢」进行调侃。另外,在测试的过程中,我们向小度提问了许多关于世界杯的问题,也恰逢世界杯开幕在即,在一次唤醒小度时,它的回应是:「午安,世界杯来啦,高不高兴,激不激动?」这着实让人惊喜。

为了更好地适应不同场景及人群的需求以便最大程度展现「智能力」,小度智能音箱还开启了两大特别的能力——「儿童模式」和「极客模式」。

据统计,智能音箱的用户有 20% 以上均为儿童。作为每个家庭的重要成员,孩子与智能音箱的交互方式是很多家长选择智能音箱产品的主要参考因素。为此,小度智能音箱专门打造语音合成声音,利用童声缩短与孩子的沟通距离。

除了声音,「儿童模式」的下交互内容与交流方式也都是专门为孩子设计的。下图为「儿童模式」与普通模式下,小度智能音箱对同一问题的回复比对。

除此之外,小度智能音箱还会识别孩子的负面情绪,并进行正确积极的引导。

例如,当孩子对小度说「我好可怜啊」的时候,小度将回以「小度陪你玩游戏吧」;听到「我不想活了」这样的话,小度则会安慰:「不要这么想,活下去才能看到希望啊」。

在内容方面,小度智能音箱在拥有 100 万+音乐资源、1000+省市广播电台、1000 万+有声内容资源以及 400+生活技能的同时,也为儿童群体引入了许多有趣的技能和丰富的儿童内容资源,不仅包括精选的儿歌、故事、儿童百科,还有具备猜谜语、词语接龙等技能。

小度智能音箱首发的「极客模式」是这款产品的亮点之一。

通常情况下,用户在与智能音箱进行日常对话时的每个指令均需说出唤醒词,无论是从对话效率还是使用体验方面,都是称得上是一个「痛点」。

而在「极客模式」中,音箱会在语音播报后主动等待 8 秒,并在这期间自动收音,用户无需再次唤醒音箱,就能实现人与音箱间连续对话,8 秒过后用后如需进行对话则需再次唤醒。

小度智能音箱背后的 AI 交互能力

对于一款智能音箱产品来说,如果没有足够坚实的语音交互能力,那么哪怕持有再丰富的内容资源和生活技能也将没有用武之地。

小度智能音箱就搭载了最新的百度 DuerOS 对话式 AI 操作系统。这是一款建立在语音识别、图像识别、自然语言处理、用户画像等技术能力之上的对话式 AI 操作系统,是百度技术的集大成者。

在小度智能音箱的发布会现场,景鲲公布了 DuerOS 的最新进展:激活设备量已超过 8700 万,月活设备量已超过 2140 万。与此同时,DuerOS 的生态圈也在持续扩大,合作伙伴已经超过 200 家,搭载 DuerOS 的落地主控设备达到 100 多款,DuerOS 平台聚集了 13000 多名开发者。

那么,在这款小度智能音箱上,百度的 AI 技术实力得到了怎样的展现呢?

为了对其语音交互能力进行评测,我们精选了带有「陷阱」的 10 个问题分别在近场(1 米)以及远场(3 米)的距离对小度进行发问,并从语音识别正确性及反馈结果的正确性两方面给出答案。

以下为近场交互情境下的测试结果:

不难看出,在近场交互情境下,小度智能音箱可以准确识别出问题,并能够在大多数情况下给出正确答案。尽管也出现过「超纲」情况,但小度仍努力给出机动性的回应。例如,在被要求播放 Tara 的歌曲时,小度就表示「正在学习这首歌」,并推荐了一首「同样好听的歌曲」。

之后,我们在远场情境下向小度智能音箱提出了同样的 10 个问题。测试发现,语音识别的正确性没有变化,几乎能够全部准确识别出来。从另一个角度来看,这也体现了百度的 AI 技术实力。

总体上,无论是从资源内容的覆盖度、语音的交互能力,还是在产品的性价比方面,小度智能音箱已经走进国内智能音箱产品的上游之列。

从性价比的配置上不难看出百度对这款小度智能音箱的诚意和决心,而要想让「小度小度」成为如「百度」一样在人们日常生活中不可或缺的存在,首先还是得通过市场和时间的检验。

产业百度智能音箱自然语言处理
相关数据
自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语音合成技术
Speech synthesis

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。