Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

渡鸦音箱独家测评: 代表百度AI技术尊严的DuerOS, 用户体验真的能过关吗?

撰文 | 宇多田

在今年三个多小时的世界大会主论坛上,百度把一半时间都留给了渡鸦音箱。



这个造型极其吸睛的四色正方体,暂时代替了无人车,成为李彦宏唯一揣到兜里带到乌镇互联网大会的「百度技术代表作」。



与其他重量级 AI 硬件厂商相比,百度推出这款音箱的时间绝对不能算早。

在已经有了阿里、小米、京东等一众巨头摇旗呐喊的智能音箱市场,大概只有百度自己知道,这款姗姗来迟,且并不便宜的音箱,到底能不能让消费者买账。


渡鸦音箱 Raven H,市场价格 1699 元


如何来衡量它呢?

对于一款普通音箱来说,音质必然是重中之重;而智能音箱,标准则要复杂太多。

不过,各家厂商最不愿听的,其实不是「音质差」,而是被叫做「智障」。

虽然在某种程度上,截止目前,这个称呼安在任何一家音箱上都几乎没差(谁用谁知道)。但在一定范围内,由于语音交互系统这个内核各不相同,各厂智能的音箱表现的确差异较大。

换句话说,在材质、音质、语音交互体验以及内容资源等多个评测维度中,后两者更为关键且联系紧密。

而对于要自称要 All in AI 的百度,虽然在很久之前就开始把 DuerOS(语音交互开放平台)嵌入到大大小小其他品牌的硬件产品中,而此次自家硬件的诞生,或许对于DuerOS继续招揽硬件生意起到「样板」作用。

没错,这是第一款可以让大众直接检验百度 AI 技术软硬实力的消费级产品。

拿景鲲的话来说,百度就是要通过这个音箱来告诉大众,什么才是不裹挟于成本与市场竞争的用户体验,为什么 DuerOS 才是真正的产业领导者·。

「无论从颜值、声音,还是内容和交互,渡鸦都是音箱类产品的标杆。有众多竞品是非常好的,因为这样市场会越来越大,但在音箱市场,我们想着重用户体验的突破,也应该有 iPhone 这样的定位。」

「软」要做 AI 时代的安卓,「硬」要做音箱界的 iPhone,百度的胃口不可谓不大。但这款音箱能否承「使命之重」,以下评测,算是渡鸦正式进入市场前的一个「小测验」吧。


渡鸦 Raven H 由主机和 touch 两部分组成。touch 就是手里的这块点阵屏,可单独拆卸作为远程触控板进行主机的操控,譬如你上厕所,就可拿着这个小屏控制卧室音箱


作为第一个拿到渡鸦音箱的垂直新媒体,我们首先并没有被它颜色鲜艳,且「风格清奇」的外观所迷惑(据说直男相当喜欢)。

但把它拿在手上反复摩挲,突然可以理解这番「想做音箱界 iPhone」的野心。这种被称为 Kalix 的箱体材料,有一种区别于常用普通硬件塑料或网布的特别触感(掺杂了颗粒感的顺滑)。


4 种颜色的搭配,是选择了色彩学中的德国工业标准色 RAL 体系)


而这种特殊的触感以及着色工艺,据称是渡鸦团队与比利时著名化学材料供应商 Solvey 的博士们协作几个月后才最终拍板的方案。

还有这个酷似乐高玩具的奇特造型,则在很大程度上出自瑞典著名消费品设计公司 Teenage Engineering 的手笔。


渡鸦的产品经理一直向我们灌输一种「美学与艺术优先」的产品理念,但我们知道,对比市面上其他音箱,这里面肯定有一笔不菲的设计费与材料费。

另外,假如这是一款美到爆表的音箱,但是「智商」和「功能」却低于市场平均水平,你愿意买一个这样的摆件回去,还是选择那些「穿着秋裤」,但价格相对低廉的普通柱状音箱?

因此,重点来了,「用户体验」才是我们最关心的。换言之,这次测试也是我们对 DuerOS 的一次考验。

为了能够全方位「折磨」出渡鸦音箱语音交互系统的各项水平,我们也请来了天猫精灵、小米音箱、Rokid(若琪)以及叮咚音箱,从「语音识别」、「语义理解」、「问题反馈」(包括多轮对话,能提供的技能与服务数量)等多个维度对这四款音箱进行横向评测:


从左到右分别是叮咚音箱、天猫精灵、渡鸦音箱、Rokid、小米音箱


远近场语音唤醒

对声音的捕捉,是智能音箱开始执行你指令的第一步。如果这款音箱能够有效过滤环境噪音,准确捕捉较远、较小的声音及指令,那么它才能继续「读懂」你的命令,进而做出合理的反馈。

在这一环节,我们首先在保证唤醒音量一致的前提下,从距离远近对 4 款音箱进行测试。

首先,在相对安静的环境中(只有窃窃私语声),我们分别在距离不到 1 米处,3 米处以及 5 米处,对四个音箱进行唤醒。

第二轮中,我们又将音箱播放的音乐调至 100 分贝,在距离音箱不到 1 米处和 3 米处进行唤醒,结果如下:



从这个结果来看,市面上大厂产品的远场识别的水平线基本一致。

但有一个很明显的问题,叮咚音箱与 Rokid 都是仅用闪烁灯(无声音)来提示用户「已被唤醒」,但在站着(明显高于音箱时,我们看不清 Rokid 的闪烁灯)或者是背对音箱的角度,我们有时候难以知晓音箱是否已经被唤醒。

一、远近场语音识别:

同样是基于不同的距离维度(小于 1 米、3 米、5 米),在相对安静的环境以及提问音量一致的前提下,我们分别问了 5 个音箱两个很基础的问题:

(1)北京天气怎么样?

(2)李彦宏是谁?

5 款音箱的表现如下:



这个结果同样看不出各个音箱背后的语音交互系统在语音识别方面的明显差异。

二、中英文混合语音识别

虽然各家音箱都表示可以进行「中英文混合识别」(提醒一下:他们单独识别英文的水平几乎为 0),但识别效果显然还是有些许差距。

我们问了这样几个问题,只能说,不要太过于期望国内音箱给你播想听的英文歌:

1、我想听 Justin Bieber 的歌

2、我想听 Alexander Jean 的歌

3、我想听 What do you mean

4、什么是 Tensorflow?

5、试了若干首不是小贾(Justin Bieber)和霉霉(Taylor Swift)唱的英文歌(结果……很不理想)

结果如下:



很明显,作为大 IP 和点播率较高的海外歌手,Justin Bieber 与 Taylor Swift 的歌意料之中地好识别,几乎 5 款音箱都准确识别出这两位歌手的英文名字。

但其他歌手就非常不理想了,譬如 Alexander Jean,尽管虾米音乐(阿里)与百度音乐(百度)曲库里都有他们的歌,但音箱都识别不出这个乐队。

而作为 Justin Bieber 的热门歌曲,What do you mean 的识别准确率普遍相对较高。

但在5款音箱中,对于其他稍冷门国外歌手的作品,无论发音多么简单,所有音箱的识别率都较低。

而一些英文专有名词,譬如 Tensorflow……还是不要难为国内的音箱了。这就像跟让 Google Home 说中文一样,绝对不能强求。

三、句子里只有单个关键词的语义识别:

如果说语音识别的准确率大同小异,那么音箱交互体验的差距或许会在语义识别方面逐渐显现。

在顺利捕捉到你的声音,并将这些模拟音频信号进行数字化处理(语音识别)后,关键的一步来了:对这些文本信息进行分析,「读懂」这些信息,然后才能给出一个正确的反馈。

这里的「基于单个关键词」,指的是句式中的主语一般只有一个,无形容词(范围限定词)。音箱在识别并分析单个关键词后,便能给出准确答案。

譬如:什么是 A,B 怎么样,来点 C。

我们问了 5 个问题,都是这种简单的句式:

1、刘强东是谁?

2、设个闹钟

3、放首周杰伦的歌

4、来点相声

5、想听娱乐新闻

而结果如下:



所有问题都有正确的反馈。

其中,对于「刘强东是谁」,Rokid 的回答稍简单,而其他音箱的答案似乎都搬出了百度或其他百科词条。

而「设定闹钟」这个问题,天猫精灵、小米音箱、渡鸦可以进行「多轮问答」,也就是说,能够针对具体时间进行二次确认。

实际上,除了语音和语义识别的准确率,音箱能否针对问题本身进行反馈,还涉及到其背后掌握的内容资源的丰富程度(内容布局,你懂得)。

其中,在提出「来点娱乐新闻」这个要求时,天猫精灵的回答明确指出「娱乐新闻」主要来自微博,而渡鸦的娱乐新闻主要来自百度搜索,其他音箱的新闻则没有指明具体来源。

而对于「来点相声」这个问题,这些音箱的内容源几乎都来自喜马拉雅。

四、句中涉及多个关键词的语义识别

对于关键词较多,语句相对复杂的问题,各个音箱「理解能力」开始有了明显的差距。我们问了以下 5 个问题,反馈各不相同:

1、刘强东的老婆/妻子是谁?(也同样问了「刘强东的女朋友是谁」)

2、爱因斯坦什么时候提出的相对论?(相对论是什么时候提出的)

3、我想听励志的歌曲(我想听励志的中文歌)

4、想听国内的科技新闻

5、我只想听周杰伦、孙燕姿和陈奕迅这三个人的歌。



通过增加了问题的复杂性,我们得到了一些非常有意思的反馈。

无论是「老婆」还是「妻子」,渡鸦音箱、小米音箱都可以给出正确的答案,而京东旗下的叮咚音箱,则一会儿回答是「章泽天」,一会儿表示「我不关心这类八卦」……

而提到「女朋友」,只有叮咚音箱给了正确回答。

值得注意的是,虽然「女朋友」是一个错误的事实,但是对于我们人类来说,出于本能,都会回答出跟「老婆」一样的答案。

而「相对论」这个问题,渡鸦音箱表现得更为优秀。

除了有技术方面的原因外,百度产品经理还认为这跟公司的搜索与百科基因有很大关系。他表示,「只要涉及到知识问答一类的问题,百度的强大就会显露出来」。此外,小米的表现也相对不错。

而给音乐限定范围的问题,大多表现都不太好,只有渡鸦和天猫精灵在音乐的限定范围内给出了正确的答案。

不过,涉及到有范围限定的新闻,则「全军覆没」。

值得注意的是,对于最后一个问题,渡鸦的表现的确有些让人意外,因为这种多个关键词的识别与理解难度很大。我们连续听到渡鸦播放的歌曲,的确依次是「周杰伦」「孙燕姿」以及「陈奕迅」的歌。

至于为何能做到这个问题,百度给机器之能的回复显得简单粗暴:「这就是百度在自然语言处理技术上的一个创新点,是一个创新的产品功能。」

五、多轮问答

知乎专栏一位叫「我偏笑」的 AI 产品经理发表了这样一个观点:

自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力,而识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。

这里的「后续服务」,就包括「多轮对话体验」。

他认为,在识别用户意图后,为了帮助你在多种可行方案中做出选择,语音交互系统应该通过多次交互最终执行你的明确指令。

在我们对 5 款音箱的体验中,除了「设定闹钟」,「问询股价」,以及天猫精灵的「购物」与「充话费」等简单的多轮对话设定外,很少有可以进行多轮对话的问题(这里指,不需要每下一个指令就叫「唤醒词」的连续作答)。

但渡鸦音箱在音乐单领域的「多轮问答」表现,体验还不错。

举个例子,在说「我想听运动的歌」,音箱开始播放音乐之后;你可以再次唤醒它(说句「小度小度」),并接着提出要求——「播放中文的」,这时音箱就默认为「你要听运动的中文歌曲」,继而执行命令。

以下问题,经过我们的测试,在进行二次唤醒后,都可以针对上个问题进行第二次「缩小范围的设定」,而其他音箱暂时做不到这些。



不知作为用户的你,是否认为这是一种必要的对话流程。

当然,如果是混领域的多轮问答,譬如“今天北京天气怎么样?”“帮我查一下从北京到上海的机票”,这些对话由于涉及到技术、内容资源等多个维度,所以暂时市面上几乎所有音箱都达不到这个效果。

六、反馈处理-音箱功能的丰富性

我们在刚才已经提到了,每个音箱针对问题的回答,除了跟系统能否有效识别和分析你的指令有关,还有一个很重要的因素——音箱的内容资源与语料库能否支持你想要的这个功能。

换言之,就是音箱背后的生态实力是否足够强大。

我们从用户比较常用的三个维度列出了一个简略的功能表,而各家可以实现的功能,在很大程度上取决于自家厂商的生态基因。

但需要注意的是,这必然属于智能人机交互产品的核心竞争力——「后续服务」(上面已经提到)中的一个重要维度。


很明显,从功能的丰富性与背景基因来看,创业公司会有些许劣势。

而对于大厂来说,各家有各家的优势,譬如阿里的天猫精灵与京东的叮咚更擅长 O2O 功能,而可以接入小米(其本身就有一个庞大的硬件王国)和渡鸦的智能硬件数量(DuorOS 起步较早)则看起来更加可观。

综上所述,根据我们对音箱「语音交互体验」这个维度的评测显示,刚刚面市的渡鸦音箱的实力还是不容小觑的,甚至在「多轮对话」方面明显高人一筹。

也就是说,渡鸦音箱中 DuorOS 提供的交互体验,在某种程度上认证了百度的技术实力。

但是我们需要清楚的是,一个音箱是否能赢得市场,除了交互体验,音质、价格、交货能力(产能)以及可以连接的硬件数量也将是考验产品的重要维度。

对于渡鸦来说,在交互体验过关后,面对市场,仍然还有很长一段路要走。

产业渡鸦音箱百度产品测评DuerOS
1
卖的这么贵,也没有什么过人之处,有人会买单吗?我看要杯具。