宇多田撰文

雷军至今发布的最重磅AI产品, 不是手机和音箱, 而是小米AI研发团队与技术伙伴们

上周,推销小米 MIX2S 的新亮点,曾让雷军大费口舌。

不过,他更多是把笔墨放在了这款手机的外观设计与摄影性能上。而大家鼓吹的 AI,仅仅是介绍完 MIX2S 逆光、暗光拍照能力后的一个「点缀」:

背景虚化、场景识别以及「把语音助手小爱同学搬到手机上」…说是「微创新」都有些牵强(标配还差不多)。

(此处可参考机器之能此前发过的一篇文章:AI 手机的秘密

简单来说,这是一部具备 AI 能力的手机,但卖点绝不是 AI。因此,当看到媒体铺天盖地将这款产品的关键词定义为 AI 时,我们真的…百思不得其解。

当然,如果你想对小米的 AI 硬件研发与制造能力有进一步了解,关注点不应该在手机上,而是雷军在发布会上最后宣布的一款产品——小米 AI 音箱 Mini。

从名字就能看出来,这款产品是标准版小米 AI 音箱的 Mini 版,长得很像无印良品的车载移动香薰机。据官方表示,其具备的功能几乎「复制」了标准版。上图为小米音箱Mini,下图为Muji移动香薰机

但显然,产品小了一圈,价格砍去了一大半,性能方面一定会有相应削弱。在使用它之前,我们并不清楚它是否能延续标准版的好口碑。

从配置来看,其麦阵方案是从标准版的环 6 麦降至环 4 麦,不再支持 5GWifi。而这个新麦阵的供应商仍然为声智科技。

声智科技 CEO 陈孝良告诉我们,从 6 麦到 4 麦,体积自然更小,成本也更低。

按照理论效果,比起 6 麦阵列,4 麦在 5 米外的远场识别性能方面还是有差距的。

我在卧室里测试了 Mini 版的中远场拾音效果。

如果在房间保持安静,房门打开的情况下,距离 10 米左右,从另一个房间唤醒小米 Mini 没有任何问题,其具备稳定的远场拾音效果。

但如果门关上,距离 5 米在门外也不能轻易唤醒 Mini。(这是不是说明门的隔音效果好?)打开门,距离10米左右仍然能唤醒

从理论上来说,麦克风的数量越多,越有利于远场识别。

但陈孝良给出的一个看法是,AI 算法在音箱中的应用削弱了麦克风的「统治权」。

也就是说,在与唤醒以及识别等功能产生联动后,不断更迭的算法与阵型可以弥补麦克风的一部分不足之处。

因此,4 麦阵列也不代表 Mini 版的制作难度有所降低。

「Mini 版的难度在于,体积太小造成麦克风阵列与大音量喇叭相距很近所引起的声学问题,以及低成本喇叭失真较大的问题。」据陈孝良透露,在这些方面,公司跟小米团队投入了很大的研发力气。

而硬件评测媒体爱否科技对小米 Mini 的音质测评结果,能够在一定程度上说明小米 mini 结构上引发的这个声学问题:与标准版相比,小米 Mini 的音质明显逊色于前者。

但雷军在发布会上说了,基于这个价格(米粉节降至 99 元),是让你在买一台标准版小米音箱后,再多买几个小米 mini 放在每个卧室里……这算盘打的,也是「志在销量」了。

而他唯一推荐的音箱新功能,也是基于每个家庭必须采购多个小米音箱的前提下才能实现:

多个设备放在一起时,每个音箱的语音助手会根据距离唤醒者的远近作出自动响应。

也就是说,哪个离你近,哪个就响应你。

但是,「距离远近」这个问题对于机器来说,非常难判断。因为它靠的不是视觉,而是听觉:

在实验中通常出现的情况是,即便你距离一个音箱稍微近一些,但你对着较远的另一台说话,声源朝向后者,外加干涉声音传播的各种介质,那么机器也很难判定你所在的位置。

陈孝良解释,这里面需要用两项技术——SSP(空间知觉)与 SSA(空间意识)。

「SSP 是让小米音箱知道自己在哪,比如音箱是距离电视更近还是沙发更近?这个功能可以帮设备调整自己,」他提到苹果就是利用这个特性进行音效大小的自适应,

「而 SSA 则是让音箱知道自己是谁,当我们进门唤醒的时候,是应该客厅的音箱响应,还是厨房的响应?目前亚马逊的 Echo 都是距离最近的才自动响应。但未来,应该是最理解你命令的那台音箱响应。」

但在目前,他承认这项技术还没有完全成熟,而且应用在小米 Mini 上的这个功能,公司也只是做了底层支持:

「雷总提到的这项技术是小米团队实现的,他们的研发能力是很不错的。」

我们也联系到了小米AI实验室技术总监相非,他认为,在分布式拾音算法的开发过程中,主要有两个技术难题需要解决。一是不同设备的不同阵列硬件之间实现拾音协同,具有很大难度:

「譬如标准版小爱音箱与小爱Mini,一个6麦音箱和一个4麦音箱,除了阵列布局,麦克选型、底层驱动、硬件方案都不同,不能照搬同一算法。如何针对每个维度做设备间的归一化,兼容单麦、双麦、四麦线阵、四麦环阵、六麦环阵等不同阵列布局和多家硬件平台,在业界没有任何先例。」

二是用户声学场景的复杂性,分布式算法要同时在两个设备上计算信号层面的差异,而音箱摆放位置非常重要,放置在家居开阔空间,还是墙角,亦或是电视旁边,甚至旁边挂件衣物,麦克风附近的声场都会发生明显变化,对拾音信号造成很大影响。

「因此,设备要先做空间感知,获取周边场景信息,」他认同了陈孝良的说法,「同时也要兼顾家中各种设备的能力差异,做包括能量、到达方向、相关性、置信度等方面的多维度判决。」

当然,目前业界对分布式声学算法的研究还处于初期阶段,分布式唤醒判决还仅仅是分布式体验的第一步,距离真正的AI无处不在尚有较大差距,基于广深的硬件生态布局和不断加强的技术储备,小米有望在这一领域率先取得突破。

在拿到Mini后,我们就在办公室同时连接了标准版与 Mini,这个功能似乎目前还不太奏效。

在两个音箱距离过近时(2 米以内),这项功能并不会发生作用,两只都是同时应答并播放歌曲。

而在两只音箱位于同一空间且距离大于 3 米时,音箱的确可以根据声源来辨别距离远近。但这仅限于你离其中一只非常近(小于 1 米)的情况下,近处的设备才会被唤醒。而且也屡有失败。

接下来,我又在与上面相同的条件(大于3米)下进行另外一种测试:

所站的位置距离两只音箱都很远,结果会怎样?

答案是,无论你离哪个更近,他们都会被同时唤醒并回复你。

但毫无疑问,标准版由于麦克风数量更多,因此拾音效果更好,几乎「有应必答」,且网络连接更稳定。

不过在联系到相非后,他提醒我们,5月功能会正式上线……所以,买到标准版小爱同学和Mini的童鞋们,还是先别像我们一样花一个多小时去测试这项功能了。

其实从小米发布标准版 AI 音箱那一天起,音箱各主要技术部分的供应商就写在了他们的公开 PPT 上。

与阿里等公司一样,音箱的很多技术都是「分包」出去的。

  • 语音识别技术(ASR)的接口,用的是思必驰、Nuance 与搜狗的;

  • 自然语言理解(NLP)等关于语义方面的技术,由小米大脑亲自来做

  • 前端的麦克风阵列以及降噪方案,是由声智科技提供的。

  • 语音合成技术,是由猎户星空提供的。

但据我们获得的消息,Mini 版并没有继续使用此前合作方的 ASR,不难推测,或许小米已经在逐步替换为自己研发的语音识别技术。

早在1年多以前,2017 年 1 月,小米就成立了小米云平台语音组;同年 7 月,还曾在 arXiv 上首次提交过一篇端对端的语音识别论文。

当时就有人猜测,除了 NLP 之外,小米未来很可能会用上自己语音识别技术。这在很大程度上关系到数据的分析与共享。

实际上,与 BAT 以及很多纯粹的 AI 技术公司相比,小米在 AI 领域一贯低调。直到上周 MIX2S 发布会,我们也是才获知小米 AI 研发团队的具体规模已经增至500~600 人。

对于一家制造消费类硬件的公司来说,成立研发团队的优势在于,让技术进入应用层的周期大大缩短。

因为在任何时候,它都能把底层技术迅速实验在自己的产品上,软硬磨合期显然要比纯粹的 2B 技术公司短太多。

2017 年中旬,小米语音工程师张俊博在接受媒体采访时就曾表示,经过无数实验,小米的语音技术在小米电视测试数据上成功获得了 2.81% 的字错误率,达到可用水平。

数据并不算耀眼,但这个数据在某种程度上却是难得脱离了「学术舒适区」的产业品类评测数据。

当然,这也从侧面说明了小米的软硬耦合能力。就像上面陈孝良所说的,软件能力会在一定程度上补足硬件的不足。反过来,充分的硬件制造经验,也会加强软件的运行效果。

AI 技术最终落实到硬件的用户体验上,就是小米音箱的智能内核——小爱同学的应用效果。

根据我们此前的评测,其水平明显高于当下的音箱智力水平线,甚至在「自然语言理解」层面表现突出。

譬如在音乐操作方面,一个存在多个关键词的语音命令,小米可以做到准确识别语义并给出正确答案。

当你发出「我想听英文新歌」「我想听英文的爵士乐」「我想听周杰伦的新歌」等指令时,小爱同学为歌曲同时设定「爵士」与「英文」,或「最近的」与「英文」等约束条件是没有问题的。

而在这方面,除了百度等大型科技公司,创业公司的产品普遍很难做到。

此外,小米系列 AI 音箱有一个有意思的功能——专门为自己的小爱同学创建命令。而且创建以后,这些命令在任何小米 AI 音箱上都可以被唤醒。

譬如那个在天猫精灵技能中非常火的「放屁」功能,就被用户也创建在了小米 AI 音箱里:


这在某种程度上,可以比招揽专业技能开发者更快地增加自己的技能数量……



当然,根据用户们的反馈,小米的槽点也不容忽视。譬如曲库资源勉强达到要求,但不等于满意,他们还是想请雷军再去跟 QQ 和虾米音乐谈判一下;

此外,像小冰一样的调侃式聊天,在小爱同学身上也是有限制的。但这毕竟是一个执行命令多于「插科打诨」的硬件产品,或许直接跟手机聊天可能更实惠一点。

而音箱不可忽视的另一个小 bug,是 Wifi 连接状况不稳定。

这毫无疑问是使用音箱的第一个关键步骤——只要不联网,除非连接蓝牙,要不然音箱就是一块板砖。

在这次使用 Mini 之前,我就碰到了这种情况——无论如何都连不上小米 AI APP。

最后在小米工程师快速的响应速度基础上,我们终于发现了问题的根源——路由器设置的频段与信道与小米音箱 Mini 不匹配。

「如果很多人 wifi 都设置成这样呢?」我问,

「用户环境复杂,确实是我们一直比较头疼的事情。」小米工程师的回答也很无奈。

在当下的智能音箱市场,所有同类产品其实都以「达到及格线」为荣。

但从智能程度、内容资源、销量以及生态系统等各个维度衡量,在一众音箱产品中,小米音箱与天猫精灵是名副其实处于第一军团。

与阿里依靠强大渠道与价格战卖出了 200 万台天猫精灵相比,小米 AI 音箱迅速提升的市场认知度在很大程度上要感谢小米强大的硬件生态链(作为一个控制中枢,米家任何智能家居都可以被控制,都是自己的东西当然没有障碍),销售策略及后续稳定增长的良好口碑。

有不愿透露姓名的芯片采购商向我们,他们很奇怪为何小米会迟迟发不出货。

「从音箱的配件市场供应情况来看,不应该出现这种情况,」她更倾向于这是一种销售策略,「即便是去年双十一订单超量的天猫精灵,也基本在 1 个月左右就能从工厂出货。」

而后续增长的良好口碑,除了很多评测媒体在「横评」(多个音箱一起测试)中出了不错的分数以外,普通用户的一些追评其实超出了大众对现阶段智能产品打的平均分:除了在人机交互体验这一方面并不弱于 BAT 大厂,它的中控能力,终于把小米在过去四年里从一个充电器开始,默默做生态链的优势发挥了出来。

「我一朋友结婚家里刚装修完,家电都买的小米的,说这样更好连通,不用下那么多 APP,而且坏了都能找一家去修。」一位圈外的「80 后老少女」在聊天时这样告诉我们,「智能家居嘛,别以为我们不如你懂。」

其实我们之前也在很多文章中提到过(参考文章:天猫精灵的优势与问题),仅仅依靠合作,其实很难把音箱的中控能力(家庭控制中枢)发挥到极致。

这里面有技术与平台的兼容问题,有数据问题,也有团队磨合问题等等一系列在双方都要牢牢维护自身利益前提下产生的阻碍。

因此,平台与平台之间处处设置壁垒,美的、格力、海尔等等传统硬件厂商正在出品多个应对不同 AI 平台与产品的智能空调型号;

为了连接另一个品牌的智能灯泡或智能开关,需要再下 1 个 2 个 3 个 APP;

普通电器常用的射频遥控与红外遥控,有不同的连接阻碍……

对于许多年轻人来说,在质量和效果没有那么大差距的条件下,为了体验真正无障碍的智能家庭,会倾向于选择「没那么麻烦的」。

而接下来,当这一代对智能家居有初步认识与好感的 80、90、00 后年轻人逐渐成长为社会的主流消费群体,传统硬件企业,未进入生态圈的硬件企业,未打通生态圈的科技企业,就不再是「充满危机感」这么简单了。

产业小米人工智能生态链雷军
1
暂无评论
暂无评论~