宇多田整理

马云证婚这天,我们终于在阿里声学实验室窥探到了天猫精灵的「研发之苦」

你有没有过洗澡耳朵被灌水,或者坐飞机耳朵被堵住,需要用捏住鼻子往外吹气的经历?

这是我走进阿里声学消音实验室不到 3 分钟就下意识想做的动作;身体感觉像是被塞进了一个密不透风的积木纸盒子里。

这应该是我们第一次见到阿里实验室的「真身」。

其实,自从阿里决定要做云计算人工智能大数据的生意,位于杭州西溪园区的阿里总部里就多出了各种各样的「实验室」。

譬如天猫精灵之父、传说中堆满各种消费级智能硬件的人工智能实验室(AI Labs),再譬如前身是 iDst,最近又有各种大牛入职的机器智能技术实验室,以及像「猎户座」「双子座」「潘多拉」这类名字风格清奇的安全实验室。

但这些实验室从未对外开放,即便展示也只是临时搭个展台,或者放一个 PPT 让你自己脑补一下。

但在昨天的「阿里日」,阿里还是向外界开放了庞大实验室群的「冰山一角」——专门给天猫精灵做声音测试的声学实验室。

这也算是揭开了一丢丢关于人工智能实验室的「研发秘密」了。

当然,对于科技爱好者来说,阿里真实可触的实验室构造,比「马云给员工证婚,80 年不离婚」什么的有趣多了。马老师在阿里日当天的司仪装扮

声学实验室的所在地非常普通。走进某栋办公楼,推开一层某间办公室的门,阿里工作人员就告诉我们「到了」(什么,画风跟想象不符啊)。

实验室内,除了桌子上堆着一些成品与半成品的天猫精灵以及麦克风零部件外,工程师们的办公空间其实与普通的办公室构造没有任何差异,甚至略显简陋和凌乱。

难怪马云在去年的云栖大会上「吐槽」——「阿里有啥好参观的,不都是一张桌子,一把椅子和几台电脑吗?」声学实验室里的工程师们但玄妙之处,并不在办公室的陈设,而是室内另一个隔间里两个密闭的屋子。

第一个屋子里的铁门边缘裹了厚厚的一层类似于橡胶气垫的软性密封物,而门板有一定的厚度,应该是特制的隔声门。走进房间,除了空间狭小(应该不到 5 平米),最不能让人忽视的便是 6 个墙面上嵌入的多面体。

这是一种名叫「尖劈」的特殊吸声材料,摸起来有一种塑料感,但又比塑料表面柔软,能够把所有入射声波在没有反射发生的情况下全部吸收掉。人工智能实验室声学工程师海智正在讲解室内构造

而原理就在于,这种尖劈的截面设计与空气抗阻比较匹配。你的声音被射入尖劈与尖劈的间隙后,就如同光线射入捆在一起的密密麻麻的针尖之间一样,不得不经过无数次反射,能量反复消耗,最终衰减趋于零而让声音「有去无回」。

这也就导致了文章一开头我所描述的感觉:

在消音室内,每个人的说话声都变的很闷,音调单薄,声量像是被压缩了一半,还有一种坐在飞机上「耳朵被压迫」的实感。

「这就是我们的专业全消音室,」在室内,阿里人工智能实验室的声学工程师海智不得不提高自己的声量来介绍这个闷热的屋子,

「这个屋子上下左右六个面,全都是吸声材料,符合 ISO3745 标准(这是一种对全消音室与半消音室的精确测定法),截止频率达到 100 赫兹以下,环境噪音可以做到 20dB(分贝)以下。」

他又指了指脚底:「如果地面是平的,那就是半消音室了,你看脚底的网格下面,也是这种尖劈构造。」

按照普通人的听力标准,20 分贝以下就达到了一个「极静」的环境状态,而天猫精灵的主要声学部件,就是需要在这样一个相对安静的自由场空间内,做一些严格的声学测试。

屋子里除了六面显眼的尖劈墙,只有两样额外的设备——一个是专业测试用的麦克风,另一个就是天猫精灵的工程版本(音箱带有麦克风阵列的上半部分)。

「这就是天猫精灵的喇叭单元,」海智把那一小部分拆了下来指给我们看,「我们要测试天猫精灵的声音质量,包括声学的频响,麦克风录入声音的失真度以及声效的整体表现。」天猫精灵的裸体版本 

也就是说,这个房间的最大任务,就是测试天猫精灵的基础声学器件是否能达到专业要求。

实际上,除了麦克风本身的质量,对于智能音箱来说,寻求高质量声音的过程,其实也是一个对麦克风进行排列组合的过程。

譬如一个麦克风的声音效果可能很好,但是两个或者四个麦克风组成的阵列,结构一变换,就可能出现各种问题,效果也截然不同。而实验室工程师们要做的,就是追求一种成本与功能之间「极致的平衡」。

「麦克风的排列组合以及整体设计都会对拾音效果产生影响。此外,声音录入和信号处理也是进行语音识别的前一道『工序』,所以麦克风录入的声音质量也非常重要。」但与音箱的「语音识别测试」关系更紧密的,应该是消音室隔壁的另一件屋子——混响室(上图)。

与温度逐渐升高且憋闷的消音室相比,混响室有点像它的一个「极端」:

在这个房间里,除了有三台空气净化器在轰轰作响,我们的说话声也有了「回音」。

空室内,7 个音响设备以不同的方向在屋子里摆了一圈,用工程师的话来说「就是为了模拟真实的噪音场景」。

而墙体的设计也同样特殊——除了内嵌吸声材料(看到下图的小孔没),也设置了能够左右推拉的木板与金属隔层,目的是为了通过改变结构吸声系数而调节混响时间。

「其实混响时间很好理解,就是你说一句话,说完最后一个字,你觉得声音结束了,但其实你的声音还在扩散和衰减,从你说出最后一个字到这个字的声压减少到 60 分贝所需要的时间就是混响时间。」他一边说,一边拉动木板,改动了墙体结构,

「而我现在改变了吸声量,虽然你们可能听不出来,但这个屋内你说话的混响时间又被改变了。」

实际上,低频声音容易受到墙面吸引材料的影响,但高频率声音则更多取决于空气中分子的吸收量,这也就能够解释为何混响室内有三台空气净化器同时工作了。

理论上讲,从音频混响整体效果来看,混响时间越长,就越有「余音绕梁」的感觉,但过长会含混不清;而反过来说,混响时间越短,声音可能会听起来就会枯燥不自然。

因此,对于智能音箱测试来说,混响室有两个重要作用:

一个是测量音箱扬声器的效率,另外就是产生人工混响做语音识别测试。工程师们希望模拟出更多自然界的极端场景,提升语音识别准确率

「没有两个完全相同的房间。很多时候你前面隔着一个衣服架子,声音传播的方向和效果就会完全改变,影响到麦克风对声场空间特性的采样,进而影响到信号处理。」

因此他强调,尽管传统音箱制造商普遍都会建立自己的专业消音室,但「消音室+混响室」其实更多是新兴智能音箱厂商需要的「双配置」。

「用消音室来测试音箱,获得一个理想环境下的测试数据,肯定对开发过程的帮助很大;而相对的,用混响室做实验,把 7 个音箱都打开,每天故意设计一些噪声,测试不同方向的识别度及听音效果,算是在产品原有水平基础上努力提升『抗击打能力』吧。」

但是,这一切测试,实验室的工程师只是「旁观」,所有执行过程,全都交给自动数据测试平台。

我们发现,在两个房间内,有多条从房间内延伸到门外的黑色数据线。海智解释,这是因为房间内的设备与器材都与服务器进行了连接,外面的工程师只需要远程监控,或者进行一些人工语音录入,数据的测试、收集与分析全都是平台来完成。

「我们平时很少进这些房间,都是远程操作,如果人工的话要累死的,而且会破坏声场,」海智说道,「工程师做更多的是『训练师』的任务。」

在离开实验室前,我们偶然看到一位测试员小哥在电脑的麦克风前一边不断重复着「天猫精灵,我要听歌」这句话,一边在电脑上敲敲打打,而另一台电脑屏幕上,数据流正在迅速地进行更迭。

「这就是测试员的日常,」一位阿里内部员工告诉我,「他们大多是测试人员,需要通过声学测试数据,对程序及数字信号系统进行设计和修改。」

人工智能实验室的所有人都会经常来声学实验室『讨论问题』,毕竟『声音』是做好这个智能产品的第一道工序。」 

产业天猫精灵声学实验室开放日阿里AI Labs
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

推荐文章
暂无评论
暂无评论~