让智能音箱胡言乱语、乱下指令,只需要一部手机+一个喇叭

如果有一天,你的智能音箱开始胡言乱语、乱下指令,不要害怕,它可能是被黑了,而且黑得悄无声息。

智能音箱近两年走入了很多家庭的生活,成为了娱乐、购物、日程管理、儿童陪伴甚至教育方面的帮手。但是,智能音箱的安全问题也日益受到关注。继今年 11 月份,有研究使用激光黑掉智能音箱后,又有新的破解方法来了。这回直接用定向声波。

黑掉智能音箱的方法中,有很多大家都知道了。例如有破解智能音箱用户账号的,但这种技术要求很高。还有一种通过激光,从远距离对着它投来光束(音箱上面会形成一个光斑),然后智能音箱就开始错乱。这种方法,如果用户仔细观察防范,也能够被发现。

但是,如果说有一种用户不知不觉,而成本相比破解软件更简单的方法呢?这便是日本早稻田大学等研究机构最近的一项研究。他们使用一种声波发生器,通过连接智能手机的方式,将攻击命令转换为声波信息,从远距离传递给智能音箱。在将声波传递给智能音箱的过程中,被攻击者是听不到声音的

悄没声黑掉智能音箱

那么研究者是如何做到用声波干扰智能音箱的呢?他们运用了一种名为「音频热点攻击」(Audio Hotspot Attack)的攻击方式,这是一种无声的恶意语音命令攻击,意在干扰智能音箱或车内导航系统等语音辅助系统。

与以往利用无声命令攻击不同,这一攻击方法能够:

  • 实现远距离攻击(小房间里 3.5 米,长廊里 12 米);

  • 通过使用发射载波和边带波的两种定向声波束来控制听觉区域的位置;

  • 在攻击过程中利用空气介质中非线性这一物理现象来攻击语音辅助系统。

为了验证这种攻击方法的可行性,研究者招募了 20 名志愿者在两个不同的场景下进行了测试:一个标准大小的房间和一条长长的走廊。在实验过程中,他们首先利用智能手机来从参量扬声器中生成恶意语音命令。接着,在不同的距离(距离间隔 0.5 米)上将声波命令施加到亚马逊 Echo 和谷歌 Home 智能音箱上。

研究者表示,如果语音命令在特定的距离上连续三次被智能音箱接收,则认为攻击有效。结果显示,小房间 3.5 米距离上的攻击成功率最高,但走廊攻击实验表明,12 米距离上的攻击也是有效的。谷歌 Home 也比亚马逊 Echo 更容易遭到攻击。

一部手机+一个喇叭的攻击

图 2:参量扬声器。

为什么使用这种参量扬声器呢?这种扬声器可以利用超声波,生成定向的声波束。它实际上释放的是超声波束,然而,随着超声波在距离上的传递,它会在空气中逐渐自解调(self-demodulate)成可被听到的声音,即使没有解调器。这种现象被称为参量现象(parametric phenomenon)。作者在文中用公式进行了证明。

当声波束(有高频超声波和低频声波)从参量扬声器发出来的时候,可听到的声波会在声波束方向上渐渐增强。虽然这两种声波都会随着时间而减弱,但是听不到的超声波减弱地更快(在空气中),因为其频率更高。

这时候,参量现象显现,因而当到达被攻击的智能音箱的时候,只有可被听见的声音了。智能音箱自然也就被这些声音唤醒,受到攻击。

更精妙的一点在于,参量现象只在声波束的传递方向上被观察到(即超声波的释放方向)。因此旁人是听不到自解调出来的声音的。

换句话说,当声波沿着传递方向传播的时候,它会发生自解调,而且因为相位是对齐的,所以正向的声波会被放大。但是不在传播方向上的声波不会被放大,因为相位没有对齐。

图 4:攻击所需硬件。

这种攻击只需要一些简单的组件即可完成。假设攻击者能够获得智能音箱用户的声音,首先使用智能手机,研究者利用手机输入攻击命令(如语音合成的用户声音命令),然后声音信息会被处理,输入到调幅器(AM Modulation)中,调幅器会生成超声波,和声音信息进行结合,最后通过放大器传递给参量扬声器,发出定向的声波束。

图 5:发出声波束的流程图。

无声无息,音箱被控无人知

发出的声波束会不会被攻击者听到?在这个问题上,研究者采用了线性攻击和交叉攻击两种方法进行规避。第一种是使用一个参量扬声器。在这一方法中,声波束会以线性的方式集中地传递到智能音箱上。但是,只有在声波的传递路径上才会发现。第二种则更为高级,采用了两个扬声器分别从两个方向发送载波和边带波,两种波在智能音箱的位置上交叉(即「热点区域」),因此在载波或者边带波方向的用户都听不到。

Audio Hotspot Attack 的整体架构图。图上:利用一个参量扬声器攻击(线性攻击);图下:利用两个参量扬声器攻击(交叉攻击,分别发射载波和边带波)。其中在黄色区域,人可以听到声音。

通过这两种方法,声波攻击可以被掩盖,极大程度上避免被发现。

图 12:人类测试中,使用线性攻击时,在 200cmx400cm 的空间中,动态和参量扬声器产生的声波束是否会被人类听到的对比(采用 Jaccard index scores 评价)。(0, 0) 被定义为扬声器的位置。

根据上图中数据研究者表示,除非站在参量扬声器前,否则人类听不到声波束。

图 13:人类测试中,使用交叉攻击,在 400cmx400cm 的空间中,评价人类是否会听到攻击声波束(采用 Jaccard index scores 评价)。

在交叉攻击中,人类更是听不到声音了,除非正好位于两个声波束交叉的位置。在上图中为(200,200)的位置。

实验和效果

为了确保这种攻击是实际可行的,研究者使用的硬件都是可以从网上购买并组装的(见表 1)。实验场地则选择了一个小房间和一个长走廊。

表 1:硬件一览。

被攻击的智能音箱使用了谷歌的 Google Home 和亚马逊的 Echo,这是两个全球市场占有率最高的智能音箱品牌。

对于输入的攻击命令,研究者采用了亚马逊的 Amazon Polly 文字转语音服务,将攻击命令文本转换为语音信息,然后通过系统进行攻击。

在测量攻击可以成立的距离上,研究者进行了如下设置,通过改变攻击距离,使用麦克风捕捉智能音箱是否对攻击进行了回应。

图 6:实验设置图示。

从实验结果来看,在小房间中时,3.5m 的距离可以保证较好的攻击成功率。

图 7:攻击距离(cm)和被唤醒或识别的成功率比较。噪声 SPL 设置为 60 分贝。

表 2:在不同的场景中,被唤醒和识别的准确率也不尽相同。

表 3:对不同攻击命令的识别成功率。

不只是声波,激光也行

当然,智能音箱被黑已经不是第一次了。就在上个月,日本的另一个研究团队就发布过用激光黑掉智能音箱的研究,Google Assistant、亚马逊 Alexa 等市面上热卖的智能助手无一幸免。

这个研究团队来自日本电气通信大学和美国密歇根大学,他们用嵌入了指令的特定激光束打在智能音箱的麦克风上,结果成功地让音箱打开了车库门。

研究人员在激光中嵌入指令:「OK,Google,Open the garage door」,结果音箱将车库门打开。

为了探究这种攻击的「射程范围」,研究人员选择在不同的距离向音箱麦克风发射激光,结果发现,在距离 110 米的地方攻击仍然是有效的。而且,即使他们在另一个建筑物发射,即使中间隔着玻璃窗,他们发射的激光依然能控制智能音箱打开你家车库门。是不是很可怕?

研究人员在相隔较远的另一栋建筑物里隔着窗玻璃向音箱发射嵌入指令的激光,结果车库门还是被成功打开。

而且,他们发现,用来攻击的激光不需要太大功率:一束 5 毫瓦的激光就足以攻陷 Google 和 Alexa 的一大批家庭语音设备;60 毫瓦的激光就足以接管手机和平板。

此外,研究人员还用这项攻击技术成功操控智能音箱完成网购、开启汽车(与用户 Google 账户相连的福特、特斯拉等车型)等功能。

智能音箱为什么如此不堪一击?

研究人员表示,这种攻击能够实现,本质上是因为智能音箱的麦克风把打在它上面的激光当成了声波,从而把光信号转化为了电信号。

哈佛大学物理和电子工程教授 Paul Horowitz 对此解释称,「至少有两种不同的物理机制可能让这种用光指令控制声音设备的现象成为可能」。

第一,激光束会加热麦克风的隔膜,使其周围空气膨胀,产生与声波一样的压力。

第二,Horowitz 假设,如果目标设备的组件并非完全不透明,激光将通过麦克风直接照射到电子芯片上,电子芯片会将激光的振动转化为电信号。这可能会产生与太阳能电池二极管和光电末端相同的光伏效应,将光转化为电流或电信号。他表示,这很容易使激光被处理成语音指令。

除此之外,智能音箱厂家使用的麦克风类型也是被攻击的一大要点。这项研究中攻击的大部分设备使用的都是一种名为 MEMS 的麦克风,它是集成在芯片上的机械部件。由于占用空间小、价格低廉,MEMS 在移动和嵌入式应用(如智能手机和智能音箱)中特别受欢迎。

下图 2 显示了一种典型的 backport MEMS 麦克风的结构。它由一个膜片(diagram)和一个 ASIC 电路组成。膜片是一种薄膜,它能对声波做出反应而弯曲,它和固定支承板组成一个平行板电容器。当膜片对交变声压做出反应时,电容器的电容也随膜片的机械变形而变化。

MEMS 的结构决定了,MEMS 类型的麦克风很容易受到激光的攻击,因此,使用这种类型的智能音箱在激光面前也不堪一击。

在这项研究发布之后,谷歌和亚马逊都表示要对自己的产品进行升级,研究人员也给出了自己的建议,如为智能音箱设置解锁密码,为麦克风加上光屏蔽装置。但如今声波也能攻击智能音箱了,所以只屏蔽光是没有用的。

这些例子都说明,智能音箱并不像人们想的那样安全无虞,即使是广受市场欢迎的产品,只要和人们的生活工作等紧密相连,被黑客盯上也是别然。除了软件层面的安全性问题外,硬件本身能否做到分辨攻击命令也是一个需要考虑的问题。

  • 「声波攻击」论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8906174

  • 「激光攻击」论文地址:https://lightcommands.com/20191104-Light-Commands.pdf

  • 参考链接:https://www.wired.com/story/lasers-hack-amazon-echo-google-home/

产业智能音箱超声波攻击
相关数据
语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

暂无评论
暂无评论~