小心啦,亚马逊的Alexa正在把你的信息泄露给黑客!!!

最近一项研究表明,Alexa“技能抢注”会劫持用户的声音命令。研究发现,语音处理中的同音字和错误可能会被Echo的网络钓鱼用户恶意使用。

亚马逊的Echo和Google Home等物联网设备的成功为开发人员创造了一个机会——可以构建语音激活的应用程序,然后将其更深入地链接到客户的日常生活中。但同时,根据伊利诺伊大学一个研究小组的研究,出于恶意目的利用语音识别机器学习系统某些特性的可能性也在增加。

被称为“技能抢注”的攻击方法(本月在巴尔的摩的USENIX安全研讨会上发表的一篇论文中这样定义)目前仅限于亚马逊Alexa平台,但它同时也警示我们,应用于第三方应用程序的其他语音平台在扩大支持时必须考虑考虑这个问题。

美国知名科技媒体Ars Technica 在USENIX 安全研讨会上采访了UIUC团队(由Deepak Kumar,Riccardo Paccagnella,Paul Murley,Eric Hennenfent,Joshua Mason,助理教授Adam Bates和Michael Bailey教授组成),一起讨论了他们的研究以及基于语音的信息系统输入所带来的其他威胁的可能性。

主人的声音

生活中常常会发生这样的情景:我们的语音智能设备被来自广播或电视广告、YouTube视频、甚至是小孩的语音命令激活了!

今年3月份,研究人员发现,即使Windows 10被锁定,Cortana也会响应语音命令,比如打开网页。

这种漏洞不仅仅存在于可听见的语音命令。在今年的USENIX安全研讨会上,来自中国信息安全国家重点实验室Yuan Xuejing的研究表明,嵌入在视频原声带、音乐流或无线电广播中的音频可以被修改,以触发自动语音识别系统中的语音命令,而不会被听者察觉。大多数听众都无法识别这些经过修改的歌曲存在的问题。

论文将这种技能定名为“技能抢注”。

研究人员发现,“技能抢注”攻击可能会带来更直接的风险,开发人员似乎已经给自己的应用程序起了类似于流行应用程序的名字。其中一些是偶然的,比如“Fish Facts”(一种关于向Alexa发出“cat”指令的随机反馈情况)和“Phish Facts”(一种关于向Alexa发出位于佛蒙特州的果酱乐队的反馈情况),但是其他的如“Cat Fax”(模仿“Cat Facts”)显然是有意的。

由于Alexa会用注册到amazon的云应用程序来处理用户的请求,所以它可能会创建以现有合法应用程序的同音字命名的恶意技能。

亚马逊在2017年默认通过语音命令提供其库中的所有技能,并且可以通过语音将技能“安装”到客户的库中。“不管怎样,对于那些有选择地注册技能名称的人来说,这是一种只有语音的攻击,”UIUC安全和透明系统实验室的负责人Bates说。

这种漏洞为恶意开发者提供了各种可能。他们可以建立拦截合法技能请求的技能,以驱动窃取个人和财务信息的用户交互。这基本上是用Alexa来进行钓鱼攻击(类似于“Fish Facts”)。UIUC的研究人员(在沙箱环境中)演示了一种被称为“Am Express”的技能如何被用来劫持美国运通的“Amex”技能的初始请求,并窃取用户的凭证。

Alexa听到了吗?

还有一些词语Alexa常常会识别错,这可能是由于Alexa的机器学习训练时使用了一些口音较重的音频。

为了确定其中的一部分,UIUC团队利用了来自Nationwide Speech Project的音频样本语料库——语言学研究人员Cynthia Clopper和David Pisoni收集了来自美国六大方言区的60位不同发言者的演讲样本。

60个发言者,每个人说出188个特定单词,总共11,460个音频样本,这些组成了UIUC团队使用的语料。这些样本被推送给由“Record This”团队建立的Alexa技能——该技能使用客户端应用程序将单词转录为文本,客户端应用程序会分批播放音频并控制提交的速率。

“我们将每个演讲样本发送给Alexa 50次,”Kumar说,“在60位演讲者中Alexa为我们提供了573,000个转录。”

测试结果显示,188个单词中有27个(14%)会被Alexa误解为另一个词。同时,研究还发现Alexa识别错了某些特定的方言词和性别词,这意味着这些词语可能被用于攻击特定的人群。

UIUC团队与亚马逊的安全团队分享了他们的发现。Ars Technica与亚马逊取得了联系,了解其正在采取哪些措施来抵御这些类型的攻击,亚马逊发言人做出了以下声明:

“客户信任对我们很重要,我们将安全审查作为技能认证中的一部分。我们已经采取缓解措施来检测这种类型的技能行为,并在发现时拒绝或删除它们。“

UIUC的研究人员承认,在没有在Alexa的生产库中实际发布一项技能的情况下,他们能够进行测试的程度是有限的。但Bates教授表示,这种问题不是说我们推出一个补丁就可以解决掉的,问题的本质在于我们信任机器学习的语言处理分类器,而所有的分类器都是会出错的,而且错误会蔓延到技术领域之外。

UIUC团队正在做一系列可能的后续研究,比如Alexa的语音处理问题如何影响不同的人群。因为研究中的一些数据表明,Alexa可能无法平等地处理所有发言人的语音,但要真正处理这个问题,需要更大范围的发言数据。

研究人员还在考虑研究有关物联网设备信任影响的课题。他们在论文中写到,“如果攻击者意识到用户对语音界面的信任程度高于其他计算方式,他们可能会对语音界面进行更强劲更有针对性的攻击。”

该团队希望探索其他语言处理平台上存在的处理错误的类型。

“作为一个接口问题,”Bates说,“这没有底线。”

声学在线
声学在线

产业亚马逊
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

暂无评论
暂无评论~