Yao Qin等作者张倩 王淑婷 杜伟编译

你的耳朵真的灵敏吗?Goodfellow等人提出不可察觉的鲁棒语音对抗样本

图像领域的对抗样本对人类来说难以区分,但语音识别领域的对抗样本却往往是可以察觉的,而且听起来非常明显。在本文中,Ian Goodfellow 等人提出了用于自动语音识别体统的针对性对抗样本,这些样本不易被人类察觉,而且非常鲁棒。

对抗样本是由攻击方专门设计的输入,其目的是使机器学习算法产生错误分类。最初的对抗样本研究主要集中于图像分类领域。为了将神经网络中一般对抗样本的性质与仅适用于图像的对抗样本的性质区分开来,研究不同领域的对抗样本非常重要。

实际上,从强化学习到阅读理解再到语音识别领域都存在对抗样本。本文主要研究的是语音识别领域的对抗样本,表明任何给定的源音频样本都可能受到轻微扰动,因此自动语音识别系统(ASR)会把音频转录为任何不同的目标句子。

到目前为止,ASR 系统的对抗样本和图像领域的对抗样本主要有两个不同之处。

首先,图像领域的对抗样本对人类来说难以区分:在不改变 8 位亮度表征的情况下生成对抗样本是可能的。相反,ASR 系统的对抗样本通常是可以察觉的。虽然引入的扰动幅度通常很小,但听起来很明显,附加扰动是存在的。

其次,图像领域的对抗样本主要在物理世界发挥作用(例如在给它们拍照时)。相比之下,ASR 系统的对抗样本还不能在这种由扬声器播放并由麦克风录制的无线环境中发挥作用。

在本文中,研究人员改善了 ASR 系统中对抗样本的构造,开发了不可察觉的对抗样本,其能力可以媲美图像类对抗样本,朝着稳健的对抗样本迈出了一步。

为了生成不可察觉的对抗样本,研究人员没有选择对抗样本研究中广泛使用的常用 l_p 距离度量。相反,他们使用了听觉掩码(auditory masking)的心理声学原理,并且仅在人类听不到的音频区域添加了对抗扰动,即使这种扰动就绝对能量而言并不是「安静的」。

语音识别领域的对抗样本性质进一步调查后发现,其性质似乎与图像领域对抗样本的性质不同。研究人员调查了攻击方构建物理世界对抗样本的能力。即使考虑了物理世界引入的扭曲,这些输入在分类时仍然是对抗的。通过设计经过随机空间环境模拟器处理后仍然具有对抗性的音频,研究人员朝着开发能够无线播放的音频迈近了一步。

最后,研究人员证明,其对抗能够攻击当前最先进的现代 Lingvo ASR 系统。

论文:Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition

论文地址:https://arxiv.org/abs/1903.10346

对抗样本是由攻击方设计的机器学习模型输入,目的是导致错误输出。到目前为止,对抗样本在图像领域中的研究最为广泛。在图像领域中,对抗样本可以通过图像的细微修改来构建,进而导致误分类,并且对抗样本在现实世界很实用。

相比之下,目前应用于语音识别系统的针对性对抗样本不具有这两种特性:人类很容易识别对抗扰动,而且这些扰动在无线播放下就会失去作用。本论文在这两方面均取得了进展。

其一,研究人员利用听觉掩码(auditory masking)的心理声学原理开发出了不可察觉的音频对抗样本(已经人类研究证实),同时保持任意完整句 100% 的针对性成功率。其二,通过构建在应用真实模拟环境失真后依然有效的扰动,研究人员在物理世界无线音频对抗样本方面取得进展。

如何生成不可察觉的对抗样本

在图像领域,将图像和最近的分类样本之间的 l_p 失真最小化会生成肉眼无法区分的图像,但在语音领域并非如此。因此,本研究脱离了 l_p 失真度量,转而依赖于在声音空间中捕获人类音频感知的广泛工作。

如何生成鲁棒的对抗样本

为了提高对抗样本在无线播放时的鲁棒性,研究人员用一个声学空间模拟器来创建模拟无线播放的人工语音(带有混响的语音)。他们的目标是使用混响(而不是干净的音频)扰动语音欺骗 ASR 系统。同时,对抗扰动δ应该比较小,以使其不被人听见。

如何生成不可察觉的鲁棒样本

结合先前已开发的两项技术,研究人员现在提出了一种生成不可察觉和鲁棒的对抗样本的方法。将损失降至最低可以实现这一点。在中,交叉熵损失函数 又是用于 Lingvo 的损失,不可察觉性损失与等式 5 中定义的一样。当语音在随机扰动后播放时,研究人员需要欺骗 ASR 系统,所以交叉熵损失迫使转换的对抗样本 t(x + δ) 转录成 y(与之前再次一样)。

评估

图 1:人们对不可察觉性的研究结果。图中的 baseline 表示由 Carlini & Wagner(2018 年)制作的对抗样本,「ours」表示根据章节 4 中的算法生成的不可察觉对抗样本

表 1:1000 个 clean 和(不可察觉)对抗性扰动样本的句子级准确率和词错率(WER),并且在没有无线模拟的情况下输入 Lingvo 模型。在「Clean」中,真实值为初始转录。在「Adversarial」中,ground truth 为针对性转录。

表 2:100 个 clean 和对抗性扰动样本的句子级准确率和 WER,并且在无线模拟的情况下输入 Lingvo 模型。「clean」输入的真实值为初始转录,而对抗性输入的真实值为针对性转录。扰动以为界。

理论ASR对抗样本语音识别Ian Goodfellow
1
相关数据
交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~