Ian Goodfellow AIWTB开发者大会演讲:对抗样本与差分隐私

面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST(AIWTB)于 2017 年 4 月 29-30 日在 AIWTB 官网上通过在线直播的方式举办。作为第三届 AI WITH THE BEST 华语社区独家合作伙伴,今年线上大会机器之心有免费赠门票资格。在此前的问题征集赠票活动中,我们从读者提问中选出了 1 个高质量问题并赠送了参会票。


在本文中,机器之心对这次对话大会上 Ian Goodfellow 的演讲和对话内容进行了梳理,文后还附带了 IProgrammer 在会前对 Ian Goodfellow 的关于该在线会议的采访内容。


Ian Goodfellow 是谷歌大脑的一位研究科学家,是生成对抗网络(GAN)的提出者,也是《Deep Learning》的作者之一。他此次的演讲主题为《机器学习的隐私与安全(Machine learning privacy and security)》。


演讲主题:随着机器学习算法得到越来越广泛的使用,确保它们能够提供隐私和安全保证是很重要的。在这个演讲中,Ian Goodfellow 概述了一些对手可以用来攻击机器学习模型的方法,以及一些我们可以用来进行防御的措施,比如对抗训练(adversarial training)和差分隐私(differential privacy)。此次大会,AI With the Best 也邀请了 Nicolas Papernot、Patrick McDanel 和 Dawn Song 来对其中一些主题进行详细解读。



演讲内容介绍



前面介绍了,AI With the Best 线上大会分为两部分内容:在线演讲、在线对话。在这一部分,我们对 Ian Goodfellow 演讲的内容进行了梳理。

640-2.jpeg

Goodfellow 的演讲主题为《机器学习的隐私与安全(Machine learning privacy and security)》,其中重点介绍了对抗样本和差分隐私。在对抗样本部分,他重点解读了在训练时间和测试时间对模型的干扰。在差分隐私部分,他介绍了差分隐私的定义和当前这一领域最先进的算法 PATE-G。


640-3.jpeg

斯坦福的研究者做了一个很有意思的研究:首先用一种对人类而言看起来像是噪声的信号(实际上是经过精心设计的)「污染」训练集的图片,比如上图左侧中狗的照片,得到上图右侧的照片,对我们人类而言看起来还是狗。用原始训练集训练模型后,模型识别下图有 97.8% 的概率是「狗」;而用被「污染」过的图片和标签训练模型之后,模型会把下图显然的狗标记为「鱼」,置信度为 69.7%。这个研究表明我们可以通过影响训练集来干扰测试结果。

640-4.jpeg


除了在训练时间对模型进行干扰,我们也可以在测试时间干扰模型。对于实际投入应用的机器学习模型来说,这个阶段的攻击更值得关注。比如说左边的熊猫照片,如果我们给它加上一点看起来像是噪声的信号,然后得到右边的图像——看起来仍然是熊猫;但对一个计算机视觉系统来说,它看起来却像是一个长臂猿。


这个过程中到底发生了什么?当然实际上,那个看起来像是噪声的信号并不是噪声,真正的噪声信号对神经网络的结果的影响不会有这么大。实际上这是经过精心计算的信号,目标就是诱导机器学习系统犯错。


640-5.jpeg

为什么这个问题很重要呢?自 2013 年以来,深度神经网络已经在目标和人脸识别、破解验证码和阅读地址等任务上达到或接近了人类的水平,并且也实现了很多应用。通过上面提到的方法,我们可以影响这些系统的表现,使对抗样本具有潜在危险性。比如,攻击者可能会用贴纸或者一幅画做一个对抗式「停止」交通标志,将攻击对象瞄准自动驾驶汽车,这样,车辆就可能将这一「标志」解释为「放弃」或其他标识,进而引发危险。研究《Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples》讨论过这个问题。


640-6.jpeg

让不同的物体被识别为「飞机」

640-7.jpeg

现代深度网络是非常分段线性的

640-8.jpeg

反应中的接近线性的响应


640-9.jpeg

640-10.jpeg

对抗样本不是噪声

640-11.jpeg

让高斯噪声被识别为一架飞机


640-12.jpeg

同样方向的干扰可以在许多输入上欺骗模型(后来被称为「通用对抗扰动」)

640-13.jpeg

640-14.jpeg

跨模型、跨数据集泛化

640-15.jpeg

迁移策略


→带有未知权重的目标模型,机器学习算法、训练集;也许是不可微分的——(训练你自己的模型)→替代模型使用已知的可微分的函数来模拟目标模型——(对抗性的设计来对抗替代)→对抗样本——(部署对抗样本来对抗目标;迁移性导致它们的成功)→

640-16.jpeg

对抗样本的实际应用



  • 欺骗通过远程托管的 API(MetaMind、亚马逊、谷歌)训练的真实分类器
  • 欺骗恶意软件检测器网络
  • 在物理世界中展示对抗样本,通过一个相机欺骗机器学习系统相信它们


640-17.jpeg

物理世界中的对抗样本


640-18.jpeg



用于强化学习的对抗样本。伯克利、OpenAI 以及宾大联合发表的论文《Adversarial Attacks on Neural Network Policies》,内华达大学《Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks》等研究表明强化学习智能体也能被对抗样本操控。研究表明,广为采用的强化学习算法(比如,DQN、TRPO 以及 A3C)都经不起对抗样本的捉弄。这些对抗样本输入会降低系统性能,即使扰乱微妙地让人类也难以察觉,智能体会在应该往上移动的时候却将球拍向下移动,或者在 Seaquest 中识别敌人的能力受到干扰。


640-19.jpeg

失败的防御方法,其中包括生成式预训练、使用自动编码器移除干扰、纠错代码、权重衰减、多种非线性单元等等

640-20.jpeg

在对抗样本上的训练


640-21.jpeg

一匹叫做 Clever Hans 的马。刚出现的时候人们认为这匹马会做算术,但实际上它只是会阅读人的表情,当它点马蹄的次数接近正确答案时,人们的表情会更兴奋,它就知道该这个时候停止了。

640-22.jpeg

OpenAI 开源的 cleverhans 项目,支持 TensorFlow 和 Theano;是对抗样本生成的标准实现,可用于对抗训练和再现基准。项目地址:https://github.com/openai/cleverhans

640-23.jpeg

差分隐私

640-24.jpeg

PATE:教师全体的私有聚合 (Private Aggregation of Teacher Ensembles)。该方法通过黑箱的方式组合多个由互斥数据集(如用户数据的不同子集)训练的模型。因为这些模型都依赖于敏感性数据,所以它们并不会发布,但是它们还是可以作为「学生」模型的「教师」。学生在所有教师间的投票中选择学习预测输出,其并不会直接访问单一的教师或基础参数与数据。学生的隐私属性可以直观地理解(因为没有单一的教师和单一的数据集决定学生的训练),正式地即依据不同隐私训练模型。即使攻击者不仅可以访问学生,还能检查内部运行工作,这一属性还将保持不变。与以前的研究相比,该方法对教师的训练只增加弱假设条件:其适应于所有模型,包括非凸模型(如深度神经网络)。由于隐私分析和半监督学习的改进,我们的模型在 MNIST 和 SVHN 上实现了最先进的隐私/效用(privacy/utility)权衡。

640-25.jpeg

640-26.jpeg

640-27.jpeg


总结


  • 现在机器学习已经有效了,让我们让它更稳健
  • 对抗样本可以发生在训练时间,也可以出现在测试时间
  • 对抗训练是一种人们偏爱的对对抗样本的防御方法
  • PATE-G 是一种高准确度的算法,带有差分隐私的保证


在大会之前,IProgrammer 对 Ian Goodfellow 进行了一次采访,就此次演讲的主题、AI WITH THE BEST 大会进行了解读。机器之心将此次采访的内容编译如下:


IProgrammer:我们了解到这是你第三次参加 AI With the Best 大会,也在帮助组织这一线上会议,线上模式看起来逐渐变得流行起来了。


Ian Goodfellow:是的,在线会议相比于线下提供了多种好处:花更少的时间和金钱就能参与;多个听众与单个演讲者交流时也能更自然;演讲时能够暂停、回放;之后,演讲内容还便于传播。去年在 OpenAI 组织过 Self-Organizing 会议之后,我就自愿成为了顾问,我的任务是帮助选择演讲者、安排日程。


IP :找到覆盖 4 个频道的 100 多位演讲者看起来很有野心,能实现吗?


Ian Goodfellow:在找演讲者上,我们做的很好,Yoshua Bengio、Sam Altman 都同意做 keynote。


IP:对付费用户而言,大会上最令人激动的东西是什么?


Ian Goodfellow:用户可以预订 1 对 1 的演讲者 session,这是相比于 Youtube 视频等允许交流的软件平台该大会很棒的一方面。


IP:所有的演讲者都会有 1 对 1 吗?


Ian Goodfellow:每个演讲者都能自由选择演讲多少个时段。1 对 1session 对演讲者和用户都会有帮助,而且有趣。去年的会议上,我就遇到了一些有趣的用户,比如一个使用生成式模型研究暗物质分布的天文学家。


IP:去年的 AI With the Best 大会上,你讲了 GAN,能简单介绍下这个概念吗?


Ian Goodfellow:GAN 是个机器学习模型,它能生成类似于训练数据的新数据。例如,在包含狗的图片的数据集上训练之后,GAN 能够生成之前从未见过的、虚构的狗图片。


IP:今年你的演讲主题是机器学习安全与隐私,安全是你目前的研究领域吗?还是会继续对抗训练的研究?


Ian Goodfellow:我两个都研究,它们与机器学习安全都密切相关。我们现在正在研究如何愚弄机器学习模型,很多公司都对使用深度学习进行恶意代码检测感兴趣,问题是机器学习模型很容易被欺骗,所以下一代恶意代码很可能会欺骗这些机器学习检测器,这里就有一种名为 MalGAN 的新算法。它使用 GAN 生成恶意代码来欺骗检测器,让它以为是合法的软件。


IP:所以你需要欺骗诈骗犯?


Ian Goodfellow:是的,在攻击者与防御者之间有竞争,新的机器学习能力对两方都有帮助,机器学习能自动欺骗检测,但它也能进行欺骗。


IP:有没有简单的解决方法,或者这种方法是否会花费很长的时间?


Ian Goodfellow:它会花费一些时间,还有很多的工作要做,无论是在理论还是应用上。在理论方面,我们还没有解释如何结束这种竞争的理论。例如,在密码学上,如果你正确的部署密码,保证密码的安全,攻击者很难读取道你的加密信息。有趣的是,如果你不出错,防御方就会赢。但我们无法保证机器学习是否是这样。目前,如果你采用顶尖的机器学习算法训练恶意代码检测,它还是很容易被欺骗。我们希望某天能够建立无人可欺骗的恶意代码检测器。目前,我们还没有任何数学理论告诉我们这是否行的通。机器学习安全领域的一个最大的研究问题是搞清楚我们能给予多大的期待。


IP:看起来像是潘多拉魔盒。一方面我们在研究让人类觉得它是人类的人工智能,一方面在暴露新的风险。机器学习看起来以对抗样本的方式引入了新的缺陷。你认为有没可能找到一种方式,保护所有的神经网络不被攻击?还是说这就是模型不可避免的问题?


Ian Goodfellow:这是一个非常重要的开放问题。我们希望能够写出一个定理,告诉我们在防御对抗样本上我们能期待多大。目前,我们还没有多少理论上的卫士(guidance)。实际上,防御要比进攻难。


IP:AI 总是基于云服务,这是否让攻击变的很容易?


Ian Goodfellow:不是,只要云服务提供商采取合适的安全措施,所有东西放到云中会更好,以便于只防御一个系统。


IP:SVM、决策树这样的人工智能方法都有这个问题吗?


Ian Goodfellow:是的。实际上,在许多情况下,同样的输入样本会欺骗多种不同的机器学习算法。


IP:如果一些已经工作的人(不是学生)现有学习机器学习,你有什么推荐?


Ian Goodfellow:可读一下我和 Yoshua Bengio 、Aaron Courville 合著的《深度学习》,同时找一些能实践的机器学习项目。机器学习如今到处都是,所以在日常任何工作中都能很轻易的找到机器学习项目。机器之心icon.png

入门会议理论AIWTBIan GoodfellowGAN对抗性训练生成模型
暂无评论
暂无评论~