Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

童海琳(Helen Toner)作者

人工智能安全的近期进展和待解决问题

本文简要概述了人工智能安全中的三个新领域的一些最新成果和未解决的问题:安全性和鲁棒性、可理解性和可解释性、奖励学习;旨在概述每个领域的一些相关研究,而不是提供全面的文献综述。

随着机器学习研究的不断发展,机器学习模型将被用于越来越重要的环境中,而且模型的应用范围不断扩展。今天我们在工厂仅看到个别机器人,将来我们可能会发现工厂乃至整个公司的自动化管理; 今天,自动驾驶汽车开始走上街头,未来的「智能城市」可能会使用基于机器学习的系统来监督整个地区的能源、交通、水资源和其他基础设施。

除了显而易见的好处之外,自动化在这些关键环境中迅速蔓延也将带来新的挑战。不是对「终结者」机器人的过度恐惧,而是更基本的问题:我们如何能够捕捉自动化系统在更广泛范围内承担更复杂任务的好处,同时确保这些系统可靠地按照我们的意图行事?

人工智能的安全性和可靠性研究历史悠久,包括人机交互、以人为中心的 AI 设计、机器人伦理、隐私和公平等方面的研究。最近,研究员开始创建新的子领域,专门针对未来几十年中可能会出现的高功能和高度自主系统。

本文简要概述了其中三个新领域的一些最新成果和未解决的问题:(1)安全性和鲁棒性 (security and robustness);(2)可理解性和可解释性 (interpretability and explainability);以及(3)奖励学习 (reward learning)。以下内容旨在概述每个领域的一些相关研究,而不是提供全面的文献综述。

安全性和鲁棒性 (security and robustness):在不同环境下可靠的性能

在现实环境中使用的机器学习模型的安全性和鲁棒性显然非常重要。安全性和鲁棒性的模型是必要的,以防止故意攻击,并且新环境或其他意外更改不会导致不良行为。

目前的模型既不安全也不鲁棒的一个有趣的原因是它们对「对抗样本」的敏感性。最常见的对抗样本类型是图像像素无法检测到的扰动导致模型进行错误的判断。

即使对熊猫形象的微小改变也能欺骗学习模型,让模型认为有 99.3% 的可能是长臂猿。来源: Goodfellow et al. 2014,「Explaining and Harnessing Adversarial Examples」

但对抗样本不限于这种图像处理诡计。一些研究人员提出了更广泛的定义:「对抗样本是攻击者故意引入机器学习模型,旨在导致模型出错。」按照这个定义,对抗样本不仅可以用来攻击视觉系统,而且可以用来攻击任何类型的模型。

Fetured paper:「Adversarial Attacks and Defences Competition」

Kurakin et al. 2018: https://arxiv.org/abs/1804.00097

这篇论文来自于 NIPS 2017 大会上由 Google Brain 团队举办的 NIPS 2017 对抗攻击防御比赛。比赛包括非目标攻击 (non-targeted attack)、有针对性的攻击 (targeted attack) 和防御 (defense)。每个类别都使用黑盒图像分类器和类似 ImageNet 的图像数据集作为基础,这里的「黑盒」表示攻击者无法知道目标模型的权重。「非目标攻击」的方法需要对给定的图片进行处理,使得某个机器学习分类器识别其为任意类别,而「有针对性的攻击」的方法需要让某个机器学习分类器能成功将图像识别为属于特定的错误类别。

清华大学的研究人员赢得了比赛的所有三条赛道。他们具体的方法如下:

对于非目标 (non-targeted) 和有针对性 (targeted) 的攻击类型,清华团队采用已经建立的基于迭代的技术来生成对抗性攻击(「iterative fast gradient sign method」,I-FGSM)并增加了动量项,从而减少这种算法经常遇到的过拟合问题。为了增加这些对抗性攻击在不同模型之间可以迁移的程度,他们针对使用分类器的集成来实现他们的方法。

为了防御,清华团队提出了「高阶表征引导去噪器」(HGD)方法。为了消除对抗扰动,该方法改进了现有的与去噪有关的防御机制。HGD 基于这样的见解:在防御对抗样本的过程中,专注于像素级的准确性实际上可能增加而不是减少失真。HGD 使用高级特征指导去噪器防御对抗性攻击。

其他研究:

在过去的几年里,有关对抗样本的研究蓬勃发展,新的攻击和防御技术得到了迅速的反复发展。上面介绍的论文很好地概述了最近的成果。

当然,对安全性和鲁棒性的研究指的不仅仅是对抗样本的例子。其他相关的研究方向包括如何正式验证模型的可靠性(例如 Selsam et al. 2017, Katz et al. 2017);如何使模型对其样本分布的变化具有鲁棒性(如 Platanios et al. 2017);并且研究更一般形式的机器学习安全概念,即如何防御对抗样本以外的攻击类型(例如,Papernot et al. 2016, Steinhardt et al. 2017)。

除了在关键环境中使用的模型必须安全可靠以避免事故的明显原因之外,这些领域的研究还有另一个有趣的应用:它还让我们深入了解模型对正在执行的任务的理解程度,并让我们检查最坏情况的性能(而不是大多数机器学习论文中描述的平均情况性能)。更好地理解我们的模型的脆弱性将有助于我们建立模型,对周围的世界有更准确和细致的表征。

可理解性和可解释性:打开黑盒

深度学习模型经常被描述为「黑盒」,确实很难分析一个训练好的模型的参数分布,并理解为什么它正在做它正在做的事情。

但也许这可以改变。在可理解性和可解释性方面有越来越多的领域在研究如何将深度学习模型的参数转换为人类可以理解的概念和视觉效果。

Featured paper:「The Building Blocks of Interpretability」

Olah et al. 2018: https://distill.pub/2018/building-blocks/

这份交互式论文是 Chris Olah 及其合作者发表的最新出版物,发表在 Distill 在线期刊上。该论文将几种」可理解性「有关的现有工作((包括特征可视化和归因模型)与人机交互研究相结合,引入一个创建界面以理解视觉模型的系统框架。与大多数关于可解释性的研究一样,它将重点放在卷积神经网络(CNN)上,使用 GoogLeNet 作为示例模型。

标题中提到的「building blocks (构件)」指的是不同的可理解性技术和概念,可以用新的方式组合在一起,创造出丰富的人性化界面。

该文章介绍了「语义词典」,提供了一个给定神经元已经学习的抽象的典型视觉例子,并将它们与「显着图」(这在早期的工作中已经很成熟,作为显示图像的哪些区域在其分类方式中最具影响力的方式)和矩阵分解 (这提供了将模型的部分分组以提供更有意义和可理解的视觉效果的新方法) 等概念结合起来。

这些结果最好通过直接阅读文章来查看,因为它包含许多高质量的交互式可视化工具。

该文章也提供了一种结构化的方式来思考可理解性界面的设计。取决于界面的目标(例如,最重要的是显示神经网络检测到的内容,还是以人类易于理解的方式显示信息?),界面可以通过各个方式结合不同的元素(例如特征可视化与信息可视化;归因与激活)。

其他研究:

最近可解释性研究的其他一些例子包括关于使深度神经网络学习的特征可视化的工作(例如 Olah et al. 2017);理解某一个神经网络为什么做出某一个决定(例如 Sundararajan et al. 2017, Koh and Liang 2017);量化不同神经网络的可理解性(例如 Bau et al. 2017);并建立更多可理解的模型(例如 Wu et al,2017)。

到目前为止,大部分关于可理解性的研究都集中在视觉模型上,在其他领域留下的探索空间范围较大。例如,一些学者开始进行解释深度神经网络行为的理论研究 (Saxe et al. 2018 )。

了解模型的内部运作方式,让我们更有信心何时相信它们,它们在什么情况下会失败,以及如何使它们更鲁棒。这对于今天部署深度学习模型的有限环境已经很有价值, 但随着这些系统在更高风险的环境中负责更复杂的决策,它将变得更加重要。

奖励学习:按我的意思做,不是按我说的做

当前的机器学习系统通常使用简单的固定成本函数或奖励信号作为其优化目标。当我们确切地知道我们想要优化的目标(比如 ImageNet 误差率、视频游戏排行或在几轮 Go 比赛获胜),这种方法非常有效。但它有一个明显的缺点:为我们想要优化的内容写下清晰的数学公式通常很困难。

关于这个问题,Lehman et al. 2018 有一些很好的例子,我们可以把进化看作是一个「算法过程」。数字进化领域的许多研究人员观察到他们的演化算法和有机体有时候会颠覆他们的意图,在他们的代码中产生意料之外的适应,或者展示出与自然界中的某些结果一致的结果。

「奖励学习」是指开始用于解决这类问题的一系列研究方法。这些方法旨在使用更能反映人类意图的更微妙、复杂和灵活的奖励来训练模型。

Featured paper:「Deep Reinforcement Learning from Human Preferences」

Christiano et al. 2017: https://arxiv.org/abs/1706.03741

该论文来自 OpenAI 和 DeepMind 的 AI 安全团队之间的合作。它描述了几个实验的结果,使用人类控制员的反馈代替预先指定的奖励函数来训练深度强化学习智能体。

具体来说,这是通过向智能体添加「奖励预测器」来实现的。这个奖励预测器通过监督学习来训练,以预测人类控制员认为哪两个「方向」(例如,机器人执行不同动作的两个剪辑片段)更好。然后,当强化学习(RL)系统在训练时,它使用奖励预测器的输出作为替代奖励信号。随着奖励预测器接收到更多关于人类控制员喜欢的方向的信息,智能体正在训练的奖励信号更接近人类控制员的意图。

参见:OpenAI联合DeepMind发布全新研究:根据人类反馈进行强化学习

这个结果很好地证明了这篇论文的重点:对于某些目标,让人类控制员给强化学习系统提供反馈,从而比事先为系统指定目标的步骤更容易。

其他研究:

上述文章使用人的偏好作为奖励学习机制; 另一篇最近使用这种方法的论文是 Sadigh et al. 2017。奖励学习也可以使用一系列其他方法来实现,其中几种方法如下所述。

逆向强化学习(观察行为来推断奖励函数)和模仿学习(模仿他人的行為)是研究人员长期以来感兴趣的两种技术,尤其是在机器人领域。最近关于这些主题的工作包括 Hadfield-Menell et al. 2016, Hadfield-Menell et al. 2017, Ho and Ermon 2016, 和 Stadie et al. 2017.

奖励学习中的其他研究方向包括让强化学习(RL)系统假定其奖励函数已被破坏并学习如何解决(例如 Everitt et al. 2017); 以「半监督」的方式训练 RL 系统,使其能够将少量的奖励信号推广到新的情况(例如 Finn et al. 2016); 或者在「辩论」环境中设立成对的智能体,争夺人类监督者的批准(Irving et al. 2018)。

对于在范围有限的狭窄环境中使用的 AI 系统,使用不完善的优化函数不太可能导致严重问题。何时获得正确的奖励信号变得至关重要,以及奖励学习能够提供巨大的价值,那就是自动化系统在具有复杂的自由度环境中运行,这在未来可能会越来越普遍。

结论

上面提到的研究方向和论文只是一个新兴的研究领域的一小部分,旨在建立我们可以信赖的在复杂环境中运行的高度自动化的系统。

但是,尽管这些研究领域正在不断增长,但仍有大量工作要做。实现这一目标所涉及的系统必须是鲁棒的,可理解的,并且朝着正确的目标进行优化。

即使超出这些目标,寻找解决这些问题的好方法也会解开我们可以使用人工智能的全新方法。这将需要更多的研究人员来研究这些问题。

补充信息:Amodei et al. 2016,「Concrete Problems in AI Safety」https://arxiv.org/abs/1606.06565

作者简介:

Helen Toner,2014年毕业于墨尔本大学,获得化学工程学士学位,学习期间曾在合作金融创业公司Vesparum Capital工作。她于2015年3月加入Open Philanthropy Project(一个由Facebook创始人之一Dustin Moskovitz支持的位于旧金山的慈善组织),担任高级研究分析师。该项目在多个领域中提供资助金,包括支持机器学习研究团队在AI安全相关的工作。在2018年,Helen在清华大学学习中文,同时继续作为Fellow和Open Philanthropy Project合作。她也是牛津大学的人工智能程序管理(Governance of AI Program)的助理研究员。


产业人工智能安全性对抗样本黑箱强化学习
1
暂无评论
暂无评论~