牛津、剑桥、OpenAI 等多家机构发布重磅报告,论述恶意人工智能的「罪与罚」

报告链接:https://arxiv.org/pdf/1802.07228.pdf

目录


 执行摘要

人工智能和机器学习的能力以前所未有的速度飞速发展。这些技术已经有很多优秀的应用,从机器翻译到医疗图像分析,还有更多应用正在开发中。但是长期以来,很少有人注意人工智能被恶意使用的情况。本报告调查了恶意使用人工智能技术的潜在安全威胁,并提出更好地预测、预防和缓解这些威胁的方法。我们分析攻击者和防御者之间的长期平衡,但并未得到最终的解决方案。我们主要关注在未实施充分的防御时可能出现的攻击。

对于不断改变的威胁环境,我们推荐以下四种高级做法:

1. 决策者应与技术研究者紧密合作,调查、预防和缓解恶意使用人工智能的潜在安全威胁。

2. 人工智能领域的研究者和工程师应严肃对待其工作的双刃剑性质,考虑错误使用 AI 对研究优先级和规范的影响,以及在可预见有害的应用时,先发制人地找到相关的参与者。

3. 研究领域应该用更成熟的方法确认最佳实践,以解决对 AI 双刃剑性质的担忧,如计算机安全。且最佳实践应该用于适合的场景中。

4. 积极扩展更多利益相关者和领域专家参与讨论这些难题。

随着 AI 变得越来越强大和普遍,我们预测 AI 系统的广泛使用会给威胁图景带来如下改变:

  • 现有威胁的扩展。攻击的成本可能因 AI 系统的扩展使用而降低(用于完成往常需要人类劳动、智力和专业知识的任务)。这将扩大实施特定攻击的参与者的范围、实施攻击的速度,以及潜在目标的类型。

  • 带来新的威胁。AI 系统用于完成人类不太可能完成的任务时,可能带来新的攻击。此外,恶意使用者可能会利用防御者部署的 AI 系统的弱点。

  • 威胁的典型特征发生改变。我们认为有理由预测 AI 广泛使用带来的攻击会更加高效、精准定位、难以归因,且可能会利用 AI 系统的弱点。

我们从以下三个安全领域进行分析,通过具备代表性的例子阐述这些领域可能的威胁变化:

  • 数字安全。使用 AI 自动化完成涉及网络攻击的任务将缓解攻击的规模和效能之间的现有矛盾。这可能扩大与劳动密集型网络攻击(如鱼叉式网络钓鱼)有关的威胁。我们还预测会出现利用人类弱点的新攻击(如利用语音合成技术进行模仿)、利用现有软件漏洞的新攻击,或利用 AI 系统漏洞的新攻击(如通过对抗样本和数据下毒进行攻击)。

  • 物理安全。使用 AI 自动化完成使用无人机和其他物理系统(如自动武器系统)的任务可能会扩大与这些攻击相关的威胁。我们还预测会出现颠覆网络物理系统(如导致自动驾驶汽车翻车)或涉及无法远程指挥的物理系统(如数千架微型无人机)的新攻击。

  • 政治安全。使用 AI 自动化完成涉及监控(如分析收集的数据)、劝导(如进行针对性宣传)和欺骗(如操纵视频)的任务可能会扩大与隐私侵犯和社会操纵相关的威胁。我们还预测新攻击会利用不断提升的能力,基于获取数据分析人类的行为、情绪和信仰。这些担忧在威权国家中最严重,但是也可能削弱民主。

除了上文列举的高级推荐做法以外,我们还在以下四种主要研究领域中探索了多个开放性问题和潜在的干预方法:

  • 从网络安全社区学习。在网络安全和 AI 攻击的交集处,我们需要探索和潜在地实现「红队判研」(red teaming)、正式验证、安全工具、安全硬件,以及负责任地揭露 AI 漏洞。

  • 探索不同的开放性模型。随着 AI 和 ML 的双刃剑属性逐渐明显,我们需要重新设置有关研究开放性的规范和制度,从特别关注的技术领域中发表前的风险评估、中央访问授权模型开始,共享支持安全保障的制度,以及从其他双刃剑技术中学到的经验。

  • 提升责任意识。AI 研究者和组织在塑造 AI 赋能世界的安全图景中占据独特位置。我们强调教育、伦理声明和标准、框架、规范和期望。

  • 开发技术和政策解决方案。我们调查了大量颇有前景的技术和政策干预方法,可能有助于构建更安全的 AI 未来。进一步研究的高级领域包括隐私保护、维护公众安全的协调使用 AI、监控 AI 相关资源,以及其他的立法和监管措施。

这些干预方法不仅需要 AI 研究者和企业的注意和行动,还需要立法者、政府官员、监管机构、安全研究者和教育者的协作。挑战很大,风险很高。

通用人工智能和安全威胁框架

人工智能的安全相关属性

人工智能是一种双刃剑技术。AI 系统及其设计知识可有民用和军用两种目的,进而带来或好或坏的后果。一些需要智能的任务是良性的,一些则不是。人工智能如同人类智能一样,也是一把双刃剑。对于人工智能研究员来说,避免创造可直接服务于有害目的的研究成果和系统是很难的(尽管一些案例中,基于特定领域的属性,需要特别小心)。很多可以自动化执行的问题本身就是双刃剑。举例来说,用来检查软件漏洞的系统既有攻击性也有保护性的应用,自动送包裹的无人机和自动送炸弹的无人机的区别也并不是很大。此外,旨在提高我们对 AI、AI 能力和人类对 AI 控制力的认识的基础研究,也显现出了天然的双重用处的属性。

AI 系统通常既高效且可扩展。这里,如果 AI 系统训练好且部署之后,它可以比人更快的或者更廉价地完成特定的任务,那么我们说它是「高效的」。如果给出一个特定任务,增加这个系统的算力或复制更多的系统,可以完成更多的任务,则我们说这个 AI 系统是「可扩展的」。例如,一个典型的人脸识别系统既是高效的也是可扩展的;一旦它被训练好并且部署之后,它可用于处理很多不同的摄像机原始数据,完成和人类分析师一样的分任务,还更加廉价。

AI 系统可以超过人类的能力。具体来说,一个 AI 系统可以比人更好地完成一个给定的任务。举例来说,如上所述,现在 AI 系统在象棋和围棋比赛中超越了顶级的人类玩家。在其他任务里,不管是良性的还是恶性的,没有任何明确的证据说明,目前观察到的人类水平是能达到的最高水平,即使是近期表现最好且保持稳定的领域也是如此。

AI 系统可以增加匿名性和心理距离。很多任务涉及和他人交流、观察或者被观察、决定如何回应对方,或者物理上和他们一起出现。AI 系统允许这样的任务被自动化处理,从而使得攻击参与者保持他们的匿名性和与目标所受影响的心理距离。比如,某人用自动化武器系统实施暗杀,与手枪相比,这避免了出现在现场和观察受害者。

AI 发展带来了快速的扩散。尽管攻击者可能会发现获取或复制 AI 系统所需硬件(比如强大的电脑或无人机)非常昂贵时,但获取软件和相关的科学研究通常比较容易。确实,很多新的 AI 算法用几天或者几周的时间就可以复制。此外,AI 研究文化的特征之一就是高程度的开放性,很多论文都带有源码。即使事实证明限制特定技术发展的扩散是必要的,这也很难达到。

今天的 AI 系统经历了大量新的未解决漏洞,包括数据下毒攻击(输入可使学习系统犯错的训练数据)、对抗样本(造成机器学习系统错误分类的输入)和利用自治系统目标设计中的缺陷。这些缺陷和传统软件缺陷(如缓冲溢出)很不同,同时也证明 AI 系统在很多方面可以超越人,但也会犯很多人不会犯的错误。

威胁图景的一般影响

根据上文讨论的内容,我们得出 AI 威胁图景的三个高级影响方面。在缺少充足防御的情况下,AI 的发展会:

  • 扩大现有威胁

  • 带来新的威胁

  • 威胁的典型特征发生改变

 

具体来说,我们预测攻击将会更高效、更精准、更难以归因,也更可能利用 AI 系统的漏洞。

这些变化使「Interventions」部分所讨论的积极响应办法成为必然。

 

扩展现有威胁

对于许多熟悉的攻击,我们预测 AI 的发展会扩大实施攻击者的范围、参与者实施攻击的速度和可攻击目标的范围。该观点根据 AI 系统的效能、可扩展性和易扩散性得来。具体来说,高效 AI 系统的扩散可以增加可实施特定攻击的参与者的数量。如果相关的 AI 系统具备可扩展性,则已经具备实施攻击资源的参与者可能获得更高速实施攻击的能力。最后,由于这两项发展,攻击那些原本从成本收益分析角度来看并不划算的目标也是可行的。

举例来说,可能以这种方式扩展的威胁有,鱼叉式网络钓鱼攻击造成的威胁。这些攻击利用个性化信息提取个人敏感信息或钱财,攻击者通常以目标朋友、同事或专业联系人的姿态出现。最先进的鱼叉式网络钓鱼攻击需要大量高技术劳动,攻击者必须确定高价值目标,研究目标的社交和职业网络,然后生成适合该语境的信息。

如果相关的研究和合成任务可以自动化完成,则可能会有更多的人参与鱼叉式网络钓鱼。例如,攻击者和目标说同样的语言可能都不再是必需条件。攻击者可能还有能力以一种目前不可行的方式参与大规模鱼叉式网络钓鱼,因此他们在选择目标时更加「一视同仁」。类似的分析也可用于大部分网络攻击,以及目前需要大量人类劳动的物理安全或政治安全威胁。

AI 的发展还可能增加攻击参与者实施特定攻击的意愿,从而扩展现有威胁。该观点源于不断增加的匿名性和心理距离。如果攻击参与者知道某项攻击不会被追踪到自己,如果他们对目标的怜悯更少,他们经历过的道德挣扎更少,那么他们也更有可能实施该攻击。心理距离的重要性可以通过这个例子来描述:即使是军用无人机操作员,也必须观察目标,「开始射击」,因工作而频繁出现创伤性压力。因此,心理距离的不断扩大将对潜在攻击者的心理产生很大的影响。

我们还应该注意到,通常情况下,AI 的发展不是扩展现有威胁的唯一力量。机器人技术的发展和硬件成本下降(包括算力和机器人)也很重要。例如,廉价业余无人机的普及(可以轻松装运爆炸物)使得近期非国家组织(如伊斯兰国)发动空袭成为可能。

 

带来新威胁

AI 的发展带来多种新的攻击。这些攻击可能使用 AI 系统比人类更好地完成某些任务,或者利用 AI 系统的漏洞。

首先,AI 系统不受人类能力约束的特性使得攻击参与者可以实施之前不可行的攻击。例如,大部分人无法逼真模仿别人的声音或手动创建模仿人类录音的音频文件。但是,近期语音合成系统出现了巨大进步,可以学习模仿人类的声音(该技术目前尚未商用)。这些系统的输出与原始录音很难分辨,除非使用专门的认证手段。这类系统将为扩散假消息和假冒他人提供新的方法。

此外,AI 系统还可用于控制机器人和恶意软件的行为,而这对于人类来说不太可行。例如,没有人类团队能够实际地为一群无人机中的每一架都选择正确的飞行路线,来进行物理攻击。人类控制在其他情况中也可能不可行,因为没有可靠的通信渠道来指挥相关的系统;使用 Stuxnet 软件扰乱伊朗核计划时,一个专门设计用来更改气隙计算机(air-gapped computer)行为的病毒一旦感染这些计算机就无法接收命令。有限通信的挑战还出现在水下和存在信号干扰器的情况下。

第二,处理未解决漏洞的特性表明,如果人们开始部署新型 AI 系统,那么他们可能使自己遭受利用这些漏洞的攻击。例如,使用自动驾驶汽车为攻击者提供机会,他们通过向汽车提供对抗样本的方式引发车祸。以某种方式改变停车牌图像中的几个像素就可以误导 AI 系统。如果多个机器人被在一个中央服务器上运行的单个 AI 系统控制,或多个机器人被多个同样的 AI 系统控制,并在同样的刺激下出现,则单次攻击还可能引起大规模的同步失败。最糟糕的情况可能是攻击用于指挥自主武器系统的服务器,可导致大规模友军误伤或平民受伤。

威胁的典型特征发生改变

 

目前,我们的分析表明威胁图景将会改变现有的威胁,形成新的威胁。我们还预测威胁的典型特征将会以不同方式改变。具体来说,我们认为 AI 主导的攻击将会非常高效、目标精准、难以归因,以及利用 AI 系统的漏洞。

首先,高效、可扩展性和超人能力表明高效攻击会变得更加典型(至少缺少足够的预防措施)。攻击者经常面临攻击频率和规模与高效之间的权衡。比如,鱼叉式网络钓鱼比通常的钓鱼更加高效,后者不需要为个体定制信息,但是鱼叉式网络钓鱼更昂贵,而且无法批量使用。一般的钓鱼攻击也可以获利,虽然其成功率极低,但规模较大。通过提高某些攻击(包括鱼叉式网络钓鱼)的频率和扩展性,AI 系统可以让类似的权衡变得不那么尖锐。结果是攻击者可以实施更高频率、更大规模的更高效攻击。攻击高效性的增长这一预测也和 AI 系统可能具备超越人类的潜力相符。

 

第二,高效和可扩展性,尤其是识别和分析潜在目标的性能,也表明精准攻击将变得更加普遍。攻击者通常喜欢攻击具备某些特定属性的目标,比如高净资产或者与某些政治组织有关,也有兴趣针对目标的属性定制攻击。但是,攻击者通常面临攻击效率和可扩展性与精准打击程度之间的权衡。该权衡与高效性权衡密切相关,同样的逻辑表明我们应该期望其相关性减弱。与其他钓鱼攻击相比,鱼叉式网络钓鱼攻击的相对增加也表明了这一趋势。另一个例子是无人机群使用人脸识别技术杀死人群中的某个人,取代攻击不那么精准的暴力形式。

第三点,匿名性的增加表明难以归因的攻击将会更加普遍。同样可以用攻击者用自动化武器系统展开攻击而不是他们亲自去的例子来说明。

最后,我们预测利用 AI 系统漏洞的攻击会变得越来越普遍。该预测基于未解决的 AI 系统漏洞以及 AI 系统会变得更普遍的结论。

产业
2