机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑

中国互联网巨头百度的业务范围已经从搜索扩展到了移动应用、云服务以及自动驾驶、语音助手这样的新兴业务领域。同时,为了应对日益增长的安全威胁,该公司还在加大其对应各方面的研究投入,其中在人工智能方面的投入尤其突出。机器之心在拉斯维加斯最近举办的DEF CON 黑客大会上采访了百度公司总裁张亚勤博士,本文为相关内容的中文版。

还记得过去每周扫描你的电脑一次然后偶尔下载个补丁吗?如今的信息安全世界已然面目全非,现在的网络安全涵盖巨量大规模的、无法预测的和毁灭性的攻击威胁。光是去年的 WannaCry 勒索软件攻击就感染了 150 个国家的 20 多万台计算机,估测其造成的损失总计高达数十亿美元!

安全领域的专业人士正越来越多地在他们的网络安全工作中采用人工智能。具有人工智能能力的系统能够处理大量数据,并且善于识别和应对威胁。很多研究者相信,深度学习强化学习等方法将会是人工智能安全的未来。

一台运行着百度的自动驾驶平台 Apollo(阿波罗)的汽车

在拉斯维加斯最近举办的 DEF CON 黑客大会上,机器之心采访了百度公司总裁张亚勤博士。张亚勤博士掌管着拥有 1200 多位员工的百度安全部门,该部门 2018 年的口号是“人工智能安全(AI Security)”。

DEF CON 是世界上最大型的黑客大会之一。在今年五月之前,该会议从未在美国之外举办过;而今年五月,百度将 DEF CON 带到了北京,5000 多位中国极客、黑客和科学家参加了这次会议。

张亚勤博士谈到了当今的网络安全挑战以及人工智能在安全领域中的兴起。他也对人工智能算法和模型的自身脆弱性发出了警告,并给出了百度应对这一问题的方式。详情请阅读下面的采访内容。为了简洁明晰,我们对采访内容进行了适当编辑。

机器之心:当今的黑客攻击和漏洞被利用的问题正日益复杂化且破坏力越来越强,比如 EternalBlue、Wannacry 和 DDoS 攻击,这让很多国家都很担忧。为什么会这样?

张亚勤:当一个行业规模增大时,也会吸引到黑市的注意。过去人们主要使用电脑来搜索互联网上的信息,所以大部分病毒都是针对 PC 的。但现在互联网已经渗透进了我们生活的各个方面,比如人们会使用移动设备来网上购物。安全的边界正在延展,黑市也会一起成长并带来新的更大的安全难题。

WannaCry 截屏

机器之心:现在很多安全会议都会讨论黑客使用 AI 来创造病毒或攻击的问题。

张亚勤:AI已经让安全边界延展覆盖了物联网、汽车和各种垂直领域。现在可被攻击的事物更多了,而且某些 AI 模型和算法本身可能就存在漏洞。你提到的黑客使用 AI 来进行攻击的可能性也是真实存在的。AI 可以识别模式,从而可被用于寻找攻击的方式。相对地,AI 也可以通过识别数据和预测防御攻击所用的方法来保护系统。

病毒已经不再是主要问题了。现在我们更关注如何预测和衡量攻击的可能性。例如,我们可以根据大数据中的模式来判别 DDoS 攻击可能将于何时何地发生,然后我们可以在真正有人发动攻击之前就采取预防措施。

当今的安全已不仅仅是网络安全和代码安全,还涵盖了数据安全、支付安全、财务安全、物理安全,甚至针对个人安全设备的安全。

机器之心:请给我们介绍一下百度安全为大规模信息安全开发 AI 算法的情况。

张亚勤:百度已有 18 年的历史。在前十年中,我们主要关注的是保卫我们自己的系统,以防止我们的网络和客户遭受攻击。然后我们扩展了我们的安全范围,将我们新的移动产品纳入了进来。

过去两年中,百度将大部分资源都投入了 AI 安全。我们非常关注账户信息等数据。另外,还有我们的自动驾驶系统阿波罗(Apollo)和智能语音助手度秘(DuerOS)等人工智能系统的安全。我们经常进行网络安全攻击和防御模拟来提升我们的防御能力。

一款配置有 DuerOS 系统的百度智能音箱

机器之心:百度近期的网络安全开发情况如何?

张亚勤:我们已经构建了一个名为 OASES 的智能边缘安全生态系统,可以让不同的安卓版本有能力更好地防御网络攻击。

机器之心:美国和中国的网络安全行业有什么异同?

张亚勤:我认为中国市场更有挑战性,因为中国市场有大量地下经济;而且不仅是在网络安全行业,在电信、支付和金融领域都是如此。但我相信中国的问题会逐渐得到解决。

机器之心:深度学习在网络安全领域发挥着怎样的作用? 

张亚勤:过去十年,大数据分析让 AI 实现了跨越式发展。我们可以使用机器学习基于大量数据得出结论,这种方法在过去两年中已经得到了广泛的应用。在 Black Hat 黑帽安全大会上,深度学习议程的数量也正越来越多。只要我们理解 AI 是基于模式识别和大数据分类的,我们就可以更好地理解 AI 能在安全行业做什么。

目前,AI 的作用仍然是提供支持,但在不久的将来 AI 也许就能成为决策者。这个行业面临的一个更大难题是 AI 模型非常复杂,所以它们本身可能就存在漏洞。比如有研究表明只要用胶带在停车标志上加上特定的图案,就能让 AI 将其识别成一个 45 MPH 的限速标志。卷积网络对角度、位置偏移、图像尺寸等条件非常敏感,所以我们需要提升算法的稳健性。

来自华盛顿大学、密歇根大学、石溪大学和加州大学伯克利分校的研究者去年发表了一篇论文,研究了如何在街道标志上使用贴纸欺骗自动驾驶汽车的方法

机器之心:你提到的停车标志攻击涉及到对抗样本对吧

张亚勤:是的,但对抗样本目前还不能用于大规模攻击。我们的研究者在实验室正在模拟这个领域攻防以及进行一些开发工作,以深入研究这一技术。在完成了一次攻击模拟后,我们立即就会探索防御它的方法。

有意思的是,在 Apollo 开源之后,很多安全专家和白帽黑客“攻击”过我们的模型并分享了对应的防御代码。这些输入已帮助 Apollo 系统变得非常鲁邦。Apollo 中超过 50% 的代码都与安全相关。

机器之心:考虑到安全边界的不断延展,有哪些新出现的对汽车的威胁? 

张亚勤:比如说,黑客可以让制动系统和制动防抱死系统(ABS)失效,从而从驾驶者手里接管汽车。通过干扰 GPS,黑客可以改变汽车显示的位置或地图信息。他们还能攻击视频等其它车载信息系统。去年中国一个安全研究团队就成功攻破了一台特斯拉 Model X。

传统汽车制造商并不真正理解信息安全。比如在车载操作系统接收 OTA 更新时常常会有安全问题。互联网公司可能知道如何在手机上防御这一技术,但自动驾驶汽车的安全要求更加严格,并且还涉及到人身安全。

机器之心:DuerOS 现在已经被安装在了数以亿计的设备上,这会带来什么安全问题吗?

张亚勤:目前我们还没看到任何问题。但我一直都在说,安全和隐私问题是我们最优先的任务。

机器之心:今年5月,百度将DEF CON带到了中国。你能说说是如何认识 Jeff Moss 的吗?你又是如何将 DEF CON 带到中国的? 

张亚勤:我与 Jeff 的关系非常好。实际上,他长大的地方离我在西雅图的家仅相隔两个街区。Jeff 和我在初次见面时进行了很好的交谈,分享了我们对安全行业的看法。他告诉我他也希望 DEF CON 和Black Hat大会能在美国之外举办,因为网络安全现在已是一个世界性问题。所以我就提议在中国举办这个会议。我们投入了很多时间和精力,最终做成了此事。

百度是一个理想的 DEF CON 合作伙伴,因为我们在新兴科技上有强大的实力。另外,我们也想交朋友。在安全领域,我们现在与阿里巴巴、腾讯、华为和小米等公司有密切的合作。我们还支持了各种各样的攻击和防御竞赛。在我第一次参加 DEF CON 时,我们赞助了一个名叫“Blue Lotus”的团队,这是中国第一支进入 DEF CON 大会 CTF 决赛的团队。在那之后,该团队的某些成员加入了百度。

DEF CON 创立者 Jeff Moss(左)、张亚勤(中)和百度安全总经理马杰(右)出席今年五月的 DEF CON 中国大会

机器之心:今年中国发布了一份《人工智能标准化白皮书》,其中包含信息安全和人工智能安全的内容。对百度而言,这意味着什么?

张亚勤:这份白皮书能让每个人在面对问题时达成共识。不管是安全问题或算法问题,还是行业实施的问题,我们都需要有共识,而百度正在积极参与其中。

机器之心: 你认为网络安全行业在未来三到五年会如何发展?

张亚勤:在人工智能时代,整个安全领域的边界都在延伸。机器学习技术能带来优势,但也存在缺陷。安全行业需要理解不同系统的特性。正如我之前说的,一开始我们必须确保 PC 安全,然后当移动设备增添了支付和交易等功能之后,我们又必须保证这些功能的安全。现在,物联网正在蓬勃发展。随着互联网进入我们的物理世界,自然而然还会出现新的挑战和新的机遇。

说到这一点,我还认为目前在安全、人工智能和垂直行业工作的跨学科人才太少了。比如说,自动驾驶将会成为未来五年我们面临的最复杂的安全难题之一。这个行业涉及到各种各样的技术,包括人工智能计算机视觉、各种传感器、深度学习、高精度地图、自主定位、大数据等。这是一个很困难的任务,因为车辆需要执行从感知到决策再到行为的多个步骤,从而在最短的时间内做出最正确的决定。因此,自动驾驶行业的安全专家不仅应该了解自动驾驶技术,也要非常熟悉一般意义上的汽车,还要熟悉所有相关的 AI 算法和安全算法。

产业网络安全搜索引擎张亚勤百度
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~