「第三代人工智能」能帮助我们做什么?瑞莱智慧 RealAI 用两年的时间给出了一个答案。
「第一代知识驱动的 AI 利用知识、算法和算力 3 个要素构造 AI;第二代数据驱动的 AI 利用数据、算法与算力 3 个要素构造 AI。由于第一、二代 AI 只是从一个侧面模拟人类的智能行为,因此存在各自的局限性,不可能触及人类真正的智能。」清华大学人工智能研究院院长、中国科学院院士张钹等人在今年 9 月份的一篇专刊文章中这样写道。在这篇文章中,他们还首次全面阐述了第三代人工智能的理念,提出第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能, 利用知识、数据、算法和算力 4 个要素, 建立新的可解释和鲁棒的 AI 理论与方法,发展安全、可信、可靠和可扩展的 AI 技术(详细信息请参见:《清华张钹院士专刊文章:迈向第三代人工智能(全文收录)》)。其实,早在 2016 年,张钹教授就提出了发展「第三代人工智能」的理念。在他看来,虽然当前的 AI 已经取得了一些进展,但仍面临鲁棒性差、决策不透明等问题,需要把知识驱动与数据驱动结合起来解决问题。2018 年,由张钹、朱军(清华大学人工智能研究院基础理论研究中心主任)担任首席科学家的瑞莱智慧(RealAI)作为产学研技术公司从清华大学人工智能研究院孵化成立。这家公司的愿景是:以第三代人工智能技术为依托,克服一般深度学习存在的诸多缺点,从根本上增强人工智能的可靠性、可信性以及安全性。两年后的今天,在「2020 第三代人工智能产业论坛暨瑞莱智慧 RealAI 战略发布会」上,RealAI 第一次向外界展示了他们基于第三代人工智能技术打造的 AI 原生基础设施产品蓝图。论坛上,瑞莱智慧 CEO 田天指出,当前 AI 基础设施建设的重心集中在数据、算力平台上,主要为 AI 提供基础运算条件和生产力,打个比方,相当于是解决了 AI 的温饱问题。数据和算力的快速增长作为「外部驱动力」的确带动了 AI 技术在包括人脸识别、语音识别等领域的快速发展,驱动 AI 产业「第一增长曲线」的出现。但随着数据受场景复杂与隐私保护限制、算力增长缓慢等问题的出现,AI 产业的第一增长曲线开始放缓。在此情景下,我们亟需为 AI 产业打开「数据」和「算力」之外的全新维度,从增强算法底层能力出发,发展出AI「内生驱动力」。不过想要加强AI内生驱动力,有几道「关卡」需要我们去突破,包括更加安全可靠的决策(AI 决策逻辑和链路都不明确、易受攻击)、数据隐私与安全(信息泄露、数据孤岛)以及 AI 应用场景的管控(算法公平、社会伦理)。「作为 AI 产业的建设者,我们从基础设施的角度看待这一问题,在继承自互联网时代的数据平台、算力平台之外,需要建设 AI 原生基础设施,从 AI 技术自身能力出发提供必备保障」,田天表示。经过两年的努力,田天等人已经给出了这套基础设施的蓝图。在算法可靠方面,他们研发了基于贝叶斯深度学习技术的可解释 AI 建模平台 RealBox。该平台在 2019 年正式发布,目前已经在多家金融机构实际使用,并且通过了中国人工智能产业发展联盟的首批可信 AI 认证。在应用可控方面,他们推出的DeepReal深度伪造检测工具,能够高效精准地判断视频、图片等内容素材是否是经过AI伪造生成的,避免相应舆情,DeepReal 入选了国家工信安全中心人工智能优秀产品,基于其中的核心技术,RealAI 也获得了 GeekPwn2020 年深度伪造检测项目冠军。其中一款是针对数据安全的RealSecure,它是业内首个编译级的隐私保护机器学习平台,其核心模块「隐私保护AI编译器」能够自动将普通机器学习算法程序转换为分布式、隐私安全程序,使隐私安全的人工智能商业应用门槛大幅降低。
另一款是针对算法可靠发布的RealSafe2.0,它是世界首个企业级AI安全平台RealSafe的升级版,相当于是针对AI模型的杀毒软件和防火墙。升级后的RealSafe提供针对目标识别等算法的安全攻防能力,同时增加了后门漏洞检测等功能。
田天表示,「这一系列 AI 原生基础设施可以打开 AI 能力的全新维度,激发 AI 的第二增长曲线,为 AI 赋能各行各业带来全新市场机会。」业内首个编译级隐私保护机器学习平台 RealSecure 亮相在 AI 的发展过程中,数据是基础生产力,用于解决 AI 的「温饱问题」。但由于数据本身难以获取、加工,还涉及行业机密、用户隐私等问题,很多数据拥有者不愿或不能将数据上传至一个数据中心进行模型训练,从而形成了一个个的「烟囱」或「孤岛」。针对这个问题,分布式隐私保护机器学习是一种新兴的解决方案,它能使多方合作完成学习目标,但又避免各方传输原始数据,这并不是一个全新的概念,类似的术语还包括谷歌等机构提出的「联邦学习」,实现「数据不出门,可用不可见」,但在实际商业应用中却面临三大痛点:第一是学术界工业界公认的隐私保护机器学习最主要的问题—性能差。隐私保护机器学习需要多方配合执行,多方需要以加密形式完成参数交换,加密带来了高达百倍的性能损失。同时超参数设置等与既有机器学习生态存在差距,隐私保护机器学习的速度慢了近千倍。本地几十秒的模型训练,隐私保护下需要数小时。而特征筛选、模型调参、模型验证又需要几十上百次重复建模流程,为了实现数据安全,极大的牺牲了建模速度。第二是隐私保护机器学习难以大规模商业化落地的重要原因—难以兼容现有机器学习生态。不同于传统机器学习,隐私保护机器学习是分布式系统、密码学、人工智能三个领域的结合。为了实现隐私保护的目标,各家机构要组织团队学习分布式系统、学习密码学;学习使用新算法、新框架,并在新平台下执行程序。这也意味着,AI 团队长期以来积累下的经验和方法论在隐私保护机器学习领域无法直接运用,重建或改写的投入与代价非常之大。第三隐私保护最核心的问题是保障数据财产的安全,这也意味着,平台自身的安全性应该是可被检验的。现有模式都是纯黑盒运行,安全性检验完全依赖专家背书,但整个平台代码量巨大,专家逐行审计模式难以实现。而且实际生产环境中,是否真的按照审计时提供的代码逻辑执行,也都难以保障。隐私保护机器学习平台 RealSecure 就是在以上需求下诞生的,它首创以底层数据流图的视角揭示机器学习算法与对应分布式隐私保护机器学习算法的联系,通过算子组合将机器学习生态与隐私保护机器学习生态一脉打通,解决企业搭建隐私保护生态面临着的性能差、易用性差、黑盒协议等诸多难题,实现两大生态的一体化。性能强劲。借助密码学优化、AI 算法优化等改进实现,模型训练相比某主流国产开源框架(最新版)性能提升约 40 倍,耗时从 4 小时 40 分钟缩减至 6 分钟。考虑到特征工程与自动调参环境,隐私保护下完成全流程建模,总耗时实现从日级别到小时级别的飞跃。
无感应用。实现机器学习生态与隐私保护机器学习生态的「一脉相承」,仅需要少量改动,可以通过自动转换完成机器学习算法平台框架与隐私保护机器学习平台框架的统一,数据科学家能够以与机器学习建模相同的方式使用隐私保护机器学习,易用性大幅提升。
安全透明。真正的隐私保护学习应用应该是白盒可验证的,所有底层执行的计算是可审计的,这样才能保证隐私保护学习平台的安全性。RealSecure 以数据流图形式,将中间计算过程公开,实现计算过程的安全透明。
RealAI 表示,易用性与性能的颠覆性提升,也让 RealSecure 成为更快更容易应用到商业环境的「企业级」隐私保护机器学习平台。在发布会现场,田天还阐明了他们开发这两款产品的理念:「当在应用中碰到技术难题时,我们不是见一个解决一个,修修补补;而是发现一个问题就看到一类问题,并通过底层技术框架、平台的突破,助力产业的升级。今天我们重点发布的两款新品都是这一理念的典型代表,它们的产品定位、功能和价值都是独一无二,RealAI 首创。」世界首款企业级 AI 安全平台 RealSafe 迎来 2.0在网络安全时代,网络攻击的大规模渗透催生出一大批杀毒软件。但随着 AI 逐渐成为基础设施的一部分,针对 AI 模型的「杀毒软件」却一直处于缺位状态。这种缺位存在巨大的安全隐患。数据显示,去年就已经有超过 40% 的手机配备了人脸识别方案,但其中一些通过一副印有特殊纹理图案的眼镜就能轻松解锁。如果说手机影响的只是隐私和财产安全,那自动驾驶系统的安全漏洞则是真正的致命威胁。国际管理咨询公司(Roland Berger)预测,2020 年全球自动驾驶车端系统的市场规模有望超过 1000 亿美元。但与此同时,黑客只需要在标识牌上加上特定图案就可以让机器把限速标识识别为停止标识,导致致命事故的发生。要彻底解决这些问题,我们需要理解深度神经网络等 AI 算法是如何学习和工作的,但直到今天,我们仍对此知之甚少。因此,我们可能需要换一个思路。对此,RealAI 给出的解决方案是:模型安全检测 + 防御。也就是说,我们可以先通过多种攻击方法对模型的安全风险类别和高低进行检测,然后提供多种方案提升模型的安全性。这就是他们今年年初推出的世界首款企业级 AI 安全平台——RealSafe。在安全检测阶段,RealSafe 会利用多种攻击算法生成不同迭代次数、扰动大小的对抗样本进行模拟攻击,尝试使其出错,然后统计其出错的概率和分布,输出检测报告。该平台相当于一款「杀毒软件」,整个检测过程全界面化操作,用户无需具备专业的模型安全算法知识和编程开发经验。在防御阶段,RealSafe 支持多种去除对抗噪声的通用防御方法,可实现对输入数据的自动去噪处理,破坏攻击者恶意添加的对抗噪声。同时,RealSafe 也支持检测输入数据是否含有对抗样本,这种防御方式在模型和输入数据之间构建了一道「防火墙」,将有攻击意图的数据挡在了模型之外。今年 4 月份,RealAI 发布了 RealSafe 1.0,可用于提高人脸识别模型的安全性,提高应对对抗样本攻击(如上文中印有特殊纹理图案的眼镜)的能力。几个月后的今天,RealSafe 实现了快速迭代,2.0 版本正式上线。与 RealSafe 1.0 相比,2.0 版本在支持防御的攻击类型、适用范围等方面进行了扩展。首先,在检测抗对抗样本攻击的安全性基础上,新版本增加了「模型后门攻击」自动化检测,可以针对模型每个类别搜索并还原后门触发器的最终结果,并依据还原结果的离散程度判别模型是否被植入后门。此外,测试报告还可以展示出模型被植入后门的类别以及对应的后门所在区域。「模型后门攻击」是一种新兴的针对机器学习模型的攻击方式,攻击者会在模型中埋藏后门,使得被感染的模型在一般情况下表现正常。但当后门触发器被激活时,模型的输出将变为攻击者预先设置的恶意目标。由于模型在后门未被触发之前表现正常,因此这种恶意的攻击行为很难被发现。虽然目前来看这种攻击方式在实际场景中还不太常见,但针对可能存在的攻击对算法进行加固仍然具有重要意义。这也表现了 RealAI 在产品布局上的前瞻性。其次,2.0 版的 RealSafe 将适用范围扩展到了目标检测、图像分类等底层 AI 模型。前者的典型应用场景包括安防场景中的人体检测、车辆、无人机检测,以及自动驾驶场景中的人体检测、车辆检测等。后者的典型应用场景包括社交网络与短视频应用的色情、暴恐、侵权元素的识别,手机相册的自动分类等。这些场景也是目前 AI 模型应用最广泛、安全需求最迫切的领域。在进行安全性检测后,RealSafe 平台还提供了多种功能帮助用户提升 AI 模型安全性。以对抗样本去噪为例,平台将自动针对已被测的模型,量化出多种通用对抗样本去噪方案对模型安全性的提升效果,便于用户选择最适合当前被测模型的防御解决方案。RealSafe 集成了多项国际领先的 AI 对抗攻防算法,荣获多项世界 AI 安全大赛冠军。与业界已有的一些人工智能对抗技术工具包相比,RealSafe 还具有支持基于生成模型的对抗样本攻防、支持黑盒检测、零代码易上手等优势。目前,RealSafe 已在工信部重大建设项目以及某电网公司落地应用。RealAI 表示,未来,RealSafe 还将提供应对模型窃取、数据逆向还原等新型 AI 安全风险的解决方案。为了打造基于第三代 AI 的基础设施,RealAI 应用了多项技术,包括:贝叶斯深度学习:将深度学习和贝叶斯方法的优势有机结合,将数据和预测结果中天然存在的不确定性纳入考虑,提升 AI 模型的泛化能力,从而实现可靠可解释的 AI;
可解释机器学习:保证在建模过程中,从关键特征和决策相关依据等不同维度给出解释,增进人们对 AI 结果的理解;
AI 安全对抗攻防:通过对抗的方式发现 AI 算法存在漏洞的机理,并通过对抗防御技术指导鲁棒 AI 算法和系统研发;
新一代知识图谱:将领域知识引入到 AI 建模中,实现知识与数据的共同驱动;
隐私保护机器学习:解决 AI 场景下的数据流通问题,实现在明文数据不出库的情况下,通过与密码学和分布式系统结合的方式,支持 AI 模型的训练和预测;同时保证 AI 对数据的用量和用途,控制权属和收益。
……
这些技术的运用极大地提高了 AI 技术在现实场景中的可用性。RealAI的AI基础设施产品已经用于解决金融风控场景中的数据有偏、资产配置效率低、基建场景中的数据缺失等问题。为了进一步从研究、平台、产业赋能三方面持续发力,加速安全、可信、可靠的产业智能化升级,RealAI 也与北京智源人工智能研究院联合成立安全人工智能创新中心,助力人工智能产业负责任发展。AI 基础设施的建设是一项长期任务,田天表示,RealAI 将「坚持长期主义,推动 AI 更高质量的服务于人类社会。」