Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

大模型时代,那些一起训练AI模型的企业是怎么应对数据顾虑的?

为训练数据建一个TB级计算「飞地」,联邦学习的靠谱实现方式了解一下?

2017 年,著名杂志《经济学人》发表封面文章称,数据已经取代石油成为当今世界最有价值的资源。在那之后,「数据是新时代的『石油』」这一说法逐渐深入人心。

图源:https://twitter.com/theeconomist/status/860135249552003073

五年后的今天,人们对数据的重视又上了一个新的台阶,尤其是在 AI 领域。大家普遍认为,数据的质量和规模将对 AI 的研究和落地产生重要影响。

在质量方面,吴恩达等学者提出,AI 领域正经历从「以模型为中心」到「以数据为中心」的转变。他认为,「对于很多行业来说,现在更有效率的做法是保持神经网络体系架构不变,转而寻找改进数据的方法」。为了帮助机构提升数据质量,吴恩达所在的 Landing.AI 等公司正在构建一些实用的工具。

在规模方面,AI 大厂掀起的大模型暴力美学依然占据主流,人们依然希望借助大数据、大算力探索深度学习的天花板。不过,与大模型需要的海量数据相比,单个机构所能处理的数据往往是不充分的:一是数据量不够大,二是数据的维度和来源不够丰富。为了解决这些问题,越来越多的机构开始走向多方联合的道路,希望借助多方的合力训练出更精准的 AI 模型,让数据在流通中发挥应有的价值

不过,受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束,多个数据来源方无法直接交换数据,这就形成了「数据孤岛」现象,制约着 AI 模型能力的进一步提高。受此需求驱动,联邦学习应运而生。

联邦学习的核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于多方数据下的全局模型,从而实现「数据可用不可见」、「数据不动模型动」。

和 2016 年谷歌刚刚提出这一概念时不同,联邦学习如今已经有了很多具体的实现路径,既有基于软件的,也有基于硬件的。其中,基于硬件的路径——主要是 TEE(Trusted Execution Environment,可信执行环境)——由于可支持多层次、高复杂度的算法逻辑实现以及运算效率高等优势而受到广大企业的青睐,落地速度也在不断加快,尤其在医疗、金融等数据安全要求较高的行业。

基于 TEE 的医疗科研多方安全计算平台

首先来说医疗行业。AI + 医疗是一个发展较早的细分领域,但直到今天,Geoffrey Hinton 2016 年的预言——AI 将取代放射科医生——依然没有实现。在种种阻碍因素中,医疗领域的数据聚合是一个绕不开的难题,包括患者生命体征信息、疾病信息、影像检验报告、互联网诊疗记录、药品使用等各种不能离开医院的基础数据。

近几年,采用 TEE 方案的联邦学习方法在各医疗科研机构的实践中收获了良好的效果,它可以为「使用中」(即处于计算或处理中)的数据提供保护,与其他针对静态数据和传输中的数据的保护方法一起,为数据流动与共享「护航」

三种状态下的数据保护

为了保护这些使用中的数据,TEE 会在硬件中为它们单独分配一块隔离的内存区域,所有相关数据的计算均在这块区域中进行,并且除了经过授权的接口外,硬件中的其他部分均不能访问这块隔离的内存中的信息,以此来实现隐私计算。

与一般的分布式机器学习深度学习方案相比,联邦学习方法可以为医疗科研增添以下优势:

  • 医疗数据不脱离本地,各参与方可接入各自数据训练全局模型;
  • 每个医疗科研参与方都可参与训练过程,模型损失可控; 
  • 训练过程能更好地兼顾隐私和安全需求,各参与方能在不暴露数据及加密形态的前提下进行联合建模。

如果这种联邦学习方法或方案能再加上一个前缀——「基于 TEE」,那么它还会收获更多强化功能,例如它可以通过硬件环境上的隔离,使安全保护机制独立于软件应用、操作系统或硬件配置之外,使其保护的对象可以更好地应对来自硬件驱动程序、虚拟机乃至操作系统的攻击。再如,它的用途,不仅仅是可以提供数据运行态全链路的保护,来确保数据中的机密、隐私和完整性得到更强的防护,它还能对指定的应用程序或算法的代码进行同样可靠的防护;又如,它还拥有更完备的远程鉴权能力,能让相关数据和密钥的传递更为可靠;最后,相比那些非硬件加速支持的联邦学习及多方隐私计算方案,有 TEE 加持的方案,往往在兼顾安全防护能力和提升数据处理性能上有更好的表现。

正是这些优势,给了众多医疗科研机构选择基于 TEE 构建自己的联邦学习系统的理由。

以多年来一直深耕医疗 AI 与大数据技术创新的医渡云为例,这家公司基于联邦学习等隐私计算方法打造了一个多方安全计算解决方案, 自下而上包含面向院内外业务系统的数据采集系统、进行数据加工治理的专病库以及开展多方隐私计算的安全计算平台等几个部分,其中的多方安全计算平台也支持 TEE 方式进行构建。

医渡云多方安全计算解决方案整体架构

而且,他们采用的是实现 TEE 的一种主流技术——英特尔® 软件防护扩展(Intel® Software Guard Extensions,英特尔® SGX)

英特尔® SGX技术实际作用示意图

在工作时,SGX 技术会给相关数据分配一块隔离区域,也叫「飞地(Enclave)」。我们可以把它理解成一个隔离医院,但能入驻这个医院的并不是已经被感染的患者,而是那些健康群体,即需要受到严密保护的应用代码或关键数据。SGX 技术能在 CPU 的支持下,在内存等特定硬件环境中构建出这样一个飞地,让各医疗科研机构的数据分析、模型训练及推理所涉及的数据都运行在各自的飞地中,并通过访问控制为这些应用代码和数据提供更可信赖的安全保障。

这种飞地独立于操作系统、虚拟机以及 BIOS 系统之外,也就是说,即便一些比你的应用程序更底层的基础软件或系统在恶意攻击中沦陷,飞地也可以通过基于硬件的、增强型的安全防护更有效地阻断这些攻击,尽力避免其中的数据或代码被窃取或篡改。

那么,这个「飞地」有多大呢?这和你要使用的英特尔处理器的种类及型号有关。医渡云解决方案使用的是英特尔去年发布的面向单路和双路服务器的第三代至强® 可扩展处理器,它已经全面内置 SGX 技术,可在双路服务器上实现最大容量为 1TB 的保留加密内存区域(Enclave Page Cache,EPC,单颗处理器最高支持 512GB),这对于医疗科研机构进一步扩展 AI 模型训练与推理的数据规模至关重要。

不过,如果你以为医渡云的方案仅仅是要借 SGX 技术来实现更大、更强的安全「飞地」的话,那就是小看了全新至强® 可扩展处理器在 AI 实践中的价值了——它除内置有 SGX 技术外,还有来自英特尔® 高级矢量扩展 512(英特尔® AVX-512)技术和英特尔® 深度学习加速(英特尔® DL Boost)技术的加成,也可在兼顾更优安全能力的同时,为医渡云方案涉及的复杂计算需求提供有力支撑。

因此这款处理器在医渡云的多方安全计算解决方案中同时发挥着加固安全与提升性能的双重价值。正是得益于它带来的综合优势,医渡云已经开始支持多家医院和医疗科研机构开发一系列基于该方案的联合研究项目,同时也通过了中国信息通信研究院在隐私保护计算技术上的两项认证——《基于多方安全计算的数据流通产品技术要求与测试方法》及《基于联邦学习的数据流通产品技术要求与测试方法》。


基于 TEE 的多源金融大数据隐私计算技术验证

另一个非常青睐 TEE 解决方案的是金融行业。与其他技术方案相比,以硬件为载体来为数据和代码提供安全可信环境的 TEE,在金融行业最关注的数据安全、性能以及可用性三个维度上,能取得接近「帕累托最优」的效果,因此受到较多企业的青睐。

联邦学习中不同安全隐私技术综合评估

在这个行业,企业通常需要将已有的大量 AI 应用以联邦学习模式高效、便捷地扩展到现有的分布式大数据平台上(如 Spark、Flink、Hadoop 集群)。在此过程中,他们可能会遇到一些挑战,比如如何在开展联邦学习时依然保持 AI 训练与推理的高效能?如何在应用 TEE 技术特性时做到数据的全栈可信?如何将二进制应用程序不做改动地运行在 TEE 环境中?

英特尔与中国银联电子商务与电子支付国家工程实验室组成的联合研究团队通过开源的统一大数据分析与 AI 平台——BigDL,验证了基于 TEE 的联邦学习与实时预测方案,有助于解决上述问题。

如图所示,基于英特尔® SGX 技术的 BigDL 提供了自下而上可信的安全技术、不同层面的软件框架以及用于连接大数据平台和联邦学习方法的端到端平台。

基于英特尔® SGX 技术的BigDL平台架构

我们重点来看一下安全技术层面。在这一层面,该平台通过第三代英特尔® 至强® 可扩展处理器集成的英特尔® SGX 技术,提供了所需的 TEE 环境;同时,还通过加入 Gramine-SGX 这样的开源 LibOS 组件,来加速既有 Al 模型或应用程序在 SGX 技术上的无缝迁移。Gramine-SGX 允许用户在不修改相应模块代码的情况下,通过系统调用的方式直接在 SGX 环境中执行,大大降低了 SGX 技术的应用门槛。同时,这一组件的加入,也使英特尔开源的 OpenVINO™ 工具套件和 OneDNN 等重要 Al 软件工具能够在 SGX 环境中方便地运行。

一种典型的基于英特尔® SGX-BigDL 平台的预测方案架构如下图所示,用户数据可以导入基于 Gramine-SGX 的 SGX 环境中,由 BigDL 平台负责连通和调度预测推理所需的模型库、框架和工具,在完成预测推理后,再向用户输出相应结果,中间所涉及的数据和工作流程都可获得更有效的安全保障。

典型的基于英特尔® SGX-BigDL平台的预测方案

联合团队的验证结果表明,基于英特尔® SGX-BigDL 平台部署的实时计算与预测推理方案,能在更好地保障端到端数据安全的前提下,依旧保持预期的性能。

Gartner 曲线:联邦学习技术还在上升期

「为什么我们要投入联邦学习?」 中国人工智能开源软件发展联盟副理事长王健宗博士在前段时间英特尔联合国际学术期刊《Science》推出的「架构师成长计划」第二季系列课程中提出了这样一个问题。

为了解释这个问题,他向大家展示了去年的 Gartner 技术成熟度曲线。这份曲线图显示,联邦学习当前正处于高速发展期,未来将成为一项非常重要的计算技术。这也是 Gartner 首次将联邦学习纳入技术成熟度曲线。

Gartner技术成熟度曲线

在应用方面,除了我们前面提到的医疗和金融场景,王健宗还系统地总结了联邦学习在物联网、政务等领域的应用。从这里也可以看出,联邦学习技术的应用范围正在不断扩大,越来越多企业正放下顾虑,更放心地参与到共同的 AI 应用开发中来。这背后,以 TEE 为代表的安全计算实现方案功不可没。

联邦学习在行业场景中的应用

值得一提的是,王健宗早在几年前就曾带领他在平安科技的团队开始构建基于英特尔® SGX 的 TEE 联邦学习方案,也见证了这一技术地不断迭代。他对第三代至强® 可扩展处理器 1TB 的 EPC 容量以及英特尔® SGX 对云边协同的支持印象深刻。他认为,在现在大家都比较重视隐私保护、数据安全的环境下,英特尔® SGX 为我们提供了一个更安全的可信计算环境

对于联邦学习未来的发展,王健宗主要看好三个方向:自动化机器学习、零代码联邦和大规模互联互通。他解释说,联邦学习现在仍然是一个比较复杂的技术,有很多工程方面的工作。未来他希望能实现自动化机器学习,以及通过简单地拖拉拽,实现零代码的联邦学习,进而让联邦学习应用到更多对数据、代码安全性要求更高的领域。

参考链接:https://www.jiqizhixin.com/articles/2022-02-20-3

更多联邦学习的研究与应用实践,欢迎扫描二维码报名课程:

产业联邦学习英特尔
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

推荐文章
暂无评论
暂无评论~