思源原创

怎样扩充大数据?你需要了解的第一个联邦学习开源框架FATE

随着机器学习模型应用到生活生产中,如何获得更多的数据训练更好的模型成为了关键,而有助于解决该问题的联邦学习也就受到越来越多的关注。在本文中,我们将一同了解联邦学习,概览第一个联邦学习开源框架 FATE。

近日,微众银行将联邦学习开源框架 FATE(Federated AI Technology Enabler)贡献给 Linux 基金会,并希望通过多方维护令该项目更加强大。同时,中国人工智能开源软件发展联盟(AIOSS)发布了我国第一个关于联邦学习规范标准,这些都表明联邦学习从理论到实践都在快速提升。

FATE 开源地址:https://github.com/WeBankFinTech/FATE

为了解第一个联邦学习开源框架 FATE,机器之心采访了微众银行 AI 部门的副总经理陈天健,他介绍了联邦学习的开源现状以及技术过程。与此同时,7 月 19 日市北•GMIS 2019 大会上,微众银行首席人工智能杨强教授也将针对联邦学习这一主题发表主旨演讲,为我们介绍更多关于联邦学习的内容。

为什么联邦学习如此重要

早在 2018 年,杨强教授就向机器之心介绍过联邦迁移学习,他表示面对欧盟的「数据隐私保护条例(GDPR)」,我们应该思考如何把 GDPR 囊括在机器学习框架之内,而不是绕着它走。联邦学习就是一种很好的方法,它希望在不共享数据的前提下,利用双方的数据实现模型优化。

假设两家公司想要建立一个用户画像模型,其中部分用户是重合的。联邦学习的做法是,首先通过加密交换的手段,建立用户的识别符(identifier)并进行沟通,在加密状态下用减法找出共有的部分用户。因为关键用户信息并没有得到交换,交换的只是共有的识别符,因此这并不违反数据隐私保护条例。

然后,双方将这部分数据提取出来,将各自拥有的同样用户的不同特征作为输入,迭代地训练模型、交换参数的过程。杨强教授等研究者证明了给定模型参数,双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护。在不违反 GDPR 的情况下,双方的模型性能都得到了提高。

在数据越来越隐私与重要的今天,联邦学习越发引人注目。机器学习学者除了关心算法的准确率、效率之外,也该将思考的维度上升到管理与合规的角度。

为什么我们需要联邦学习框架与标准

从前面可以了解,联邦学习会有它的特殊性,即它主要用于多方协同训练模型,这样联邦学习就更关注开源社区。微众银行 AI 部门副总经理陈天健表示,既然是多方协作的框架,那么我们就必须说明它的安全性与保密性,并且各方都能快速对其进行验证,这是闭源软件办不到的。

既然联邦学习框架需要开源,那么就会有维护主体,以前联邦学习项目都是微众银行维护的,微众会将业务上使用的一些联邦学习技术开源出来。但是如果想要构建更完美的生态,单一主体是很难支撑的,因为联邦学习本身就是面向合作的机器学习技术。因此,陈天健说:「微众银行将 FATE 托管给 Linux 基金会,它将成为一个基金会项目,因此也就变成了由项目技术委员会、企业及组织联合开发的状态,以此保证联邦学习框架的稳定性与延续性。」

对于开发者而言,以后 FATE 项目将变得越来越好用、越来越稳定。但是随着联邦学习更加普及,目前的开源框架肯定是有局限的,这就要求开发者根据具体业务需求修改 FATE 或者重新写框架。这也就是微众银行携手 AIOSS 推出联邦学习标准的原因,它规范了我们对联邦学习的理解与接口标准。

如果有一个完善的标准,那么不同的开发者并不一定只能使用 FATE 作为联邦学习系统的实现,我们可以在遵循工业标准下构建自己的实现。这样的系统会有比较强的兼容性,可以与其它使用 FATE 的项目或遵循相同标准的系统互联互通。陈天健说:「整个生态一定是开放的,并不是所有人都必须使用 FATE 作为联邦学习系统,我们的核心目标还是希望大家能互联互通地进行大数据和 AI 方面的合作。」

联邦学习到底怎样工作的

那么联邦学习的简要过程到底是什么样的?在整个联邦学习过程中,加密训练是最为核心的部分,各个数据方需要基于本地数据和其它方的训练信息完成模型的训练。

如果参与联邦学习的各方数据结构和特征空间相同,加密训练也有比较简单和直观的方法,例如谷歌有尝试以梯度加密聚合为基础的联邦学习,他们会如同分布式训练一样计算局部梯度,然后将加密的局部梯度传入参数服务器,参数服务器再统筹加密的局部梯度,并将解密的全局梯度传入各个数据方,从而达到更新模型的效果。

但这种直观方法也有很难处理的缺陷,它要求各数据方的数据结构都是一样的,很难满足大数据合作领域的需求。陈天健介绍了一种针对更常见的异构特征空间场景的加密训练方法。如下所示,A 和 B 都有各自的数据,它们希望在不交换数据的情况下训练更优秀的模型。

总体上,该加密训练过程从分发公钥到更新模型可以分为四步。我们先假设训练的模型都是简单的线性回归,即 u = Θx,其中Θ为权重矩阵、x 为特征向量、u 为预测结果向量。

如下所示以 A 为例,它会根据自己的数据计算预测值 u_A,但这个时候 u_A 只使用了一半的特征,它并不能作为模型的预测结果,它还要加上 B 的计算结果 u_B 才是最终结果。因此现在 A 会把中间结果 u_A 加密,并传递给 B。这就是第二步传递的中间结果,[[u_A]] 表示 u_A 的加密输出。

现在 A 和 B 都有完整的预测结果 [[u_A]] +[[ u_B]],虽然结果是经过加密的。有了预测结果就能计算损失函数,但这里会计算一个额外的残差项 [[d]] = [[u_A]] + [[u_B - y]],它相当于梯度计算中的系数。例如常规线性回归损失函数为 L = (Θx - y)^2,那么 dL/dΘ = 2 * (Θx - y) * x,这里经过加密的残差项 [[d]] 就相当于 x 前面的系数。

如下所示,借助相互反馈的残差项,A 和 B 能快速算出局部加密梯度,例如 A 的加密梯度为 [[∂L/∂Θ_A]] = [[d]] * x_A。现在加密的局部梯度就可以传递到协作者 C 了。

最后,协作者 C 会将解密后的梯度传回各个数据方,数据方也就能使用对应的梯度更新自己那一部分模型。值得注意的是,因为各个数据方都只有部分特征与权重,相当于只有部分模型。所以这里需要一个 Mask 以告诉各模型到底都需要更新哪些东西。

在训练的最后,A 和 B 都不知道对方的数据结构,并且只能获得自己那一部分特征需要的参数。所以 A 和 B 之间并没有直接传递数据相关的信息,它们间的通信也是非常安全的。在这样的联邦学习下,我们的特征变多了,当然我们的模型效果就更优了。

第一个联邦学习开源框架 FATE

那么我们该怎样完成加密训练呢,难不成还需要从头开始写?这就需要 FATE 来帮忙了。

FATE 是微众银行最先维护的一个项目,它提供了一个安全的计算框架以支持联邦学习算法。它实现了基于同态加密和多方计算的安全计算协议,并支持联邦学习架构与各种机器学习算法的安全计算,包括逻辑回归和梯度提升树等经典 ML 算法,也包括深度学习迁移学习等前沿研究。

陈天健说:「FATE 最主要的特征和优势在于,它源自微众银行进行大数据风控建模的实际场景,因此 FATE 是一个生产系统,它的可扩展性非常优秀。FATE 自带一个分布式计算框架,它的稳定性肯定比一般的研究型项目好很多,而且预测和训练也都集成在了一起。」

FATE 并不只有一个框架,它还带了一些经典算法,包括线性回归、提升树和其它分类模型等。这些都得到了大量实践证明,是工业上很常见的方法,所以如果开发者不愿意从头构建,那么就可以直接使用这些方法,或者在这些方法上做修改。

FATE 项目中提升树算法的教程页面,它不仅展示了怎样运行单机版,还介绍了如何运行计算集群版。

陈天健表示,在加入 Linux 基金会后,技术委员会也在对项目进行进一步的规划与拆分。他们会把用于特定运算框架和特定集群的支持分离出来,并把它们变得通用,从而支持常用的计算框架与大数据基础设施。此外,在技术更新上,FATE 也规划对分布式异构计算进行加速,对于 GPU 和 FPGA 的支持也都在日程中。

最后,FATE 还在不停地提升中。陈天健说:「联邦学习的应用主要受限于网络带宽与芯片的计算力,我们现在主要还是在数据中心做联邦学习,这两者都能比较好地满足。如果未来需要在手机等边缘设备上做联邦学习,那么更大带宽的通讯技术和更强劲的边缘算力必不可少。我非常看好 5G 通讯技术,它能为联邦学习带来足够的带宽,同时随着手机芯片越来越强,联邦学习落地到广大移动端设备并不会太远。」

首届「市北•GMIS 2019 全球数据智能峰会」将于 7 月 19 日- 20 日在上海市静安区举行,杨强教授特将在峰会上分享更多有关联邦学习的精彩内容。点击「阅读原文」立即报名,在现场与顶级大牛近距离接触交流。

本次会议的联合主办方上海市市北高新技术服务业园区是上海市唯一的大数据产业基地,已经集聚了全上海 30% 的大数据企业,正全力打造上海大数据和人工智能产业的「内核腹地」,朝着「中国大数据产业之都、中国创新型产业社区」目标迈进。

入门数据科学大数据技术其他智能领域联邦学习微众银行
1
相关数据
杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任,大数据研究所所长 。他是人工智能研究的国际专家和领军人物,在学术界和工业界做出了杰出的服务和贡献,尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

梯度提升技术

梯度提升是用于回归和分类问题的机器学习技术,其以弱预测模型(通常为决策树)的集合的形式产生预测模型。 它像其他增强方法一样以阶段式方式构建模型,并且通过允许优化任意可微损失函数来推广它们。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~