京东数科推出自研联邦学习平台Fedlearn,助力数据安全保护并大幅提升学习效率

伴随产业数字化发展及城市数字化建设,跨机构跨行业的合作越来越频繁、政府和企业面临的场景越来越复杂、数据挖掘的广度和深度也日益增长,因此机构间数据共享和数据融合的需求也越来越强烈。同时,互联网数据分散在不同企业或终端而形成“数据孤岛”现象也亟需破解,基于此背景,联邦学习应运而生。联邦学习定义了机器学习框架,在此框架下,通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题,可以做到在不泄露隐私数据的情况下实现企业间的数据融合建模。

近日,京东数字科技集团(简称:京东数科)正式推出自主研发的联邦学习平台——Fedlearn,旨在更好地挖掘数据价值,实现多方共赢的机器学习,在满足数据隐私安全和监管要求的前提下,让人工智能系统更加高效准确地共同使用各自数据的机器学习框架。

“最强大脑”打造的Fedlearn平台

联邦学习在产业应用方面此前曾面临一系列挑战——由于需要传递梯度信息,容易导致基于梯度信息的构造攻击;需要对梯度加密,虽然增加了安全性,但是也极大损失了算法的效率;传统联邦学习基于同步更新,浪费了大量的计算资源。如何设计既能保证安全性又具有高效率的联邦学习算法以满足产业AI应用需求,是业界面临的突出难题。

为解决这一问题,京东数科正式推出了自研的Fedlearn平台,该平台具有三大特点。第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。同时,为了避免从这些中间数值中恢复数据信息,采用增加扰动对这些数值进行保护,确保了数据和模型的隐私安全。其次,在通讯方面,引入中心化数据交换的概念,使得数据的交换独立于参与方。最后,采用异步计算框架,极大地提高了模型训练的速度。

融合了密码学、机器学习区块链联邦学习算法的Fedlearn平台,搭建出一套安全、智能、高效的链接平台,在各机构数据不用向外传输的前提下,通过联合多方机构数据,实现共同构建模型等多方数据联合使用场景,获得加成效应。相较于传统的数据共享交换方法,Fedlearn平台创新性地提出了并行加密算法、异步计算框架、创新联邦学习等技术架构,在保证数据安全的前提下提升学习效率,并逐步达到融合亿级规模数据的能力。

京东数科开发Fedlearn平台的过程中,也实现了多项业界首创技术,譬如近期实现的“基于核的非线性联邦学习算法”。在安全性上,这一方法不传输原始样本及梯度信息,充分保护数据隐私;在快速性方面,这一方法使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。这一技术创新已经形成了论文《解决多方垂直联邦学习的安全核学习算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),并被顶级学术会议KDD 2020接受。

Fedlearn平台以多自研联邦学习算法、多方同态加密、轻量级分布式架构、区块链联邦学习融合、数据安全容器、一站式操作平台“六位一体”核心能力,长效保持自身行业竞争力,其背后的项目团队成员更是90%以上都拥有算法、密码学或机器学习方向的博士、硕士学历,用京东数科AI实验室首席科学家薄列峰的话说,就是“我们在用‘最强大脑’驾驭和梳理联邦学习”。 

联邦学习领域的“增长官”

联邦学习并不会损害模型效果,反而能够提高业务模型效果”,京东数科风险管理中心智能模型部负责人彭南博表示,“在京东数科风控‘联邦模盒’产品业务实践中,着实取得较于传统联合建模更优的效果”。究其原因,一方面,联邦学习理论上是能够获得最优解的,即通过梯度下降迭代过程,可以实现联邦间的特征组合和交叉建模,从而解决如“异或”这样的非线性问题;另一方面,由于能够保护数据隐私安全,因此无需限制建模样本的数量,使联邦学习可以使用更多数据建模,基于大数据更有效发现数据规律,进而提升模型效果。

另外在风控建模合作中,业务方通常还会要求模型具备较高的可解释性,也就是说,模型自己能够解释预测的结果、为什么会做出这样的预测。例如,在信贷风控中,根据多头借贷风险常识,借贷申请数量越多风险越大,若在模型中表现相反,有极大可能性是数据问题导致模型发生错误,此时部署上线将造成金融业务的坏账损失。然而联邦学习的主张是保护用户隐私,使得传统联邦模型很难进行细节解释,当前风控最常用的联邦XGB算法,因其分裂方向暗含了特征取值区间,需要隐藏特征含义才能保护数据,所以联邦模型的不可解释性成为联邦学习面向风控应用的又一大难题,目前市场上的联邦学习产品训练出的模型往往不可解释。

在风险管理创新性应用领域上,京东数科提出行业内首个实现联邦树模型可解释性方法,并融入到“联邦模盒”产品中,该产品已包含了多种原创的路径加密算法,实现即使公开特征含义也不会泄露用户隐私,该算法在准确性、复杂度方面与原方案保持一致,同时具有更好的可解释性。

目前京东数科金条、白条业务模型已经全面实现了传统建模向联邦建模的升级,联邦模式下模型的风险识别能力和流量转化率均得到了提升。除了在风控方面的应用,AI+智能城市领域,京东数科自研的联邦学习平台——Fedlearn平台也有广泛应用。如“智能城市操作系统”作为政府数字化服务的“底座”,其包含时空数据引擎、时空智能引擎、基于联邦学习的数字网关技术以及京东城市莫奈可视化平台等诸多前沿科技。像时空数据引擎归类城市中的万千数据,解决数据标准化的问题,处理速度比传统数据平台快10—100倍;时空智能引擎将算法进行模块化、积木式输出,解决不同场景下智能应用的开发问题,极大降低开发成本;再如基于联邦学习的数字网关技术,通过用户隐私保护的联合建模机制和多源数据融合算法,有效助力解决平台隐私保护问题。

除此之外,京东数科依托在金融服务、数字营销等领域积累的丰富实践经验,形成了多场景的解决方案,通过联邦学习可以实现多场景的解决方案升级,结合各个客户的自身情况,提供定制化程度更高的服务。目前,已实现多个不同类型的合作项目落地。

从底层代码到算法再到平台搭建,京东数科始终坚持自主研究创新,一路稳扎稳打。“我们希望依托数科强大的AI技术背景,通过Fedlearn平台的科技能力输出助力用户和产业实现‘联结’,为各种规模企业实现赋能和增长,这也是我们作为联邦学习应用落地领军者的使命”,薄列峰表示。

产业数据安全Fedlearn联邦学习京东数科
相关数据
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

京东数科机构

京东数字科技集团是一家为数字化服务而生的科技公司, 前身为京东金融, 创立于京东集团内部,2013年10月开始独立运营,2018年11月实现品牌升级。 京东数字科技集团以数据技术、人工智能、物联网、区块链等时代前沿技术为基础,建立并发展起核心的数字化风险管理能力、用户运营能力、产业理解能力和B2B2C模式的企业服务能力。公司经营的宗旨是从数据中来,到实体中去,通过数字科技来服务金融与实体产业,助力相关产业实现互联网化、数字化和智能化,通过降低成本、提高效率、提升用户体验和模式升级,最终实现新的增长,并在这个过程中创造公平与普惠的社会价值。 截至目前,公司完成了在智能城市、数字农牧、金融科技、资管科技、数字营销、数字乡村、智能机器人等领域的布局,服务客户纵贯个人端、企业端、政府端。截至2019年6月,公司已累计服务涵盖4 亿个人用户、800万线上线下小微企业、700多家各类金融机构、17, 000家创业创新公司、30余座城市的政府及其他公共服务机构。 2018年,公司完成B轮融资,估值超过 1, 300亿人民币。

https://www.jddglobal.com/?from=jrad_2264897&loc=2
数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
暂无评论
暂无评论~