索信达AI创新中心 邵俊博士作者

破解数据安全和信任难题!索信达控股正式推出自研区块链+联邦学习平台方案

索信达AI创新中心是索信达控股(3680.HK)旗下专注人工智能区块链技术在金融行业应用的研究部门。部门目前拥有北京、深圳与广州三个研发中心,共计数十人的科学家团队;其中博士学历占比超过30%。索信达控股作为金融行业大数据及人工智能解决方案领导厂商,通过不断加码对AI创新中心的研发及人才投入,为金融行业提供人工智能大数据技术迭代的新思路。近日,索信达AI创新中心推出用于金融领域的“去中心化”联邦学习解决方案,助力金融客户实现更高效、更安全和更精准的模型训练。

联邦学习致力于解决多用户在不公开各自数据集的情形下,协同完成模型训练的问题。例如在银行风控场景中,各家银行拥有不同的客户样本数据。由于各家拥有的数据量有限,如果仅仅基于自身的数据来训练模型,受样本规模的限制,模型效果难以达到预期。如果能将各家数据聚合来训练,则可以大幅提升模型精度。然而出于机构间的竞争以及对数据隐私的监管要求,银行不可能将自身的客户数据向任何第三方发布,直接将各家数据聚合到一起建模是行不通的。因此,联邦学习技术应运而生,给金融机构在不泄露自身原始数据的情形下,共同训练机器学习模型提供了可能。

根据交易方拥有的数据,联邦学习一般可分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习指的是参与方拥有的用户数据具有近乎相同的特征,而几乎完全不同的样本;纵向联邦学习指的是参与方拥有几乎相同的用户群体,而拥有近乎完全不同的特征;联邦迁移学习指的是用户群体和用户特征都近乎完全不同的场景。下图展示了横向联邦学习数据融合场景。

图1 横向联邦学习的样本与特征划分图以银行欺诈客户识别问题结合横向联邦学习的场景为例,模型需要通过构建逻辑回归模型来识别银行用户是否为欺诈用户。模型训练的最终目的是需要找到合适的参数,使得总损失函数最小。通常会使用梯度下降方法来更新模型参数,即在给定了模型初始参数后,通过梯度信息一步步更新参数,直到损失函数的值达到最小。通过联邦学习,参与方之间不需要共享原始数据,而只需要基于自身数据建模,并将梯度信息传送出去,通过各家梯度信息更新参数即可完成模型训练。传统的联邦学习方案中会有一个协调方来负责收集各个参与方的梯度并进行汇总,再将汇总后的结果分发给各个节点。但是这样的方案有以下几个弊端:

1.中心依赖

成员间的协作非常依赖这个协调方(中心节点),一旦中心节点出现故障,或者中心节点出现恶意行为,将对整体的协同训练造成阻碍;

2.激励不足

数据体量小的机构往往对参与联邦学习有非常浓厚的兴趣,而那些本身数据体量大的机构则往往没有足够的动力投入到联邦学习中,因为参与联邦学习对于前者有较大的收益,而对后者而言收益甚微。出于投入产出比以及行业竞争考虑,大机构往往没有意愿加入到协同训练,导致联邦学习的生态无法良好的建立起来;

3.单点欺诈

基于2中的考虑,联邦生态会允许各参与方申报数据量、数据成本和数据收益等信息,根据各方对模型的使用情况收取相对应的费用,并依据各方对生态的贡献将收益进行分配,以激励大机构参与到联邦学习中。然而,对任何参与方以上信息的真伪都无法公开验证,参与方之间存在着信息不对称。在没有合理机制设计的情形下,各方都存在虚报自身数据信息的动机,通过报高数据体量、报高数据使用成本、报低数据收益等方式来使得自身利益最大化,而损害其他参与方的利益,导致合作失败;

4.隐私泄露

虽然各个参与方仅仅交换梯度信息,不会将自身的原始数据对外暴露,然而仅仅依据公开的梯度更新过程,仍然存在被反推出原始数据的风险。

下面我们来看看如何使用区块链技术巧妙解决联邦学习中遇到的以上痛点。

在这之前,我们先回顾一下什么是区块链技术。

在当前社会,人们如果要完成一笔转账支付,是需要通过一个第三方机构-银行才可以实现的。银行依托国家信用作为背书,管理我们的账本,记录我们的交易,在交易时对双方的身份进行确认,并根据交易信息对双方账号的余额进行修改,完成交易结算。

2008年一位化名中本聪的神秘人发布了《比特币白皮书-一种点对点的电子现金系统》,在白皮书中,设计了一种不需要任何第三方便能够进行交易的数字货币系统,而这个系统中的货币就是大家耳熟能详的比特币

图2 依赖第三方进行支付和不依赖第三方进行支付路径对比

2009年初,比特币主网上线。起初比特币无人问津,仅仅在一些极客的圈子里被小范围使用。然而随着比特币逐渐用于某些秘密和公开交易,便开始慢慢走进人们的视野,燃起了大家对它的热情。越来越多的机构和个人参与到比特币挖矿中,比特币挖矿也渐渐形成了一个产业。

比特币的底层技术和设计机理,就是区块链区块链是一种融合了密码学、博弈论以及点对点通信等前沿技术的一个分布式账本。拥有账本副本的各个节点在没有中心节点的情况下,通过预先设置的共识机制实现点对点的交易。该共识机制的巧妙设置使得所有节点在保持自身“正直”的情形下能够获得最大的利益,从而没有动力去作恶,损害区块链生态。图3 通过哈希指针链接的区块链示意图随着比特币价格节节走高,区块链成为越来越多开发人员的研究对象。由于比特币系统缺乏图灵完备性,其交易脚本只能够支持有限的运算,除了支付场景以外并不能够支持其他应用,年仅19岁的程序员Vitalik创建了被誉为第二代区块链应用平台的以太坊以太坊的最大特性在于其支持智能合约,这是一种可以不经过任何第三方而约定权利义务,并可以保证在触发某些预先设定的条件下合约会被程序自动执行。于是人们可以通过在以太坊上创建智能合约,约定权利义务,以完成更加复杂的协作。

以太坊之后,各式各样的区块链的变种开始出现了。这些变化基本围绕着共识机制、交易速率、可扩展性、鲁棒性和隐私保护等核心性能的改良,并试图支撑越来越多的应用场景。

提取区块链的几个核心特征作为这部分的总结,这些特征将为我们解决联邦学习的困境提供支持。

1.节点之间通过点对点通信,没有第三方参与

2.每个参与方保留一份账本的副本,以对交易合法性进行验证

3.运用非对称加密算法,进行链上身份的识别。通过公钥进行数据加密,通过私钥对交易进行签名

4.通过哈希指针实现区块链的可追溯

5.通过比特币奖励鼓励矿工参与挖矿

6.通过工作量证明进行区块的确认

7.通过最长链机制保证区块链的安全

8.以太坊之后的区块链通过智能合约建立去中心化的信任系统

回到我们联邦学习的问题中来,我们先看看上面提到的第一个中心依赖的问题。

通过建立联盟链,使得每个参与方成为联盟链上的节点。节点们在该点对点网络下进行通信,摆脱了对中心节点的依赖。

第二个是激励不足的问题。

区块链的共识机制依赖于激励机制的良好设计。激励机制会奖励对生态良性运转做出贡献的节点,而试图不按照共识机制活动的节点,则会遭受生态的惩罚。通过区块链共识机制的设计,联邦学习的参与方能够依据其对联邦生态的贡献获得相应的回报,从而实现生态的良性运转。

第三个问题,单点欺诈。

我们设计了一种合理的多方博弈机制,使得各参与方只有在如实报告自身数据信息的情况下,才能够获得最大收益。通过将这些依据用户的行为而制定的奖惩措施提前写入智能合约中,使得区块链可以通过透明公正的规则对用户行为进行审计。此外,除了预先设定规则的审计,任何节点也可以对其他节点的行为进行监督,并对发现的恶意行为节点发起投票。由于区块链的不可篡改特性,所有中间数据上链,参与方的一切恶意行为可以被事后追索。

联盟链一般会使用如PBFT(实用拜占庭容错机制)等这样的共识机制来保证链不受少量恶意节点操控。在PBFT的情形下,只要坏节点小于总节点数的1/3,则区块链的正常运行将不会受到影响,同样任何投票,在获得超过2/3的票数则可以获得通过,实现生态的联邦自治。

第四个问题,隐私保护。

我们使用了安全多方计算和同态加密技术来保证每个节点在不获取其他任何节点梯度明文信息的情形下,完成协同计算。节点可以将梯度加密后发送到区块链上,而同态加密技术保证加密后的密文运算能够与明文运算的结果相对应。然而在这个场景中同态加密技术难以直接使用,因为系统中没有管理私钥的第三方机构。如果让每个节点都使用相同的支持同态加密运算的密钥,则起不到保护隐私的作用。索信达通过自主研发设计的算法,克服了在没有中心节点的情况下密钥分发和管理的难题,实现了同态加密技术在梯度运算中的运用和隐私保护。

索信达AI创新中心首席科学家张磊博士和邵俊博士带领的科学家团队,在金融AI领域有丰富的研究能力和实战经验。创新中心基于自主知识产权倾力打造的一套应用于金融领域的“去中心化”联邦学习解决方案,结合了区块链这一解决数据隐私保护和成员激励问题的“大杀器”,必将助力金融客户实现更高效、更安全和更精准的模型训练,实现共赢。

产业索信达AI创新中心区块链联邦学习
11
相关数据
张磊人物

计算机视觉和图像分析讲座教授 IEEE研究员 计算机系 香港理工大学

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

比特币技术

比特币是一种用去中心化、全球通用、不需第三方机构或个人,基于区块链作为支付技术的电子加密货币。比特币由中本聪于2009年1月3日,基于无国界的对等网络,用共识主动性开源软件发明创立。比特币也是目前知名度与市场总值最高的加密货币。 任何人皆可参与比特币活动,可以通过称为挖矿的电脑运算来发行。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

以太坊技术

以太坊(英文Ethereum)是一个开源的有智能合约功能的公共区块链平台,通过其专用加密货币以太币(Ether)提供去中心化的虚拟机(“以太虚拟机” Ethereum Virtual Machine)来处理点对点合约。 以太坊的概念首次在2013至2014年间由程序员Vitalik Buterin受比特币启发后提出,大意为“下一代加密货币与去中心化应用平台”,在2014年通过ICO众筹开始得以发展。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
中国需要更多这样的企业,同时也要不断完善和解决安全性的技术难题。