姚权铭、郭夏玮、James T.Kwok、涂威威、陈雨强、戴文渊、杨强报道

IJCAI 2019 | 第四范式等机构提出隐私保护新算法,医疗敏感数据也能合理学

人工智能顶会 IJCAI 2019将于8月份在澳门举行,此前其就已经公布了接收论文列表。今年IJCAI接收了850篇论文,接受率只有17.9%。在被IJCAI 2019接收的这篇论文中,来自香港科技大学、第四范式的研究者提出了一种隐私学习算法。在严格遵守数据隐私保护条例下,该模型能在跨机构的数据上高效学习。

论文:Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction

论文地址:https://arxiv.org/pdf/1811.09491.pdf

该论文的作者之一,国际人工智能学会理事长、香港科技大学杨强教授将出席市北·GMIS 2019并做出主旨演讲,他将介绍更多关于联邦学习与数据隐私方面的前沿研究。

关注跨机构数据的隐私保护

随着越来越多的用户数据被收集,数据隐私(Data Privacy)问题获得越来越多的关注,特别是在近年来一系列相关事件发生后 Facebook 隐私泄露、GDPR 隐私保护法律等。

第四范式的研究者提出一种新的隐私学习的方法,该方法的思想是基于集成学习(ensemble learning)减轻噪声对于学习效果的影响,它的有效性同时在跨机构的糖尿病预测问题上得到了验证。如下第四范式的研究者将向大家介绍这篇 IJCAI 2019 论文。

典型应用场景

带隐私保护的机器应用场景很多,例如推荐系统人脸识别,在本文中我们着重关注跨机构的糖尿病预测问题。

糖尿病已经成为现代人类的最大潜在杀手,主要在于糖尿病等慢性病早期知晓率与控制率处于较低的水平。因此我们选择该场景切入,使系统从大医院中迁移出有用的知识(同时带隐私保护),去帮助小医院更好的做医疗诊断(例如糖尿病预测)。如 Figure 1 中所示。

已有隐私保护方法在以上应用中包含三个方面的问题

  • 隐私保护的机器学习方法,预测性能较差

  • 暂时没有迁移学习方法带隐私保护

  • 糖尿病预测的特征有不同的重要性,例如饭后一小时血糖的重要性高于身高

我们提出的方法能用在以上糖尿病预测的问题中,并且同时解决以上三个方向的局限性。

差分隐私 - 机器学习中的隐私保护

机器模型的训练涉及到大量用户数据的使用,这些数据都可能包含敏感信息。传统的做法是对数据的敏感列作匿名化 (anonymization)。但是这样并不能完全保护数据隐私,攻击者可以通过查表等方法反推原数据。对于隐私的保护,差分隐私 (Differential privacy) 定义 [Dwork et al., 2006] 被提出,其定义如下:

在上述定义中,t 可以是统计量、模型等。直观上来说,差分隐私的定义要求了输出结果的分布的变化受随着输入数据的变化的影响比较小,受 ϵ 控制。ϵ 越小,则输入变化对输出影响越小。从用户角度考虑,其数据作为样本是否加入训练对结果影响越小,隐私也越不可能泄露。

机器学习问题上,M 为学习算法,而输出 t 则是输出的模型,输入 D_1、D_2 则是用来训练的数据集。

目前已有差分隐私机器学习算法上的工作,往往是通过往训练过程内注入噪声来实现差分隐私。常见的有三种:目标函数扰动(objective perturbation)、输出扰动 (output perturbation)、梯度扰动 (gradient perturbation)。其中,logistic regression 有成熟的差分隐私算法,以及隐私保护和学习效果上的理论保障。

然而就目前的方法以及对应的理论来看,在保证固定的 ϵ 情况下,数据维度越大,需要注入的噪声强度越大,从而对算法效果造成严重负面影响。

我们的方法

我们的工作主要在于改善上述的问题。基于以往 stacking 集成学习方法 [Wolpert, 1992] 的成效,我们将 stacking 方法与差分隐私 logistic regression 相结合。Stacking 需要将数据按照样本分成数份。我们提出了基于样本和基于特征切分的两种 stacking 带隐私保护的 logistic regression 算法。

在该算法中,数据按样本被分成两份,其中一份按特征或按样本分割后在隐私保护的约束下训练 K 个子模型,并在第二份上通过差分隐私 logistic regression 进行融合。

我们证明了在保障 ϵ- 差分隐私的情况下,按特征切分相比过去的算法和按样本切分算法有更低的泛化误差。同时,按特征切分有另一个优势,如果知道特征重要性,我们的差分隐私算法可以将其编入算法中,从而使得重要的特征被扰动的更少,在保持整体的隐私保护不变的情况下,可以得到更好的效果。

此外,我们的方法可以直接拓展到迁移学习上。即在源数据集上按照特征切分后得到带隐私保护的模型,通过模型迁移,迁移到目标数据集上并通过 stacking 进行融合。在这种情况下,源数据可以在不暴露隐私的情况下输出模型帮助目标数据提升学习效果,而目标数据也可以在保护自身数据隐私的约束下训练模型。

Figure 2 我们的方法在迁移学习中的应用

实验效果

我们比较了几种已有的 logistic regression 差分隐私算法,以及迁移学习相关的差分隐私算法,我们的算法均获得了最好的效果。在下面实验中,PST-F(W) 和 PST-F(U) 分别代表我们的算法使用与未使用特征重要性,PST-S 代表了按样本切分 stacking 的隐私保护算法,PLR 则代表直接在数据集上使用差分隐私 Logistic regression 算法。

1. 标准数据集

我们首先在 MNIST 和 NEWS20 数据上作了对方法的各项研究实验。

图 1 和图 2 分别表示了在不同 ϵ 以及不同 K(切分数量)下,各算法的效果。可以看到 PST-F(W) 效果是要好于其他算法的,而不使用特征重要性的 PST-F(U) 也有不错的效果。另外切分数量对效果也有影响,有一个最佳切分值。

在上图中,C-0~4 表示 5 个切分部分的效果,而 C-mv 和 C-wmv 则代表 stacking 第二层直接求平均和用特征重要性加权求平均的效果,C-hl 则为我们方法。可以看到,C-hl 可以获得最好的效果。

2. 糖尿病预测数据集

之后,我们在一个实际的糖尿病预测医疗数据集上进行了实验。该数据是由分布在不同地区的采集中心采集而成。实验中将其中一部分作为源数据集,其他部分分别作为目标数据集。实验中我们 ϵ 设置为 1,其结果如下表:

其中 PPHTL 为直接带隐私保护的模型迁移算法。可以看到,在同样隐私要求,我们的方法依然有最好的效果。

首届「市北·GMIS 2019 全球数据智能峰会」将于7 月 19 日- 20 日在上海市静安区举行,杨强教授特将在峰会上分享更多有关联邦学习的精彩内容。点击「阅读原文」立即报名,在现场与顶级大牛近距离接触交流。

本次会议的联合主办方上海市市北高新技术服务业园区是上海市唯一的大数据产业基地,已经集聚了全上海 30% 的大数据企业,正全力打造上海大数据和人工智能产业的「内核腹地」,朝着「中国大数据产业之都、中国创新型产业社区」目标迈进。

理论隐私保护第四范式
2
相关数据
第四范式机构

第四范式成立于2015年初,是国际领先的人工智能技术与服务提供商,已服务20多个行业完成上千个AI落地案例。目前国内重要的国有银行和全国性股份制银行,超过一半都是第四范式的客户,此外,公司在互联网、医疗、政府、能源、零售、媒体等行业均有涉猎,诸多案例取得百分之一百以上的效果提升。

https://www.4paradigm.com/
杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任,大数据研究所所长 。他是人工智能研究的国际专家和领军人物,在学术界和工业界做出了杰出的服务和贡献,尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

推荐文章
暂无评论
暂无评论~