联邦广告:技术捍卫隐私

【联邦广告专题】系列科普文由浅入深地介绍“联邦广告”作为线上长链路营销难题的新兴解决方案,在技术层和实践中如何发挥有效的价值。带你了解广告行业全貌与联邦广告技术最前沿,无论是广告行业的技术人员还是非技术人员都值得一看。

内容包括:

  • 线上广告的生态背景
  • 现有 OCPA + RTA 模式的优势
  • 联邦广告中差分隐私、同态加密和隐私保护集合交集的三大隐私保护技术
  • 联邦/可信广告方案的应用场景详解

上一篇文章《线上广告下一站:联邦广告》(点击跳转)中我们介绍了:

  • 广告行业现状,金融业广告投放所面临的挑战
  • 联邦广告如何有效应对这些挑战
  • 联邦广告的基本概念及基本原理

今天我们就来聊聊联邦广告在保护隐私方面最重要的三大技术差分隐私(Differential Privacy)同态加密(Homomorphic Encryption)隐私保护集合交集(Private Set Intersection)。基于这三大技术,联邦广告可以在保证数据隐私的前提下完成计算任务。

数据隐私保护“2020”时代

数字时代的不断发展给人们带来了巨大的便利,隐私保护问题也日益受到关注。有的人可能会说,我愿意放弃个人隐私来换取便利,但实际上这样的说法有两大错误。一是便利本身来源于技术进步,并非由个人隐私置换而来;二是个人隐私作为重要的个人利益,是不能放弃的。借用罗翔教授的话,“因为如果可以放弃的话,那么自由一定会导致强者对弱者的剥削。自由不能以彻底放弃自由为代价”。 

随着人们隐私意识的不断加强,面对互联网和大数据带来的全新隐私挑战,越来越多国家和地区都开始以法律法规形式遏制个人信息被滥用的情况,以更好地保护个人数据隐私:

  • 欧盟推出的 GDPR(General Data Protection Regulation, 通用数据保护条例) 已于 2018 年 5 月 25 日起正式生效。
  • 美国加利福利亚消费者隐私法案(CCPA) 于 2020 年 1 月 1 日正式生效。
  • 我国将在 2020 年制定个人信息保护法、数据安全法。

这里着重提一下 GDPR 中的数据最小化原则(所收集、处理的个人数据之于其处理目的,应当准确、相关、必要)和完整、机密原则(用技术手段确保个人数据安全,不被非法处理、窃取、损毁等)。数据最小化原则中的『相关』和『必要』对于企业来说有巨大的影响,这意味着每个企业都只能拥有用户的部分信息。而完整、机密原则中强调了技术手段的重要性。

让我们用大白话重新翻译一下:

  1. 不同企业拥有关于用户的不同数据,有没有可能在不泄露隐私的前提下,充分利用多方数据?
  2. 有哪些技术手段可以在保证用户隐私的前提下完成计算?

接下来我们就围绕这两个问题,用大白话来聊聊差分隐私(Differential Privacy)同态加密(Homomorphic Encryption)隐私保护集合交集(Private Set Intersection) 究竟是怎么回事

差分隐私 Differential Privacy

差分隐私这个词被大众熟知是在 2016 年苹果的 WWDC 大会:用户数据加密后上传到苹果服务器后,苹果可以用这些加密后的数据计算出用户群体的相关特征,但无法解析某个个体的信息。不过差分隐私并非苹果原创,来自微软的 C. Dwork 早在 2006 年便首次提出差分隐私的概念。

举一个贴近生活的例子,假如我们班 50 个同学举办毕业晚会,最后有抽奖环节,特等奖一共 5 名,为了保持神秘,并不公布名单。所谓差分攻击,就是当我打听到了其他 48 个同学的中奖情况,实际上第 49 个同学是否中特等奖我也就知道了(如果包括我在内的 49 个同学已有 5 人特等奖,那么最后一个同学肯定没中奖;如果只有 4 人中奖,那么最后一个同学就肯定中奖了)。

差分隐私正是为了应对差分攻击而生,简单来说就是给查询结果加噪声(实际上,也可以对源数据/模型参数加噪声),但是一定要恰到好处。噪声加太大,数据集得出的统计值就没有意义了;而噪声加太小,还是很容易被差分攻击攻破,无法保证隐私。用上面特等奖的例子来说,就是在打听除自己外 48 个同学的信息时,让有些人不说实话,那么我就无法推断第 49 名同学是否真正中奖了。

在联邦广告中,我们采用差分隐私算法保证用户隐私:广告主回传加密后的转化结果,我们是无法通过查询还原出某个用户是否有转化的。

同态加密 Homomorphic Encryption

前面提到的差分隐私是通过加噪声来确保无法通过结果反推原始数据,但噪声毕竟是噪声,在复杂计算任务中很可能因为噪声累积而导致结果不可用,那么有没有一种方式不用添加噪声同样可以保证隐私不泄露呢?有!比如本节的同态加密算法,就是通过密码学方法来保护隐私的。

同态加密最早由 Ron Rivest, Leonard Adleman 和 Michael L.Dertouzos 在 1978 年以银行为应用背景提出。Rivest 和 Adleman 就是大名鼎鼎的 RSA 算法中的 R 和 A。虽然同态加密在1978年就已提出,但直到 2009 年,也就是三十多年过去后,“全同态加密(Fully Homomorphic Encryption)” 才由 Cragi Gentry 实现。那么同态加密为什么这么难?我们先通过一个简单的例子感受一下:

假如我想要让好朋友计算 a+b=c,最简单的方法就是直接告诉他 a 和 b 的值,然后他计算出 c 并告诉我最终结果。但是这次我想要搞神秘一点,我希望在不告诉朋友 a 和 b 真实值的情况下完成这个任务,用同态加密的方式就需要如下四个步骤:

  1. 我对 a 和 b 加密,得到 [[a]] 和 [[b]] 并发给朋友,因为加密后是无意义的字符串,所以朋友并没有办法知道 a 和 b 到底是什么值
  2. 我告诉朋友我需要的计算方法是相加,也就是说我的计算函数 f() 就是求和
  3. 朋友也不含糊,让我求和我求就是了,直接 [[a]] ⊕ [[b]] 得到 [[c]],并把 [[c]] 发回给我(这里就是关键!加密后仍然可以进行计算)
  4. 我用自己的密钥解密 [[c]] 得到 c,就是本次计算的最终结果(加密计算后的结果能够还原,并且和未加密的计算结果一致)

这里我们关注下计算函数 f(),如果 f 可以是任意能通过算法描述且计算机实现的函数,那么我们称之为全同态加密(FHE, Fully Homomorphic Encryption);如果 f 只能是一些特定的函数,那么就是部分同态加密(SWHE, Somewhat Homomorphic Encryption)。

在联邦广告中,基于计算效率的考虑,除了对算法进行优化外,我们采用的是 SWHE 加密方案,并在加密后的数据上构建转化率预估模型。能够解密的密钥保存在广告主手上,这样就更好地保证了数据隐私与安全。

隐私保护集合交集 Private Set Intersection

提到集合交集,想必大家都不陌生,简单来说就是找到两个集合中相同的部分,用符号表示就是 “A∩B”,但是在前面加上隐私保护,问题的难度就上了好几个台阶。准确一点说,隐私保护集合交集属于安全多方计算领域的特定应用问题:在数据由不同管理者持有的条件下,通过 PSI 计算达到保护隐私与信息共享的双赢局面。我们还是用一个简单的例子来感受下:

假如我是一个游戏爱好者,想看看我和一位好朋友有多少共同玩过的游戏,但是我这个朋友对隐私比较看重,除了我们共同玩过的游戏外,不想让我知道其他他玩过的游戏。如果不用 PSI 方法的话,我就得把我玩过的游戏列表分享给他,再由他进行匹配,这样我其他玩过的游戏就暴露了。而如果采用 PSI 方法的话,就可以做到我和我的朋友都知道我们共同玩过的游戏,并且我玩过的其他游戏他不知道,他玩过的其他游戏我不知道。

上面的场景可能不够硬核,我们再来看看 PSI 在线上广告场景中的使用。在线上广告的流程中,曝光和点击发生在广告平台上,广告主没有这部分信息;而点击后的一系列转化行为(如收藏、购买等)则发生在广告主提供的落地页中,广告平台没有这部分信息。如果我们想要确定对应广告平台上的真实转化率,就需要对广告平台的数据以及广告主数据求交集。那么问题来了,双方的用户信息都是私密的,但却需要通过求交集找到关联上的数据,这个时候就是 PSI 方法大显身手的时候了。采用 PSI 方法不但可以打通线上广告前后端流程,同时保护了双方的用户隐私。

正是因为 PSI 方法应用非常广泛,从 Google 到 Facebook,从百度字节跳动,都分分开始落地应用。我们的联邦学习方法也不例外,通过 PSI 方法保证广告主和广告平台的隐私的同时,可以快速进行模型迭代。

联邦广告:保障隐私的全链路优化

经过前面的介绍,大家应该已经大致了解联邦广告是如何利用差分隐私、同态加密和隐私保护集合交集这三大技术,为广告主和广告平台在线上广告投放的全链路为隐私保驾护航。总结一下就是:

  1. 通过差分隐私技术杜绝可能的差分攻击,保障广告主转化数据的隐私
  2. 通过同态加密技术保证计算过程中数据隐私与安全,只有广告主有最终揭开结果的钥匙(密钥)
  3. 通过隐私保护集合交集在保证广告主和广告平台数据隐私的前提下打通广告投放前后端,使得全链路优化成为可能

没想到吧!为了保障数据隐私,在看起来很细微的地方也要做大量工作呢。别着急,接下来我们会继续深挖联邦广告,敬请期待!

参考资料

差分隐私综述论文

https://s3-us-west-2.amazonaws.com/ieeeshutpages/xplore/xplore-ie-notice.html?#metrics

隐私集合求交论文

https://eprint.iacr.org/2017/299

同态加密论文

http://people.csail.mit.edu/rivest/RivestAdlemanDertouzos-OnDataBanksAndPrivacyHomomorphisms.pdf

微众银行AI
微众银行AI

微众银行是腾讯发起的国内首家互联网银行,用自主可控、安全可信的AI技术引领金融科技新方向!

入门线上广告联邦学习
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。 公司独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式。

https://bytedance.com/en
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

找到机构
暂无评论
暂无评论~