Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

微软亚研与清华合作,应用联合图神经网络框架,应对隐私保护

编辑 | 萝卜皮

图神经网络(GNN)在建模高阶交互方面是有效的,并已广泛应用于推荐等各种个性化应用中。然而,主流的个性化方法依赖于全局图上的集中式 GNN 学习,由于用户数据的隐私敏感特性,这具有相当大的隐私风险。

在这里,清华大学与微软亚洲研究院的合作团队提出了一个名为 FedPerGNN 的联合 GNN 框架,用于有效和保护隐私的个性化。通过隐私保护模型更新方法,可以基于从本地数据推断出的分散图协同训练 GNN 模型。

为了进一步利用本地交互之外的图信息,他们引入了一种隐私保护图扩展协议,以将高阶信息纳入隐私保护之下。在六个不同场景下的个性化数据集上的实验结果表明,在良好的隐私保护下,FedPerGNN 的错误率比最先进的联合个性化方法低 4.0% ~ 9.6%。

该研究以「A federated graph neural network framework for privacy-preserving personalization」为题,于 2022 年 6 月 2 日发布在《Nature Communications》。

微软亚研与清华合作,应用联合图神经网络框架,应对隐私保护


个性化是 Web 发展的一个关键方向。它可以通过根据不同用户的喜好和特点,为不同的用户提供不同的服务,从而更好地满足他们的个性化需求,从而减轻信息过载的负担。例如,个性化推荐系统可以帮助展示我们想要消费的产品、视频和新闻。个性化医疗服务可以帮助人们进行健康管理,并根据个人的身心状况提供有效的治疗方案。这些个性化服务极大地增强了人们在知情决策和与物理世界的有效互动方面的能力。

先进的机器智能系统,在推荐和个性化搜索等各种个性化在线应用中发挥了核心作用。由于 Web 的社交性质,用户与现实世界或虚拟物品之间存在大量交互,以及不同用户之间的复杂联系。以个性化推荐为例,用户与物品之间的交互自然可以形成二分图。挖掘此图上的有用信息对于了解用户和项目以实现更好的个性化非常重要。

图神经网络 (GNN) 是一种用于挖掘图结构数据的有效神经架构,因为它可以捕获图上的高阶内容和拓扑信息。它已广泛应用于产品推荐、内容推荐等个性化场景,对用户和物品之间的复杂交互进行建模。现有的基于 GNN 的个性化系统的成功依赖于模型学习的集中图数据,通常由从大量用户收集的数据构建。

然而,用户数据通常对隐私高度敏感,其集中存储和利用会导致用户隐私问题和数据泄露风险。此外,在通用数据保护条例(GDPR)等一些严格的数据保护法规的压力下,未来在线平台可能无法集中存储用户数据来学习 GNN 模型进行个性化。

解决这些系统隐私问题的一种直观方法是将原始数据本地存储在用户设备上,并基于它学习本地 GNN 模型。然而,在大多数情况下,用户设备上的数据量太小,无法在本地训练准确的 GNN 模型。联邦学习是一种保护隐私的机器学习范式,可以在隐私保护下,从分散在大量用户客户端上的数据中协同学习智能模型。

在联邦学习中,只有在客户端本地数据上计算的模型更新才会被交换和聚合,其中原始数据不会离开本地设备。这种范式使客户端能够根据从本地交互数据中推断出的本地图来学习他们的本地 GNN 模型,并将这些本地模型聚合成一个全局模型以进行个性化,这称为子图级联邦学习。

然而,在这个框架中仍然存在两个挑战。首先,在本地用户数据上训练的本地 GNN 模型可能会传达私人信息,在从本地 GNN 模型合成全局 GNN 模型时保护用户隐私具有挑战性。其次,本地用户数据可能仅包含用户与物品之间的一阶交互,而由于隐私限制,用户数据无法在不同客户端之间直接交换和链接,因此无法获得更高阶的交互信息。

先前关于子图级联邦学习的工作假设每个客户端都有一个大子图,并且分散在不同客户端上的不同子图之间没有足够的交互。然而,在个性化场景中,分散的子图可能非常小,不同子图之间的交互对于理解用户兴趣至关重要。因此,在不违反隐私保护的情况下,在个性化场景中利用高阶交互来增强 GNN 模型学习仍然是一个相当困难的问题。

微软亚研与清华合作,应用联合图神经网络框架,应对隐私保护

图示:FedPerGNN 的整体框架。(来源:论文)

鉴于这些问题,清华大学的研究团队提出了 FedPerGNN,这是一个基于隐私保护的基于 GNN 的个性化的联合框架,旨在通过以隐私保护的方式利用高阶交互信息,从分散的用户数据中协同训练 GNN 模型。

该方法允许每个用户客户端根据存储在此设备上的本地用户项目图在本地训练 GNN 模型。每个客户端将本地计算的梯度上传到服务器进行聚合,然后再发送到用户客户端进行本地更新。

由于通信的模型梯度可能包含私人用户信息,研究人员开发了一种隐私保护模型更新方法来保护模型训练中的用户隐私。与现有的只保护私人用户评分的方法不同,该方法可以同时保护评分和交互历史,在实践中可以实现更全面的隐私保护。

此外,他们的方法不需要通信和本地记忆全局项目集,其通信开销对于现代个人设备通常是可以接受的。因此,FedPerGNN 可以更容易地部署在现实世界的个性化服务中。

由于从本地用户数据推断出的本地用户-项目图只包含低阶交互信息,研究人员提出了一种隐私保护的用户-项目图扩展协议来扩展本地图,并在隐私保护下传播高阶信息。在这个过程中,每个客户端接收匿名用户嵌入以扩展局部子图,这有助于以保护隐私的方式在用户-项目图上传播高阶信息,从而提高 GNN 模型的性能。

只需几轮隐私保护图扩展,就可以有效地利用用户-项目图上的高阶信息,而无需大量通信成本。此外,该方法不限于个性化场景,可以作为去中心化图数据隐私保护数据挖掘的基础技术,有可能促进涉及图结构数据的各个领域的研究。

微软亚研与清华合作,应用联合图神经网络框架,应对隐私保护

图示:邻居用户信息和不同 GNN 架构的影响。(来源:论文)

该团队在不同场景下对六个真实世界的数据集进行了广泛的实验。结果表明,FedPerGNN 可以与现有的基于集中数据存储的 GNN 方法实现竞争性能,并且可以实现比 SOTA 隐私保护方法低 4.0-9.6% 的预测误差。

实验结果进一步验证了 FedPerGNN 在提高具有各种架构的 GNN 模型性能方面的普遍性,这表明了该方法作为隐私保护 GNN 模型学习的通用基准的潜力。

微软亚研与清华合作,应用联合图神经网络框架,应对隐私保护

图示:使用不同的联合更新方法对模型性能的影响。(来源:论文)

研究人员还发现 FedPerGNN 可以在准确性、隐私保护和通信成本之间取得很好的平衡,这为在实践中结合提供了巨大的潜力。通过对图扩展的分析,发现前三阶内的图信息在个性化中起着核心作用,这可以为开发人员揭示 GNN 模型的内在机制提供有益的指导,帮助从业者开发既有效又高效的图建模系统。

该团队提出的 FedPerGNN 方法可以作为模板框架,在隐私保护下挖掘去中心化图数据。对通信资源有限的客户友好,兼容大量客户进行协同模型学习。FedPerGNN 还提供了支持许多其他涉及私有图数据的场景的潜力,例如智能医疗、城市计算和量化金融。研究人员希望它能启发其他相关领域的未来研究,以提高机器智能系统的有效性和责任感。

当然,FedPerGNN 有以下限制。首先,FedPerGNN 依赖于第三方服务器可信且不与推荐服务器勾结的假设,有点强。其次,对于拥有大量恶意客户端的攻击者来说,FedPerGNN 可能很脆弱。

因此,在未来的工作中,该团队将研究如何防御来自恶意客户端和平台的有意攻击。此外,研究人员计划探索 FedPerGNN 在现实世界个性化系统中的有效和安全部署,以便在保护隐私的情况下为其用户服务。

微软亚研与清华合作,应用联合图神经网络框架,应对隐私保护

图示:FedPerGNN 的详细框架。

论文链接:https://www.nature.com/articles/s41467-022-30714-9

理论
暂无评论
暂无评论~