Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建了原图

在数据隐私保护领域,联邦学习被认为是一种高效且安全的解决方案。但联邦学习真的无懈可击吗?在英伟达最近的一项研究中,研究者通过反转批平均梯度完全恢复了隐藏的原始图像,引发了人们对联邦学习安全性的重新思考。

联邦学习因为数据不出本地的隐私保护策略,一直被人们认为是高效解决 AI 计算问题,并保护个人数据的重要方向,目前已经出现了大量相关的研究和应用。然而,随着目前法律法规对于数据限制的加深,从梯度、模型参数中反推出用户数据的方法正在显现。

在不少情况下,利用被模糊的数据,以及机器学习处理过程中的参数,我们能够重建出一个人的基本信息。而最近,英伟达的研究人员更进一步,甚至直接通过机器学习中的梯度数据重建了图像。新的研究让人们不禁怀疑:联邦学习难道实际上并不安全?

具体地,研究者提出了一种 GradInversion 方法,通过反转给定的批平均梯度(batch-averaged gradients)从随机噪声中恢复隐藏的原始图像。该研究已被计算机视觉顶会 CVPR 2021 接收。

论文链接:https://arxiv.org/pdf/2104.07586.pdf

研究者提出了一种标签修复方法,利用最后的全连接层梯度来恢复真值标签。他们还提出了一种群体一致性正则化项,它是基于多种子优化和图像配准,用于提升图像重建质量。实验表明,对于 ResNet-50 这样的深度网络,利用批平均梯度完全恢复细节丰富的单个图像是可行的。

研究者在论文中表示,与 BigGAN 等 SOTA 生成对抗网络相比,他们提出的非学习(non-learning)图像恢复方法可以恢复隐藏输入数据的更丰富细节。

更重要的是,即使当图像批大小增加至 48,通过反转批梯度,该方法依然可以完全恢复 224×224 像素大小且具有高保真度和丰富细节的图像。

对于这项研究的结果,有网友认为:「这就是差分隐私(differential privacy, DP)存在的理由,没有差分隐私的联邦学习无法保证隐私。」

研究概述

下图 1(a)中,研究者提出 GradInversion,通过反转批平均梯度来恢复高保真度和丰富细节的隐藏训练图像;图 1(b)展示了将噪声变换至输入图像的优化过程,首先从全连接层的梯度中恢复标签,然后在保真度正则化和基于注册的群体一致性正则化条件下优化输入以匹配目标梯度,从而提升重建质量。

这种方法能够从 ResNet-50 批梯度中恢复 224×224 像素的 ImageNet 图像样本,这在以前是无法实现的。

方法概览。

由于卷积神经网络(CNN)的平移不变性,基于梯度的反转面临另一项挑战——目标对象的精确定位。在理想场景中,优化可以收敛至一个真值(ground truth)。

但如下图 2 所示,研究者观察到,当使用不同的 seed 重复优化过程时,每个优化过程均可以得到局部最小值。这些局部最小值在所有层级上分配语义正确的图像特征,但彼此之间又有不同:图像围绕着真值变换,并专注不同的细节。

研究者提出了一种群体一致性正则化项,它通过联合优化的方式同时利用多个 seed,具体流程如下图 3 所示:

实验结果

研究者以 224×224 像素为范例,在大规模 1000-class ImageNet ILSVRC 2012 数据集上对该方法在分类任务上的效果进行了评估。

首先,他们在批大小为 8 时,对 224×224 像素大小的图像进行了效果对比。下图 4 和表 4 分别为 GradInversion 方法与 Latent Projection、DeepInversion、Inverting Gradients 和 Deep Gradient Leakage 等 SOTA 方法的定性和定量对比,结果显示该方法在视觉效果和数值上均胜出。

接着,研究者增加了批大小,使用 32GB 英伟达 V100 GPU 将批大小增至 48。如下图 6 所示,随着批大小的增加,可恢复图像的数量逐渐减少。

不过,GradInversion 方法依然可以获取一定数量的原始视觉信息,有时还能实现完整的重建,具体如下图 7 所示:

一作简介

该论文的一作是尹洪旭(Hongxu Yin),2015 年毕业于新加坡南洋理工大学电气与电子工程专业,获工学学士学位,在美国普林斯顿大学电气工程系攻读博士学位,现在是英伟达(硅谷)研究科学家。

他的研究集中在高效的深度神经网络、无数据模型压缩 / 神经结构搜索和边缘医疗推理。

个人主页:https://scholar.princeton.edu/hongxu



理论隐私保护联邦学习
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

神经结构搜索技术

神经结构搜索(NAS)表示自动设计人工神经网络(ANN)的过程。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

暂无评论
暂无评论~