潘子琦上交BCMI实验室

有监督解耦与信息压缩相结合,上交新型信息瓶颈算法实现良好的泛化、鲁棒性能

现有的有监督解耦方法,比如把中间表征解耦成种类相关的表征和种类无关的表征,大多基于交换生成的经验性框架,缺乏理论指导,无法保证种类相关表征中不包含种类无关的信息。在本文中,来自上海交通大学的研究者尝试建立信息瓶颈(Information Bottleneck, IB)和有监督解耦之间的联系,为有监督解耦提供理论指导。

信息瓶颈是一种从源数据中提取出与任务目标有关信息的方法,一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现。现有文献已经指出 IB Lagrangian 存在的一些问题,比如期望的压缩水平与控制权衡的 Lagrangian 乘子之间没有因果关联,因此对于 IB Lagrangian 来说需要多次尝试优化来实现期望目标。

研究者在文中具体分析了 IB Lagrangian 中存在的权衡问题,表明随着压缩程度增大,预测性能严格减小。为了克服这些问题,研究者一方面期望在不损害预测性能的前提下能够实现最大化压缩,简称为「最大化压缩」;另一方面期望无需多次尝试优化,即模型能够一致地实现最大化压缩。

为此,研究者首先考察了最大化压缩实现时对应的量化条件,之后对优化目标给出了最大化压缩一致性的性质定义,即只要优化目标满足该性质就能够一致地实现最大化压缩。在此基础上,研究者给出自己的方案设计。与现有的 IB Lagrangian 不同,研究者从有监督解耦的角度来实现信息压缩,这是因为他们认为信息压缩与有监督解耦本质上是同一回事:在有监督解耦任务中,需要将源数据中与给定标签有关的信息和其它信息分开,如给定图像的类别标签,将图像信息解耦为类别有关的和类别无关的信息;而类似地,在信息压缩任务中,要将源数据中与给定标签无关的信息丢弃从而实现压缩,同样需要区分出与给定标签有关的信息和与给定标签无关的信息。

基于此,研究者将有监督解耦与信息压缩相联系,提出了基于解耦的信息瓶颈算法。研究者给出了一些结论,同时在多个数据集上验证了这些结论,并验证了所提方法在包括信息压缩等多个评估指标上的性能。本文已被 AAAI 2021 会议接收。

论文地址:https://arxiv.org/pdf/2012.07372.pdf

IB Lagrangian 中压缩项与预测项的权衡

研究者分析了 IB Lagrangian 中存在的压缩项与预测项之间的权衡问题。形式如下:

具体来说,本文的结论表明 IB Lagrangian 最优解对应的预测性能是随着压缩程度的增大而严格下降的。

最大化压缩一致性、方法设计

为了实现一致的最大化压缩,研究者首先给出了最大化压缩对应的量化条件。首先考虑了 I(X;Y) = H(Y)的情形,应用互信息的基本性质及信息处理不等式,可以得到

接着给出了关于优化目标的最大化压缩一致性的性质定义:

即任意优化目标,只要满足这一性质,就会一致地实现最大化压缩,即上述量化条件。在此基础上给出了本文方法的优化目标函数

具体来说,研究者通过最大化 I(X;S;Y)来约束 (S;Y) 能够表示出 X 的全部信息,则可知 S 至少包含了 X 中与 Y 无关的信息;通过最大化 I(T;Y)来约束 T 能够无损地预测出 Y,则可知至少 T 包含了 X 中与 Y 有关的信息。在此基础上通过最小化 I(S;T)来约束 S 与 T 中的信息互不交叠,从而精确地约束 T 保留与 Y 有关的信息而 S 保留与 Y 无关的信息。可以证明,研究者的优化目标满足最大化压缩一致性,即

对于方案的工程实现,现有的文献提供了直接可用的方法。对于最大化 T(T;Y)和 I(X;S;Y)来说,可以采用变分逼近;而对于最小化 I(S;T)来说,可以采用 Density-Ratio Trick 并以对抗方式进行训练。

研究者的方案与信息压缩和有监督解耦两个领域有关。对于信息压缩的有关方法,大多采用了优化 IB Lagrangian 的形式,因此根据上述结论,它们的压缩项和预测项权衡无法避免,从而在信息压缩的同时带来预测性能的损失;而与有监督解耦的有关方法相比,如前所述,本文方法能够确保 T 和 S 分别精确地保留与 Y 有关和无关的信息,而它们在信息量控制方面没有保证。

实验结果

本文的主要目标是克服 IB Lagrangian 中的权衡问题,因此首先验证所提方法在 IB 平面(横轴代表 I(X;T),纵轴代表 I(T;Y))上的表现行为。结果如下图所示:

通过上图可以看出,本文方法能够在压缩信息的同时避免对预测性能的影响,最大化压缩的量化条件得以较好地逼近;而在 IB Lagrangian 的优化中,预测性能会随着压缩程度加大而下降。除此之外,参照信息压缩方法相关文献中的其它评估指标,本文方法在泛化能力、鲁棒性以及离群样本检测方面也表现良好。

本文方法额外带来的收获是能够进行有监督地解耦。通过可视化结果,本文方法可以较好地展示出解耦效果。

总结

总的来说,为了克服优化 IB Lagrangian 的信息压缩方法中存在的压缩项与预测项的权衡问题,研究者从有监督解耦的角度实现了信息压缩的方法,并提出了基于有监督解耦的信息瓶颈算法。研究者给出了一些结论并进行了实验验证,同时在最大化压缩、泛化能力、鲁棒性、离群样本检测、有监督解耦等方面对方法进行评估,得到了良好的实验效果。
理论上海交通大学有监督解耦
相关数据
目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~