NeurIPS 2020 | 广义神经网络中的知识蒸馏:风险约束、数据效率和不完善的教师网络
知识提炼是一种在教师网络的软输出指导下训练学生网络的策略。它已成为模型压缩和知识转移的成功方法。然而,目前的知识提炼缺乏令人信服的理论知识。另一方面,最近在神经正切核上的发现使我们能够使用网络随机特征的线性模型来近似宽泛的神经网络。在本文《Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher》中,研究人员从理论上分析了广义神经网络的知识提炼问题。首先给出了线性化网络模型的转移风险界限。然后研究人员提出了一个任务训练难度的度量,称为数据效率。基于这一衡量标准,研究表明,对于一个完美的教师,高比例的教师软标签可能是有益的。最后,对于教师不完善的情况,研究发现硬标签可以纠正教师的错误预测,这就解释了硬标签和软标签混合使用的实践。