微软提出多任务神经网络蒸馏,让语言的理解表达更自然
来自微软研究院以及Dynamics 365 AI的研究人员们将多个集成模型压缩成为了一个强大且通用的多任务深度神经网络(MT-DNN)蒸馏,用作学习跨多个 自然语言理解(NLU) 任务的文本表示,并以离线方式利用集合模型为训练数据集中的每个任务生成一组软目标。而这些生成的软目标将为每个训练样本提供比硬目标更多的信息,于此同时训练样本之间的梯度变化更小。通过在不同任务中使用软目标和正确目标,在神经网络的帮助下,通过多任务学习训练单个 MT-DNN。经验实验表明,蒸馏的 MT-DNN 优于原始 MT-DNN,并在通用语言理解评估(GLUE)基准测试中获得了新的最新结果。作者将蒸馏的 MT-DNN 与 BERT 和 MT-DNN 进行了比较,结果证明通过蒸馏 MT-DNN 学习的语言表达比 BERT / MT-DNN 更强大,也更加通用。据了解,微软计划于 2019 年 6 月向公众发布蒸馏的 MT-DNN 软件包,发布包中包含预训练模型,源代码和自述文件,逐步描述如何重现本文中报告的结果。Github地址: https://github.com/namisan/mt-dnn。