微软新研究论文介绍「DeBERTa」
近日,微软发布新研究论文介绍「DeBERTa」,以下为论文概述:预训练的神经语言模型的最新进展已大大改善许多自然语言处理(NLP)任务的性能。在本文中,我们提出了一种新的模型架构 DeBERTa(解耦注意力的解码增强 BERT)(Decoding-enhanced BERT with disentangled attention),它使用两种新颖的技术改进了 BERT 和 RoBERTa 模型。第一个是解耦注意力机制,其中每个单词分别使用两个编码其内容和位置的向量表示,单词间的注意力权重使用其内容和相对位置的解耦结矩阵来计算。其次,使用增强的 mask 解码器替换输出的 softmax 层以预测用于模型预训练的 mask 标记。我们显示这两种技术显着提高了模型预训练的效率和下游任务的性能。与 RoBERTaLarge 相比,在一半的训练数据上训练的 DeBERTa 模型在各种 NLP 任务上始终表现出更好的性能,使 MNLI 改善了 + 0.9%(90.2%比 91.1%),在 SQuAD v2.0 上增长了 + 2.3%(88.4%对 90.7%),RACE 增长了 + 3.6%(83.2%对 86.8%)。