苏黎世联邦理工新研究:以自我注意的有效性作为Transformer模型的解释
苏黎世联邦理工近日发表了一篇名为「以自我注意的有效性作为Transformer模型的解释」的研究。以下是该论文完整摘要:深度学习系统的可解释性是许多应用的关键,但这仍旧是一个未解决的问题。近来,通过提供可直接检查的注意力图,基于自我注意的自然语言处理模型(如 the Transformer 或 BERT)为提供更好可解释性带来了希望。然而,通过观察注意力图,人们常常忽略了注意力不仅仅是语言,同时也隐藏在嵌入之上,而嵌入本身可以是多个嵌入的混合表示。研究人员研究了在最近的许多论文(隐藏在所有层中的嵌入仍然对应于基础词)的隐含假设在多大程度上是合理的, 并基于基于梯度的归因方法量化嵌入混合的数量,还发现在第一层之后已经将少于 50%的嵌入归因于基础词,之后在最后一层中降低到 7.5%的中值贡献。虽然在整个层次中,潜在的单词仍然是对嵌入最有贡献的单词,但研究人员认为注意可视化具有误导性,在解释底层深度学习系统时应小心对待。