R-Transformer:循环神经网络增强的Transformer
众所周知,循环神经网络(RNN)和 Transformer 等多头注意力模型在序列建模中均可以取得较好的表现,但依然存在各自的劣势和局限性。在论文《R-Transformer: Recurrent Neural Network Enhanced Transformer》中,研究者提出了既兼具 RNN 和多头注意力机制优势且避免它们劣势的 R-Transformer 模型。该模型在未使用任何位置嵌入的情况下可以有效地捕获序列中的局部结构和全局长期依赖。研究者进行了大量实验,使用各种不同领域的数据来评估 R-Transformer 模型。实证结果表明,在大多数任务中,R-Transformer 模型的性能较当前 SOTA 方法有了较大幅度的提升。