Transformer 是一种越来越流行的神经网络架构。最近,OpenAI 将 Transformer 用到了他们的语言模型中, DeepMind 也将其用到了他们为击败顶级职业玩家所设计的 AlphaStar 程序中。本文将详解这一架构的工作原理。
Transformer 是为解决序列转换或神经机器翻译问题而设计的架构,该任务将一个输入序列转化为一个输出序列。 语音识别、文本转语音等问题都属于这类任务。
序列转换。绿色方框代表输入,蓝色矩形代表模型,紫色方框代表输出。
对于执行序列转换任务的模型来说,它们需要某种记忆能力。例如,让我们将下面的句子翻译成另一种语言:
“The Transformers” are a Japanese [[hardcore punk]] band. The band was formed in 1968, during the height of Japanese music history”
在本例中,第二句中的「band」一词指的是第一句中介绍的「The Transformers」乐队。当你在第二句中读到这支乐队时,你知道它指的是「The Transformers」乐队。这对翻译任务可能非常重要。此外,还有很多这样的例子,某句中的某个单词指的是前面句子中的单词。