论文概览
patch 嵌入器,它通过无损地连接每个字节的嵌入来简单地编码 patch; 全局模块 —— 带有输入和输出 patch 表征的大型自回归 transformer; 局部模块 —— 一个小型自回归模型,可预测 patch 中的字节。
2. per-patch 前馈层。在 GPT-3 等超大模型中,超过 98% 的 FLOPS 用于计算 position-wise 前馈层。MEGABYTE 通过给 per-patch(而不是 per-position)使用大型前馈层,在相同的成本下实现了更大、更具表现力的模型。在 patch 大小为 P 的情况下,基线 transformer 将使用具有 m 个参数的相同前馈层 P 次,而 MEGABYTE 仅需以相同的成本使用具有 mP 个参数的层一次。
MEGABYTE 主要组成部分
首先,每个字节都嵌入了一个查找表,形成一个大小为 D_G 的嵌入,并添加了位置嵌入。
局部字节嵌入通过可训练的局部填充嵌入(E^local-pad ∈ R^DL)偏移 1,从而允许在 path 中进行自回归建模。最终得到张量