思 张倩参与

BERT:我训练再久一点、数据量再大一点,就能重返SOTA

XLNet 冠军宝座还没坐热,剧情又一次发生反转。

上个月,XLNet 在 20 项任务上全面超越了 BERT,创造了 NLP 预训练模型新记录,一时风光无两。但现在,XLNet 刚屠榜一个月,剧情再次发生反转:Facebook 的研究人员表示,如果训练得更久一点、数据再大一点,BERT 就能重返 SOTA。

他们将改进版的 BERT 命名为 RoBERTa,目前已登上 GLUE 排行榜榜首。

Facebook AI 说:「RoBERTa 的全名为 Robustly Optimized BERT pretraining Approach,我们采用了 BERT-Large,并通过更多的数据与更长的训练来提升预训练过程,最终的结果通过模型集成获得。」

我们算下来,XLNet 用了 126GB 的纯文本,TPU 成本要花 6.14 万美元。如果 RoBERTa 训练资源还要多,那得有多少?

从 BERT 到 XLNet

2018 年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,刷新了 11 项 NLP 任务的最优性能记录,为 NLP 领域带来了极大的惊喜。很快,BERT 就在圈内普及开来,也陆续出现了很多与它相关的新工作。

从 GLUE 基准排行榜上来看,目前 Bert 模型已经排到了第 12 位,但如果仔细观察榜单就可以发现,排在前面的很多模型都是以 BERT 为基础进行的改进,如排在第 8 位的 SemBERT、第 9 位的 BERT+BAM、第 11 位的 BERT on STILTs 等。

但也有研究者另辟蹊径,试图用其他方法构建可以超越 BERT 的预训练模型,如上个月屠榜的 XLNet。XLNet 由卡耐基梅隆大学与谷歌大脑的研究者提出,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越了 BERT,并在 18 个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。

XLNet 是一种泛化的自回归预训练模型。研究者表示,该模型克服了 BERT 存在的一些缺点:1)通过排列语言模型,解除 BERT 对 Mask 的独立性假设;2)在预训练中不使用 Mask,解决下游 NLP 任务没有 Mask 标签这一问题。这两大改进,就令 XLNet 相比 BERT 更适合做预训练语言模型。

研究者在 XLNet 中表示,如果 XLNet-Base 的参数量与数据量都与 BERT-Base 相同,那么 XLNet 的效果还是要好一些的。这也就说明 XLNet 本身对任务和架构的改进还是非常有优势的。

数据与算力才是 GLUE 基准的王道

几小时前,Facebook AI 发推特表示只要数据足够大、算力足够多,那么 BERT 还有很大的提升空间。甚至对比改进了任务和结构的 XLNet,RoBERTa 在 6 项 NLP 任务中都有更多的提升。

首先对于数据,XLNet 除了采用原版 BERT 使用的 BooksCorpus、Wikipedia 两大标准数据集(两个共 13GB),它还额外使用了 Giga5、ClueWeb 2012-B、Common Crawl 三大文本数据集(三个共 113GB),本身数据量就已经极其庞大了。那么如果 RoBERTa 要超过 XLNet,那个数据量得多大啊。

其次对于计算力,XLNet 一作杨植麟对机器之心表示,他们使用的是谷歌内部的 TPU 算力,因此对于费用并没有太大的感受。但是按照 XLNet 大模型在 128 个 Cloud TPU v3 下训练 2 天半来算,这基本已经是学术研究机构无法承担的成本。也就 Facebook 这种科技巨头能拿得出「更大」的算力。

最后,这里之所以说是 BERT 重夺 SOTA 结果,是因为 Facebook AI 表示他们采用了 BERT-Large 的原实现。虽然正式的 Paper 或博客还没出来,但我们知道它的主体就是 BERT,只不过可能加了某些修正以更鲁棒地训练。

这样看来,不论是前一段时间有大幅度提升的 XLNet,还是后来赶上的 RoBERTa,它们在数据量和计算力上都有极大地提升。也许在两者的加持下,GLUE 基准才不停地更新。

工程数据科学深度学习智能物联网Facebook AI Research(FAIR)自然语言处理BERT
1
暂无评论
暂无评论~