180G!中文ELECTRA预训练模型再升级

在今年3月,哈工大讯飞联合实验室推出了中文ELECTRA预训练模型,并将相关资源进行开源,目前在GitHub上已获得580个star。本次更新中,我们将预训练语料从原有的约20G提升至180G,利用接近9倍大小的数据集。在阅读理解、自然语言推断、句对分类等中文自然语言处理任务中,ELECTRA-180G相比原版ELECTRA获得了显著性能提升。欢迎各位读者下载试用相关模型。

项目地址:http://github.com/ymcui/Chinese-ELECTRA

ELECTRA简介

ELECTRA提出了一套新的预训练框架,其中包含两个部分:Generator和Discriminator。

  • Generator: 一个小的MLM,在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。

  • Discriminator: 判断输入句子中的每个词是否被替换,即使用Replaced Token Detection (RTD)预训练任务,取代了BERT原始的Masked Language Model (MLM)。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。

在预训练阶段结束之后,我们只使用Discriminator作为下游任务精调的基模型。

更详细的技术内容请查阅ELECTRA论文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB

同时,也可通过阅读我们的讲义《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多预训练语言模型相关前沿进展(公众号后台回复NLPCC2020即可下载)。

中文ELECTRA

除了使用与RoBERTa-wwm-ext系列模型一致的扩展训练数据(约20G)之外,我们从CommonCrawl中获取了更大规模中文文本数据,并经过数据清洗等操作,进一步将预训练语料规模扩充到180G。本次发布以下四个模型:

  • ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

  • ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

  • ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters

  • ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加载

哈工大讯飞联合实验室发布的所有中文预训练语言模型均可通过huggingface transformers库进行快速加载访问,请登录我们的共享页面获取更多信息。

https://huggingface.co/HFL

效果评测

在CMRC 2018(简体中文阅读理解),DRCD(繁体中文阅读理解),XNLI(自然语言推断),BQ Corpus(句对分类)任务上,ELECTRA-180G显著超过原版ELECTRA的效果。更详细的效果评测请查看项目的GitHub。

CMRC 2018

DRCD

XNLI

BQ Corpus

相关资源地址

  • TextBrewer知识蒸馏工具

    • http://github.com/airaria/TextBrewer

  • 中文BERT、RoBERTa、RBT系列模型

    • https://github.com/ymcui/Chinese-BERT-wwm

  • 中文XLNet系列模型

    • https://github.com/ymcui/Chinese-XLNet

  • 中文MacBERT模型

    • https://github.com/ymcui/MacBERT

本期责任编辑:崔一鸣

本期编辑:冯   晨

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

工程预训练模型ELECTRA
2
暂无评论
暂无评论~