SuperGLUE:通用语言理解系统的粘性更强的基准测试
在过去一年里,用于预训练和迁移学习的新模型和方法在一系列语言理解任务中推动了性能的显著提升。一年前提出的GLUE基准测试提供了单一数字指标(single-number metric),该指标总结了此类任务的进展情况,但最近基准测试的性能已经接近非专业人员的水平,这表明进一步研究的空间有限。该论文《SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems》总结了GLUE基准的经验教训,提出了SuperGLUE,这是一个与GLUE风格相似的新基准测试,具有一组新的难度更大的语言理解任务、改善的资源和一个新的公共排行榜。SuperGLUE将很快在gluebenchmark.com公布。