Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟、陈萍机器之心报道

微软朱晨光:预训练模型下一步怎么走?突破PLM的「不可能三角」

文章虽然不长短短四页,却简明地涵盖了 PLM 过去的一系列工作。

近年来,大规模预训练语言模型(PLM)已经显著提升了各种 NLP 任务的性能。从 BERT 和 GPT-2 开始,自监督预训练 + 监督式微调的范式取得了巨大的成功,刷新了语义相似度、机器阅读理解、常识推理和文本摘要等很多 NLP 领域的 SOTA 结果。此外,中等规模的 PLM 实现了广泛和快速的模型微调和调整。

但是,在很多实际尤其是新颖的 NLP 场景中,受限于预算或者时间,用于有效微调的标注数据极其有限。这种情况刺激了零样本和小样本 NLP 模型的发展。从 GPT-3 开始,当仅给出任务描述以及可能的一些手动示例时,超级大规模 PLM(SL-PLM)在一般 NLP 任务上显示出了更强的性能。这种能力在以往的中等规模 PLM 中没有观察到。然而,SL-PLM 的前所未有的规模在很大程度上也限制了它们的广泛应用。小的科技公司和研究人员很难获得加载这些模型所需要的足够的计算资源,更不用说高效的部署和可能的微调了。

近日,微软认知服务研究小组(Cognitive Services Research,CSR)的两位研究者在其新论文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中对未来的预训练语言模型进行了展望。

论文一作朱晨光(Chenguang Zhu)本科毕业于清华姚班,2016 年博士毕业于斯坦福大学。之后,他进入微软工作,现任 CSR 首席研究经理。
图片
论文地址:https://arxiv.org/pdf/2204.06130.pdf

他们首先根据不可能三角(Impossible Triangle)的概念详细阐述当前使用 PLM 模型的难点,这里的不可能三角包括中等模型大小、SOTA 小样本学习能力和 SOTA 微调能力。研究者认为,所有现有的 PLM 模型都缺少不可能三角中的一个或多个属性。为了弥补 PLM 缺失的这些属性,人们提出了各种技术,例如知识蒸馏、数据增强和提示学习,这些不可避免地对 PLM 在真实场景中的应用带来了额外的工作。

针对这些情况,研究者对未来 PLM 的研究方向提出了自己的见解以实现不可能三角,并将任务分解成了三个关键阶段。

不可能三角

该研究用「不可能三角」这个经济学理论来形容 PLM 研究当前遇到的障碍,如图 1 所示。这个三角描述了高效使用 PLM 三个关键属性:P1 表示模型尺寸,P2 表示 SOTA 小样本学习能力,P3 表示 SOTA 自监督学习能力。这三个要素对应 PLM 在实际应用中的三个需求:P1 用于使用合理数量的计算资源进行高效部署;P2 用于标记数据为零或很少的场景;P3 针对标注数据比较丰富的场景。
图片
不可能三角存在的一个潜在原因是,在当前阶段,只有当 PLM 规模足够大、容量足够高,小样本学习能力才会出现。虽然有研究设计出了中等规模的 PLM(例如 iPET),以实现比 GPT-3 更好的小样本学习能力,但该模型被后来的 SL-PLM 超越,之后随着模型的不断扩展,零样本或小样本学习性能不断得到提高。例如,与具有 8B 和 62B 参数的模型变体相比,具有 540B 参数的 PaLM 在许多任务上的准确率都有了大幅提升。因此,在保持卓越的监督学习能力的同时,开发具有 SOTA 零 / 小样本学习性能的中等规模模型仍然是一个巨大的挑战。

尽管没有 PLM 实现不可能三角中的所有三个属性,但它们中的许多已经获得了其中的一两个功能:

中等规模 PLM(P1 + P3):这些语言模型具有中等规模,参数小于 10 亿,能够有效地进行调优和部署。这类模型在一般的 NLP 任务中(例如 GLUE 基准、文本摘要、open-domain 问答、尝试推理)可以达到 SOTA 性能。然而,这类模型通常具有相对较弱的零 / 小样本学习能力,这意味着使用这些模型取决于目标域中足够的标记数据。

超大规模 PLM(P2):这些语言模型具有超大规模,参数 1 到 10000 亿,并且在大规模数据上进行了预训练。例如,具有 5400 亿参数的 PaLM 在具有 7800 亿个 token 的不同文本语料库上进行了预训练。当具有 prompt 任务描述和一些少量的输入 - 输出样本对时,这类模型在一般的零 / 小样本 NLP 任务上实现了 SOTA 性能。然而,一般而言,SL-PLM 的零 / 小样本性能低于有监督训练模型的性能;在微调之后,许多 SL-PLM 的性能仍然低于最佳微调的中等规模的 PLM,可能是由于这类模型尺寸巨大难以微调。

当前都有哪些弥补方法

由于不可能三角关系的存在,研究者采取不同措施来解决。可总结如下:

巨大的模型规模(缺少 P1)。当 SL-PLM 显示出极好的小样本学习能力以及微调后性能强大,就会发生这种情况。为了获得性能与 SL-PLM 相似的中等大小的模型,一种常见的做法是知识蒸馏 (KD)。在 KD 中,较大的模型充当教师,较小的模型是学生,学生从教师的预测分布或参数中学习。知识蒸馏在创建更有效的模型方面非常有效,但性能却略有降低。然而,知识蒸馏仍然存在两个问题:首先,学生模型很难达到与老师模型相同的性能;其次,SL-PLM 大尺寸阻碍了推理,使其作为教师模型不方便使用。

较差的零 / 小样本性能(缺少 P2):这对于中等规模的 PLM 最常见,它们在微调后可以实现 SOTA 性能,但具有相对较低的零 / 小样本学习能力。当缺少足够的标记数据时,部署这样的模型是比较好的。数据增强是一种常用方法,通过从其他模型或噪声注入生成伪标签和伪数据实例,该模型可以利用这些额外数据进行有效的监督训练。然而,伪数据质量的变化和不同任务中数据类型的多样性对普遍适用的解决方案提出了挑战。

监督训练性能较差(缺少 P3):这在微调 SL-PLM 时很典型,在这种情况下,计算资源有限或训练数据的数量不足以调整一个超大型模型。一个典型的解决方案是 prompt 学习。可以利用 hard prompt(即离散文本模板)或 soft prompt(即连续模板),以便在微调期间仅更新 hard prompt 词或 soft prompt 参数。这已被证明对于提高给定标记数据的 SL-PLM 的性能非常有效。但是,但这种方式对 prompt 的设计非常敏感,同时效果不如有监督学习的中等规模 PLM。

三个关键阶段

虽然目前 NLP 模型存在不可能三角,研究者认为它可以通过以下三个阶段来解决。

阶段 1:PLM 的开发目标是实现三角中的一些期望属性,同时对其他缺失的属性进行改进。例如,具备 SOTA 监督学习能力的中等规模的模型可以提升其小样本学习性能;或者具备小样本学习能力的 SL-PLM 被压缩成具有更强监督学习性能的更小模型。


阶段 2:开发在少数 NLP 任务之一(如 NER 或文本摘要)上实现所有三种期望属性的 PLM。为此,我们可以利用目标任务的独特属性,例如性能对训练数据规模的依赖更少、零 / 小样本和监督学习性能之间的差距更小等。

阶段 3:在阶段 1 和阶段 2 进展的基础上,开发在一般 NLP 任务上实现所有三种期望属性的 PLM。潜在的方法包括使用更大的数据预训练中等规模的模型、开发更好的知识蒸馏、泛化数据增强方法等。

一旦 PLM 模型在一般 NLP 任务上具备了不可能三角的所有三种属性,它将改变 NLP 研究和应用的整个局面,促进快速、高效和高质量的模型开发和部署。
理论朱晨光大规模预训练语言模型
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

推荐文章
暂无评论
暂无评论~