Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3

本文提出的重构预训练(reStructured Pre-training,RST),不仅在各种 NLP 任务上表现亮眼,在高考英语上,也交出了一份满意的成绩。


我们存储数据的方式正在发生变化,从生物神经网络到人工神经网络,其实最常见的情况是使用大脑来存储数据。随着当今可用数据的不断增长,人们寻求用不同的外部设备存储数据,如硬盘驱动器或云存储。随着深度学习技术的兴起,另一种有前景的存储技术已经出现,它使用人工神经网络来存储数据中的信息。

研究者认为,数据存储的最终目标是更好地服务于人类生活,数据的访问方式和存储方式同样重要。然而,存储和访问数据的方式存在差异。历史上,人们一直在努力弥补这一差距,以便更好地利用世界上存在的信息。如图 3 所示:

图片

  • 生物神经网络(如人脑)方面,人类在很小的时候就接受了课程(即知识)教育,以便他们能够提取特定的数据来应对复杂多变的生活。
  • 对于外部设备存储,人们通常按照某种模式(例如表格)对数据进行结构化,然后采用专门的语言(例如 SQL)从数据库中有效地检索所需的信息。
  • 对于基于人工神经网络的存储,研究人员利用自监督学习存储来自大型语料库的数据(即预训练),然后将该网络用于各种下游任务(例如情绪分类)。

来自 CMU 的研究者提出了一种访问包含各种类型信息数据的新方法,这些信息可以作为指导模型进行参数优化的预训练信号。该研究以信号为单位结构化地表示数据。这类似于使用数据库对数据进行存储的场景:首先将它们构造成表或 JSON 格式,这样就可以通过专门的语言 (如 SQL) 准确地检索所需的信息。

此外,该研究认为有价值的信号丰富地存在于世界各类的数据中,而不是简单地存在于人工管理的监督数据集中, 研究人员需要做的是 (a) 识别数据 (b) 用统一的语言重组数据(c)将它们集成并存储到预训练语言模型中。该研究称这种学习范式为重构预训练(reStructured Pre-training,RST)。研究者将这个过程比作「矿山寻宝」。不同的数据源如维基百科,相当于盛产宝石的矿山。它们包含丰富的信息,比如来自超链接的命名实体,可以为模型预训练提供信号。一个好的预训练模型 (PLM) 应该清楚地了解数据中各种信号的组成,以便根据下游任务的不同需求提供准确的信息。

图片

论文地址:https://arxiv.org/pdf/2206.11147.pdf

图片
预训练语言模型寻宝

该研究提出自然语言处理任务学习的新范式, 即 RST,该范式重新重视数据的作用,并将模型预训练和下游任务的微调视为数据的存储和访问过程。在此基础上,该研究实现了一个简单的原则,即良好的存储机制不仅应该具有缓存大量数据的能力,还应该考虑访问的方便性。

在克服了一些工程挑战后,该研究通过对重构数据(由各种有价值的信息而不是原始数据组成)进行预训练来实现这一点。实验证明,RST 模型不仅在来自各种 NLP 任务(例如分类、信息抽取、事实检索、文本生成等)的 52/55 流行数据集上表现大幅超过现有最好系统(例如,T0),而且无需对下游任务进行微调 。在每年有数百万学生参加的中国最权威的高考英语考试中也取得了优异的成绩。

具体而言,本文所提出的高考 AI (Qin)  比学生的平均分数高出 40 分,比使用 1/16 参数的 GPT3 高出 15 分。特别的 Qin 在 2018 年英语考试中获得了 138.5 的高分(满分 150)。

此外,该研究还发布了高考基准(Gaokao Benchmark)在线提交平台,包含 2018-2021 年至今 10 篇带注释的英文试卷(并将每年进行扩展),让更多的 AI 模型参加高考,该研究还建立了一个相对公平的人类和 AI 竞争的测试平台,帮助我们更好地了解我们所处的位置。另外,在前几天(2022.06.08)的 2022 年高考英语测试中,该 AI 系统获得了 134 分的好成绩,而 GPT3 只获得了 108 分。

图片

该研究的主要贡献包括:

(1)提出 NLP 方法的演进假说。该研究试图通过探索现代 NLP 技术发展之间的内在联系,从全局的角度建立了「NLP 技术演进假说」。简而言之,该假说的核心思想是:技术的迭代总是沿着这样的方向发展:即开发者只需做更少的事情便可以来设计更好、更通用的系统。

图片


到目前为止,NLP 技术演进已经经历了如图 2 所示的多次迭代:特征工程→架构工程→目标工程→prompt 工程,正在朝着更实际有效的以数据为中心的工程迈进。研究者希望未来能激发更多的科研人员批判性地思考这个问题,把握技术进步的核心驱动力,找到学术发展「梯度上升」路径,做更多有科学意义的工作。

(2)基于演进假说新范式重构预训练(reStructured Pre-training)。该范式将模型预训练 / 微调视为数据存储 / 访问过程,并声称良好的存储机制应该使预期数据易于访问。有了这样一个新范式,该研究能够从 10 个数据源(例如 Wikipedia)中统一世界上 26 种不同类型的信号(例如句子的实体)。在此基础上训练的通用模型在各种任务上取得了很强的泛化能力,其中包括 55 个 NLP 的数据集。

(3)用于高考的 AI。基于上述范式,该研究开发了一个专门用于高考英语测试任务的 AI 系统——Qin。这是世界上第一个基于深度学习的高考英语人工智能系统。Qin 在多年的高考试题上都取得了卓越的成绩:比普通人高出 40 分,仅用 GPT-3 1/16 的参数量就获得了比 GPT-3 高 15 分的成绩。特别是在 2018 年英语试题上,QIN 获得了 138.5 分(满分 150 分)的高分,听力和阅读理解都满分。

(4) 丰富的资源。(1) 为了跟踪现有 AI 技术在实现人类智能方面的进展,该研究发布了一种新基准——Gaokao Benchmark。它不仅提供对现实世界场景中各种实际任务和领域的综合评估,还可以提供人类的表现成绩,以便人工智能系统可以直接与人类进行比较。(2)该研究使用 ExplainaBoard(Liu et al., 2021b)为 Gaokao Benchmark 设置了一个交互式排行榜,以便更多的 AI 系统可以轻松参加 Gaokao Benchmark 并自动获得分数。(3)所有资源都可以在 GitHub 上找到。

此外,AI 在高考英语测试任务上的成功为研究者提供了很多新的思考:AI 技术可以赋能教育,帮助解决教育和教学中的一系列问题。

例如,(a) 帮助教师自动评分,(b) 帮助学生回答有关作业的问题并详细解释,以及 (c) 更重要的是,促进教育公平,让大多数家庭都能获得同等质量的教育服务。这项工作首次以统一的方式整合了世界上 26 个不同的信号,而不是试图区分有监督和无监督的数据,而是关心我们可以多少使用大自然给我们的信息以及如何使用。来自各种 NLP 任务的 50 多个数据集的出色表现显示了以数据为中心的预训练的价值,并激发了更多的未来探索。

重构预训练

解决 NLP 任务的范式正在迅速变化,并且仍在持续,下表列出了 NLP 中的五种范式:

图片


与现有的以模型为中心的设计范式不同,该研究更多地从数据的角度思考,以最大限度地利用已有数据。具体来说,该研究采用数据存储和访问视图,其中预训练阶段被视为数据存储过程,而基于预训练模型的下游任务(例如,情感分类)被视为来自预训练模型的数据访问过程,并声称良好的数据存储机制应该使存储的数据更易于访问。

为了实现这一目标,该研究将数据视为由不同信号组成的对象,并认为一个好的预训练模型应该(1)覆盖尽可能多的信号类型,(2)当下游任务需要时,为这些信号提供精确的访问机制。一般来说,这个新范式包含三个步骤:重构、预训练、微调。

图片


重构、预训练、微调的新范式凸显了数据的重要性,研究人员需要在数据处理上投入更多的工程精力。

重构工程

信号定义

信号是数据中存在的有用信息,可以为机器学习模型提供监督,表示为 n 元组。例如「莫扎特出生在萨尔茨堡」,「莫扎特」、「萨尔茨堡」可以被认为是命名实体识别的信号。通常,可以从不同的角度对信号进行聚类,如下图 6 所示。

图片


数据挖掘

现实世界的数据中包含很多不同类型的信号。重构预训练使这些信号能够充分被利用。该研究将收集到的信号(n 元组)组织在树形图中,如下图 10 所示。

图片


信号提取

下一步该研究进行了信号提取和处理,涉及从不同模态的数据挖掘中获取原始数据、数据清洗和数据规范化。现有的方法大致分为两种:(1)基于规则的,(2)基于机器学习的。在这项工作中,该研究主要关注基于规则的信号提取策略,并为未来的工作留下更多高覆盖率的方法。

信号重构

在从各种数据挖掘中提取出不同的信号之后,接下来重要的一步是将它们统一成一个固定的形式,以便在预训练期间将所有信息一致存储在模型中。prompt 方法(Brown et al., 2020; Liu et al., 2021d)可以实现这个目标,原则上,通过适当的 prompt 设计,它几乎可以将所有类型的信号统一为一种语言模型风格。

该研究将信号分为两大类:通用信号和任务相关信号。前者包含基本的语言知识,可以在一定程度上使所有下游任务受益,而后者则可以使某些特定的下游任务受益。

在 55 种常用的 NLP 数据集上的实验

该研究在 55 个数据集上进行评估,然后将它们分别与 GPT3 和 T0pp 进行比较。与 GPT3 比较的结果如图所示:在除 cb 数据集之外的四个数据集上,RST-All 和 RST-Task 都具有比 GPT3 的小样本学习更好的零样本性能。此外,cb 数据集是这些数据集中最小的,验证集中只有 56 个样本,因此不同的 prompt 在该数据集上的性能会有较大的波动。

图片


与 T0pp 比较结果如表 4-6 所示。例如在 55 个测量的平均性能中,RST-All 在 49 个数据集上击败了 T0pp,并在 47/55 示例上以最大性能胜出。此外,在 55 个数据集的平均性能测试中,RST-Task 在 52 个数据集上优于 T0pp,并在 50/55 个示例下超越 T0pp。这说明重构学习的优越性。

图片


图片


图片


性能最佳的模型 RST-Task 擅长哪些任务?为了回答这个问题,该研究将 RST-Task 模型在零样本设置中的性能与当前 SOTA 模型进行比较,结果如图 13 所示。RST-Task 擅长主题分类、情感分类自然语言推理任务,但在信息提取任务中表现较差。

图片


高考实验:迈向人类水平的 AI

该研究收集了 10 份高考英语试卷,包括 2018 年国考 I/III、2019 年国考 I/II/III、2020 年国考 I/II/III、2021 年全国卷 A/B。这些试卷遵循相同的题型,他们将所有考试题型分为以下七个子类别,如表 7 所示:

图片


每篇高考英语试卷满分 150 分。听力、完形填空、阅读、写作分别占 30、45、40、35。通常,写作部分是主观的,需要人工评估,而其他部分是客观的,可以自动评分。如表 8 所示:

图片


使用表 1 中所示的重构工程循环来构建高考英语 AI 系统,即 Qin。整个过程如图 14 所示:

图片


该研究使用以下 prompt 将原始信号元组转换为 prompt 样本,如表 9 所示:

图片


实验结果如表 10-11 所示,我们可以得出以下结论:在每一份英语试卷中,RST 在两套听力考试中取得了最高的总分,平均分数为 130.6 分;与 T0pp 相比,RST 的性能要远远优于相同模型大小下的 T0pp。在所有设置中,RST 获得的总分平均比 T0pp 高出 54.5 分,最高差距为 69 分(占总分的 46%);与 GPT3 相比,RST 可以在模型大小小 16 倍的情况下取得明显更好的结果。在所有考虑的设置中,RST 获得的总分平均比 T0pp 高 14.0 分,最高为 26 分(占总分的 17%);对于 T0pp,使用黄金和语音转文本成绩单获得的听力分数差异很大,平均为 4.2 分。相比之下,GPT3 和 RST 分别为 0.6 和 0.45,表明 T0pp 的性能对文本质量很敏感。

图片


图片


该研究进行了细粒度分析,以了解不同模型在不同问题子类别上的表现。在图 15-(a) 中,很明显 RST 和 GPT3 在每个问题子类别上都优于 T0pp。

图 15-(b)为近年来模型的表现和学生在全国试卷上的平均表现。很明显,T0pp 在 9/10 试卷上的总分低于学生的平均水平,而 RST 和 GPT3 的表现则超过了学生的平均水平。尤其是这十份试卷中有五份,RST 的总分超过了 130(通常被认为是学生争取的目标分数)。

图片


2022 年高考 - 英语考试(2022.06.08)刚刚结束,了解到模型在最近一年的高考试卷中的表现。该研究用 GPT3 和 RST 进行实验。结果显示 RST 总分达到 134,远高于 GPT3 达到的 108 分。

图片


论文最后还有三个彩蛋,更多详细内容,请查看原论文。


理论NLP
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

生物神经网络技术

生物神经网络(Biological Neural Networks)一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

情感分类技术

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。

暂无评论
暂无评论~