陈萍、杜伟机器之心编译

GPT-3最新测试出炉:57项任务表现均低于专家水平,最不擅长STEM

近日,来自加州大学伯克利分校以及哥伦比亚大学等机构的研究者联合发表了一篇关于测试 GPT-3 的论文研究,测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务。


前段时间,OpenAI 又放大招,开放了 GPT-3 的 API,结果不负众望,GPT-3 展现了近乎拟人的能力。只需要少量示例,就能学会生成网页、图表、代码、文本、推理等内容。

但是,GPT-3 真的如此智能吗?对于下面这两个问题能否给出正确的回答呢?

当从静止状态放下一个球时,它会以 9.8 m /s² 的加速度向下加速。如果假设没有空气阻力而将其向
下扔,则其离开手后的加速度为?*
(A)9.8 m /s²
(B)大于 9.8 m /s²
(C)小于 9.8 m /s²
(D)除非给出掷球速度,否则不能计算。
同源结构常被作为自然选择过程的证据。以下都是同源结构的例子,除了?*
(A) 鸟的翅膀和蝙蝠的翅膀
(B) 鲸鱼的鳍和人的胳膊
(C) 海豚的胸鳍和海豹的鳍
(D) 昆虫的前肢和狗的前肢

就如向 GPT-3 提出疑问:「太阳有几只眼睛?」,对于这种没有常识的问题,GPT-3 同样也给出了答案,「太阳有一只眼睛」。从中我们可以得出一二,GPT-3 可能在某些方面表现的非常智能,但在其他方面效果不好。又回到上面列出的问题,GPT-3 能否给出正确的答案?现在有没有非常全面的测试 GPT-3 的研究呢?

近日,来自加州大学伯克利分校的 Dan Hendrycks 与来自哥伦比亚大学的 Collin Burns 等人联合发表了一篇论文《Measuring Massive Multitask Language Understanding》。该论文提出了一种新的测试来衡量多个大型文本模型的多任务准确率
  • 论文地址:
    https://arxiv.org/pdf/2009.03300.pdf
  • 测试地址:
    https://github.com/hendrycks/test

引言

该论文提出了一个新的测试,用来衡量文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务。为了在这项测试中获得较高的准确率,模型必须具备广泛的世界知识和解决问题的能力。

研究人员发现,虽然近期的模型具有接近随机概率的准确率,但最大的 GPT-3 模型比随机概率平均提高了近 20 个百分点。然而,在 57 项任务中的每一个任务中,效果最好的模型仍然需要大量的改进才能达到人类水平的准确率

此外,模型也有不平衡的表现,经常不知道什么时候错了。更糟糕的是,模型在一些重要的社会问题,如道德和法律上仍然有近乎随机的准确率通过综合评估模型在学术和专业理解的广度和深度,研究人员提出的测试可用于分析多任务模型,并找出关键缺点

具体而言,在这项研究中,研究人员引入了一个用于评估不同科目模型的新基准。此外,通过只在零样本和少样本设置下对模型进行评估,研究人员还设计了一个用以衡量模型在预训练中获得知识的基准。这使得基准测试更具挑战性,也更类似于人类评估的方式。

基准涵盖了 STEM、人文科学、社会科学等领域的 57 门学科。它的难度从初级水平到高级专业水平不等,旨在测试领域知识和解决问题的能力。学科范围从数学和历史等传统领域,到法律和伦理等更专业的领域。主题的粒度和广度使得基准测试非常适用于识别模型的盲点。

多任务测试

研究人员创建了一个大规模的多任务测试,由来自不同知识分支的多项选择题组成。这项测试涉及人文科学、社会科学、自然科学和其他一些对某些人来说很重要的领域。这里总共有 57 个任务,所有这些都列在附录 B 中。

数据集中的问题是由研究生和本科生从免费在线资源中手动收集的。这些问题不仅包括研究生入学考试以及美国医学执照考试的练习题,还包括为本科课程和牛津大学出版社图书读者设计的问题。有些任务涵盖某一学科,如心理学。

研究人员总共收集了 15908 个问题,并将这些问题分成了少样本开发集、验证集和测试集。少样本开发集每个学科有 5 个问题;验证集由 1543 个问题组成,用来选择超参数;测试集有 14080 个问题。每个学科至少包含 100 个测试实例,比大多数用来评估人的考试都要长。

如下为人文科学的问题示例:

社会科学的问题示例:

实验

首先是模型大小和精度 。下表 1 比较了不同大小 GPT-3 的少样本准确率

结果发现有三个较小的 GPT-3 模型比较接近随机准确率(约 25%)。此外还在少样本设置下评估了 110 亿参数的 T5 模型,并证实 T5 同样具有随机准确率

相比之下,研究人员发现 1750 亿参数的 X-Large GPT-3 模型的性能明显优于随机模型,准确率为 43.9%。

其次是不同学科的比较。在测试时,研究人员发现 GPT-3 在性能上存在偏差,并且存在一些实质性的知识空白。

下图 6 显示了 57 项任务中 GPT-3 的准确率。结果表明GPT-3 在所有任务上的表现均低于专家水平,其准确率范围从美国外交政策的 69%到大学化学的 26%

总的来说,GPT-3 在高度程序化问题上表现不佳 。图 6 表明,STEM 学科与语言学科(verbal subjects)相比准确率较低。事实上,10 个最低准确率任务中有 9 个是 STEM 学科,尤其是数学及计算。研究人员推测这是因为:相比程序化知识,GPT-3 更容易获得陈述性知识。例如,初等数学中的许多问题都要求对算术应用顺序运算(即括号指数乘除加减的优先次序)。

在下图 7a 中,GPT-3 知道代表这种次序的缩写 PEMDAS。但是,它却不能始终如一地将 PEMDAS 应用于实际问题。另一方面,程序化理解并不是 GPT-3 唯一的弱点。研究人员发现一些口头任务,如道德情景和专业法律方面的准确率也特别低。

该研究的测试还表明 GPT-3 获得的知识与人类大有不同。例如,GPT-3 以一种不常见的顺序学习主题。GPT-3 在大学医学(47.4%)和大学数学(35.0%)上的准确率优于计算密集型基础数学(29.9%)。GPT-3 展示了不同寻常的广度,但没有能力掌握单个主题。该论文的测试表明 GPT-3 有许多知识盲点,并在不同学科的评估能力是不平衡的。
理论最新测试GPT-3
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章
暂无评论
暂无评论~