蛋酱、张倩编辑

扒出了3867篇论文中的3万个基准测试结果,他们发现追求SOTA其实没什么意义

在追求 SOTA 之前,研究者们或许更应该认真审视「基准」本身。


基准数据集上比较模型性能是人工智能领域衡量和推动研究进展的重要方式之一。研究者通常基于模型在基准数据集上的一个或一组性能指标进行评估,虽然这样可以快速进行比较,但如果这些指标不能充分涵盖所有性能特征,就可能带来模型性能反映不充分的风险。

目前我们还不清楚这会在多大程度上影响当前的基准测试工作。为了解决这个问题,来自维也纳人工智能与决策研究所的研究者对过往 3867 篇论文中机器学习模型的性能指标进行了分析,所用数据均来自机器学习开放平台「Papers with Code」。

研究结果表明,目前用于评估分类 AI 基准任务的绝大多数指标都有一些缺陷,无法充分反映分类器的性能,特别是用于不平衡的数据集时。


论文链接:https://arxiv.org/ftp/arxiv/papers/2008/2008.02577.pdf


在这次分析中,研究人员查看了 2000 年到 2020 年 6 月期间发表的 3867 篇论文中的 32209 个基准结果,这些结果来自 2298 个数据集。他们发现,这些研究总共使用了 187 个不同的 top-level 指标,其中最常用的指标是「准确率(Accuracy)」,占据基准数据集的 38%。第二和第三常见的指标是「精度(Precision)」、「相关实例在检索到的实例中的占比」和「F 值」(即精度和召回率的加权平均值)。

除此之外,就涵盖自然语言处理的论文子集而言,三个最常见的标准是 BLEU 评分(用于摘要和文本生成等)、ROUGE 评价指标(视频字幕和摘要)和 METEOR(问答)。

研究者表示,超过三分之二(77.2%)的已分析基准数据集中仅使用了一个性能指标,一小部分(14.4%)有两个 top-level 指标,6% 的数据集有三个指标。

论文中提到,这些指标还存在一些不合规的地方,例如将「area under the curve」简称为「AUC」。「area under the curve」是用来衡量准确率的标准,可以根据其绘制的内容分成不同的类别:如果绘制的是精度和召回率,就是 PR-AUC;如果绘制的是召回率和假阳性率,就是 ROC-AUC。

同样的,有几篇论文提到了自然语言处理基准 ROUGE,但未指出使用的是哪种变体。

除了不一致的问题,还有很多论文中使用的基准都是有问题的。准确率通常被用于评估二元和多元分类器模型,当处理不平衡的语料库,并且该语料库在每个类的实例数上存在很大差异时,就不会产生有意义的结果。例如,如果给定的「类别 A」占所有实例的 95%,那么,即使模型把所有实例都预测为「类别 A」,也还是能达到 95% 的准确率

精度和召回率也是有局限性的,因为它们仅关注分类器预测为正(positive)的实例或者真正例(True Positives)。二者都忽略了模型精准预测负实例的能力。至于 F 分数(F-score),有时它们给精度的权重比召回率大,为偏向预测占绝对优势类别的分类器提供了具有误导性的结果。

自然语言处理领域,研究者重点介绍了 BLEU 和 ROUGE 等基准测试的问题。BLEU 不会考虑到召回率问题,也不会与人类对机器翻译质量的判断相关联,并且 ROUGE 没有充分涵盖依赖大量 paraphrasing 的任务,比如说包含许多不同发言者的生成式摘要和抽取式摘要,像会议记录这种。

在所有分析的论文中,都没有使用更好的度量替代方法。例如 Matthews 相关系数、Fowlkes-Mallows 指数,这些度量方法能够解决准确率和 F 分数指标中的一些缺点。实际上,在 83.1% 使用了「准确率」top-level 指标的基准数据集中,没有任何其他的 top-level 指标,而在 60.9% 的数据集中,F 值是唯一的指标。自然语言处理领域的指标也是如此,被证明与人类跨任务判断强相关的 METEOR 仅使用了 13 次,用来评估生成文本与「正常」语言用法契合程度的 GLEU 仅出现了 3 次。

在论文中,研究者也提到了,分析预印本论文而不是科学期刊接收论文可能会影响到研究结论。但有一点是没有疑问的:当前用于评估 AI 基准任务的大多数指标都可能存在无法充分反映分类器性能的问题,尤其是在和不平衡数据集一起使用的时候。

越来越多的学者在呼吁,应该将重点放在人工智能的科研进展上,而不是在基准上取得更好的性能。谷歌大脑团队的前成员 Denny Britz 在今年六月的一次采访中表示,追求 SOTA 不是最明智的做法,因为存在着太多令人困惑的变量,更适合像 OpenAI、DeepMind 等资金雄厚的实验室去攻克。

同时,他也提到:「实验室缺乏资金也许是一件好事,这迫使研究者进行深入思考并找到成本更低且可行的替代技术。」

参考链接:https://venturebeat.com/2020/08/10/researchers-find-inconsistent-benchmarking-across-3867-ai-research-papers/

理论SOTA基准测试
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

真正例技术

被模型正确地预测为正类别的样本。例如,模型推断出某封电子邮件是垃圾邮件,而该电子邮件确实是垃圾邮件。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

假阳性技术

假阳性是指模型因为种种原因把不应该分类成特定情况的人/物错误地分类到了该分类的情况。

多元分类技术

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

推荐文章
暂无评论
暂无评论~