Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

NLP 泛化研究的分类与综述

图片

编辑 | 白菜叶

良好的泛化能力是自然语言处理(NLP)模型的主要需求之一,但「良好的泛化」意味着什么以及如何评估它还没有得到很好的理解。

FAIR、阿姆斯特丹大学(University of Amsterdam)、爱丁堡大学(University of Edinburgh)的研究人员提出了一种用于表征和理解 NLP 泛化研究的分类法。

该分类法基于广泛的文献综述,包含五个轴,泛化研究可能沿这些轴有所不同:他们的主要动机、他们想要解决的泛化类型、他们考虑的数据转移类型、数据转移的来源以及 NLP 建模流程中转移的轨迹。

该团队使用分类法对 700 多个实验进行分类,并使用结果进行深入分析,描绘出 NLP 泛化研究的现状,并就未来值得关注的领域提出建议。

该研究以「A taxonomy and review of generalization research in NLP」为题,于 2023 年 10 月 19 日发布在《Nature Machine Intelligence》。

图片

良好的泛化能力,大致定义为将表征、知识和策略从过去的经验成功转移到新经验的能力,是自然语言处理(NLP)模型以及更广泛的机器学习领域的模型的主要需求之一。对于某些人来说,泛化对于确保模型在对不同于训练数据的数据进行预测时表现稳健、可靠和公平至关重要,这在模型在现实世界中使用时至关重要。其他人认为良好的泛化本质上等同于良好的性能,并认为如果没有它,模型就无法真正执行研究人员想要执行的任务。还有一些人则致力于良好的泛化,因为他们认为模型应该以类似于人类的方式行事,而众所周知,人类具有良好的泛化能力。尽管泛化的重要性几乎是无可争议的,但系统的泛化测试并不是 NLP 领域的现状。

这个问题的根源在于,对于什么是好的泛化、存在哪些类型的泛化、应该如何评估这些泛化以及在不同的场景中应该优先考虑哪些类型,人们几乎没有理解和共识。从广义上讲,泛化是通过评估模型在测试数据集上的表现来评估的,考虑到该数据集与模型训练数据的关系。

几十年来,通常只对这种关系施加一个简单的约束:训练数据和测试数据不同。通常,这是通过将可用数据随机划分为训练和测试分区来实现的。因此,通过在不同但相似的采样数据上训练和测试模型来评估泛化能力,假设这些数据是独立且同分布(i.i.d.)的。在过去的 20 年里,人们在一系列不同的应用中看到了这种随机训练-测试分割的巨大进步。

然而,随着这一进展,人们认识到,对于 NLP 模型来说,在 i.i.d. 上达到非常高的或人类水平的分数。测试集并不意味着该模型可以稳健地推广到各种不同的场景。人们目睹了一系列不同的研究指出神经模型的泛化失败,这些模型在随机训练-测试分割上取得了最先进的分数。

一些研究表明,当模型在 i.i.d. 测试分割上表现良好时,它们可能依赖于简单的启发式方法,而这些启发式方法不能在广泛的非 i.i.d. 场景中稳健地泛化,过度依赖刻板印象,或者依赖于记忆而不是泛化。

相反,另一些则展示了当评估数据在流派、领域或主题方面与训练数据不同,或者当它们代表不同的子群体时,表现会下降的情况。然而其他研究的重点是模型无法从成分、结构、更长的序列或同一问题的略有不同的表述中进行概括。

通过证明传统训练-测试分割的良好性能并不等于良好的泛化能力,这些例子引发了人们对最近的突破实际上反映了什么样的模型能力的质疑,他们认为,NLP 模型评估的研究正在赶上架构和训练机制方面的快速进展。这项工作还表明,对于哪种泛化对于 NLP 模型很重要以及应该如何研究,尚未达成真正的共识。

不同的研究涵盖广泛的与泛化相关的研究问题,并使用广泛的不同方法和实验设置。到目前为止,尚不清楚不同研究的结果如何相互关联,这就提出了一个问题:如果没有 i.i.d. 分裂,应该如何评估泛化?我们如何确定哪些类型的泛化已经得到很好的解决,哪些类型被忽略,或者哪些类型的泛化应该优先考虑?最终,在元层面上,如果没有系统的方法来讨论 NLP 中的泛化,我们如何才能为这些重要问题提供答案?这些缺失的答案阻碍了更好的模型评估和模型开发——如果无法衡量,就无法改进。

在一项名为 GenBench 的计划中,FAIR、阿姆斯特丹大学以及爱丁堡大学的研究团队引入了一个新的框架来系统化和理解泛化研究,试图为上述问题提供答案。

图片

图示:所提出的 NLP 泛化分类法的图形表示。(来源:论文)

他们提出了一个系统化和理解泛化研究的框架。该框架的核心包括泛化分类法,可用于表征五个维度的泛化研究。该分类法是基于对 NLP 泛化论文的广泛回顾而设计的,可用于批判性地分析现有的泛化研究以及构建新的研究。

分类法的五个标称轴描述了执行研究的原因(研究的主要动机)、研究打算评估的内容(旨在解决的概括类型)以及如何进行评估(考虑的数据偏移类型、数据偏移的来源以及研究偏移的位置)。

为了说明该分类法的用途和有效性,研究人员分析了 ACL 选集中有关泛化的 543 篇论文。通过广泛分析,研究人员证明了该分类法适用于广泛的泛化研究,并能够提供该领域的全面地图,观察整体模式并为未来应优先考虑的领域提出建议。得出的结论和建议如下:

1、研究的目标并不总是与其实验设计完全一致。该团队建议未来的工作应该更加明确动机,并应纳入深思熟虑的评估,以确保实验设置与研究目标相匹配(例如,使用 GenBench 评估卡)。

2、出于公平和包容性目标而进行的跨语言研究和泛化研究代表性不足。该团队建议,在今后的工作中,要对这些方面给予更多的重视。

3、针对类似泛化问题的论文在使用的评估设置类型上差异很大。该领域将受益于更多的元研究,这些研究考虑不同实验范式的实验结果如何相互比较。

4、绝大多数泛化研究仅关注建模流程的一个阶段。需要做更多的工作来考虑训练所有阶段的泛化,以优先考虑泛化行为在整个训练过程中持续存在的模型。

5、最近流行的 NLP 模型可以直接测试其从预训练到测试的泛化能力,通常在不考虑(预)训练和测试数据之间的关系的情况下进行评估。该团队建议对此进行改进,并且可以从人类参与者实验中如何评估泛化性中获得启发,其中无法控制和访问参与者的「预训练」数据。

除此之外,研究人员还推出了一个网站,其中包含(1)一套可视化工具来进一步探索他们的结果;(2) 一个搜索工具,允许研究人员查找具有特定特征的研究;(3) 贡献页面,允许研究人员注册新的泛化研究;(4)生成GenBench评估卡的工具,作者可以在文章中使用该工具来全面总结他们的泛化实验。

尽管该分析中提出的评论和结论必然是静态的,但研究人员承诺在发表有关泛化的新论文时保持网站上的条目最新,并且他们鼓励研究人员通过提交新研究来参与在线动态审查。通过提供一个系统框架和一个工具集,可以对泛化进行结构化理解,该团队已经迈出了必要的第一步,使最先进的泛化测试成为 NLP 的新现状。

在线网站:https://genbench.org

论文链接:https://www.nature.com/articles/s42256-023-00729-y 

理论GenBenchNLP
暂无评论
暂无评论~