Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟编辑

被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了

来自北京大学、上海 AI Lab 和加州大学圣巴巴拉分校的十位研究者近期发布了一篇关于 in-context learning 的综述论文。

随着语言模型语料库规模的逐渐扩大,大型语言模型(LLM)展现出更多的潜力。近来一些研究表明,LLM 可以使用 in-context learning(ICL)执行一系列复杂任务,例如解决数学推理问题。

来自北京大学、上海 AI Lab 和加州大学圣巴巴拉分校的十位研究者近期发布了一篇关于 in-context learning 的综述论文,详细梳理了 ICL 研究的当前进展。


论文地址:https://arxiv.org/pdf/2301.00234v1.pdf

in-context learning 的核心思路是类比学习,下图描述了语言模型如何使用 ICL 进行决策。

首先,ICL 需要一些样例来形成演示语境,这些样例通常用自然语言模板编写。然后,ICL 将查询问题和演示语境相联系,形成 prompt,并且将其输入语言模型进行预测。与监督学习需要使用反向梯度更新模型参数的训练阶段不同,ICL 不需要参数更新即可使预训练语言模型直接执行预测任务,并且模型有望学习演示样例中隐藏的模式,并据此做出正确的预测。

作为一种新的范式,ICL 有很多吸引人的优势。首先,演示样例用自然语言格式编写,这为与大语言模型关联提供了一个可解释的接口。通过改变演示样例和模板(Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c),这种范式使将人类知识纳入语言模型变得更加容易。第二,in-context learning 类似于人类通过类比学习的决策过程。第三,与监督式训练相比,ICL 是一个无需训练的学习框架。这不仅可以大大降低模型适应新任务的计算成本,而且还可以使语言模型即服务(LMaaS,Sun et al., 2022)成为可能,并轻松应用于大规模的现实任务。

尽管 ICL 有着大好的前景,但仍存在许多值得探究的问题,包括它的性能。例如原始的 GPT-3 模型就具备一定的 ICL 能力,但一些研究发现,通过预训练期间的适应,这种能力还可以获得显著的提升。此外,ICL 的性能对特定的设置很敏锐,包括 prompt 模板、语境样例的选择和样例顺序等。此外,ICL 的工作机制虽然看似合理,但仍不够清晰明了,能够初步解释其工作机制的研究也不多。

本篇综述论文总结道,ICL 的强大性能依赖于两个阶段:

  • 培养大型语言模型 ICL 能力的训练阶段;

  • 大型语言模型根据特定任务演示进行预测的推理阶段。

在训练阶段,语言模型直接按照语言建模目标进行训练,例如从左到右的生成。尽管这些模型并没有专门针对 in-context learning 进行优化,但 ICL 的能力依旧令人惊喜。现有的 ICL 研究基本以训练良好的语言模型为主干。

在推理阶段,由于输入和输出的 label 都是用可解释的自然语言模板表征的,因此 ICL 性能可以从多个角度得到优化。该综述论文进行了详细的描述和比较,并选择合适的例子进行演示,针对不同的任务设计具体的评分方法。

这篇综述论文的大致内容和结构如下图所示,包括:ICL 的正式定义 (§3)、warmup 方法 (§4)、prompt 设计策略 (§5) 和评分函数 (§6)。

此外,§7 深入阐述了当前为揭开 ICL 背后工作原理所做的探索。§8 进一步为 ICL 提供了有用的评估与资源,§9 介绍了能显示出 ICL 有效性的潜在应用场景。最后,§10 总结了 ICL 领域存在的挑战和潜在的方向,为该领域的进一步发展提供参考。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

理论上下文学习GPT
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~