Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Panda报道

LLM评估综述论文问世,分三方面全面总结,还带资料库

这是一篇关于评估大型语言模型的研究,文中参考了许多重要文献,值得一读。

不仅如此,该论文作者还创建了一个开源资料库,让用户可以方便地添加和共享相关的新研究:https://github.com/MLGroupJLU/LLM-eval-survey

图片

对科学家来说,理解智能的本质以及确定机器是否能具有智能是极具吸引力的课题。人们普遍认为,人类之所以有能力执行推理、检验假设以及为未来做准备,就是因为我们具有真正的智能。人工智能研究者关注的是开发基于机器的智能。正确的度量方式有助于理解智能。举个例子,为了测试人类的智能水平 / 智力,常常会用到 IQ 测试。

而在 AI 领域,AI 开发的一个长期目标是让 AI 通过图灵测试(Turing Test),这需要一个能被广泛认可的测试集,通过辨别 AI 和人类对其的响应来评估 AI 的智能水平。研究者普遍相信,如果计算机能成功通过图灵测试,那么就可以认为它具有智能。因此,从更广泛的视角看,AI 的编年史可描述为智能模型和算法的创造和评估的时间线。每当出现一个新的 AI 模型或算法,研究者都会使用有难度的特定任务来仔细评估其在真实世界场景中的能力。

举个例子,曾在上世纪 50 年代被吹捧为通用人工智能(AGI)方法的感知器算法之后被证明名不符实,因为其难以求解 XOR(异或)问题。之后兴起并得到应用的支持向量机(SVM)和深度学习都是 AI 发展图景中的重大里程碑,但它们也都各有短板。

过去的研究历程向我们揭示了评估的重要性。评估是一种重要工具,能帮助我们识别当前系统的局限性并让我们获得设计更强模型的信息。

目前而言,学术界和产业界最感兴趣的技术方法是大型语言模型(LLM)。已有的研究表明:LLM 表现优异,已经成为 AGI 的有力候选。相比于之前受限于特定任务的模型,LLM 有能力解决多种不同任务。由于 LLM 既能应对一般性自然语言任务,又能处理特定领域的任务,因此越来越受有特定信息需求的人的欢迎,比如学生和病人。
 
评估对于 LLM 的成功来说至关重要,原因如下。

首先,评估 LLM 有助于我们更好地了解 LLM 的优势和劣势。举个例子,PromptBench 基准测试表明,当前的 LLM 对对抗性 prompt 很敏感,因此为了更好的性能,必需仔细设计 prompt。

第二,更好的评估可以为人类与 LLM 的交互提供更好的指引,这能为未来的交互设计和实现提供思路。

第三,LLM 由于广泛适用于多种任务,因此确保其安全性和可靠性就至关重要了,尤其是在金融和医疗等行业。

最后,随着 LLM 能力增多,其也在越来越大,因此现有的评估方法可能不足以评估它们的能力和潜在风险。这就引出了这篇综述论文的目标:让 AI 社区认识到 LLM 评估的重要性并指引有关 LLM 评估协议的未来新研究。

随着 ChatGPT 和 GPT-4 的推出,已经出现了一些旨在从不同方面评估 ChatGPT 和其它 LLM 的研究工作(图 2),其中涵盖很多因素,包括自然语言任务、推理、稳健性、可信度、医学应用和道德考量。尽管如此,仍然缺乏一篇涵盖整个评估图景的全面综述。此外,LLM 的持续演进还会引入需要评估的新方面,这会给现有评估带来困难,并由此更加需要彻底的和多方面的评估技术。尽管有一些研究工作宣传 GPT-4 可以被视为 AGI 的星星之火,但另一些人则反对这个说法,因为 GPT-4 的评估方法本质上还是启发式的。

这篇来自吉林大学、微软亚洲研究院和卡内基・梅隆大学等机构论文对大型语言模型评估进行了全面综述。如图 1 所示,作者从三个维度对现有研究工作进行了探索:1) 评估什么,2) 何处评估,3) 如何评估。

图片

论文地址:https://arxiv.org/pdf/2307.03109.pdf

具体来说,「评估什么」涵盖 LLM 现有的评估任务,「何处评估」涉及对所用的数据集和基准的适当选择,「如何评估」关注的是给定任务和数据集下的评估过程。这三个维度是 LLM 评估不可或缺的一部分。之后,作者还会讨论 LLM 评估领域潜在的未来挑战。

图片

图 1:论文的结构

图片

图 2:LLM 评估论文随时间的趋势,从 2020 年到 2023 年 6 月(6 月数据包含 7 月的部分论文)

本文的主要贡献包括:

  1. 本文从三方面全面地概述了 LLM 评估:评估什么、何处评估、如何评估。其中采用的分类方法是普适的并且涵盖 LLM 评估的整个生命周期。
  2. 在「评估什么」方面,本文总结了多个领域的现有任务,并得到了有关 LLM 的成功和失败案例的富有洞见的结论。
  3. 在「何处评估」方面,本文对评估指标、数据集和基准进行了总结,可帮助读者透彻地理解 LLM 评估的当前图景。在「如何评估」方面,本文探索了当前协议并总结了新的评估方法。
  4. 本文还进一步讨论了评估 LLM 方面的未来挑战。为了促进构建一个有关 LLM 评估的合作社区,作者还维护着一个 LLM 评估相关材料的资源库并已开源:https://github.com/MLGroupJLU/LLM-eval-survey

背景

大型语言模型(LLM)

GPT-3、InstructGPT 和 GPT-4 等许多 LLM 背后的核心模块是 Transformer 中的自注意力模块,Transformer 则是语言建模任务的基本构建模块。Transformer 已经为 NLP 领域带来了变革,因为其能高效处理序列数据、支持并行化并能捕获文本中的长程依赖关系。

LLM 的一大关键特性是上下文学习,即模型可被训练基于给定的上下文或 prompt 生成文本。这让 LLM 可以生成更为连贯且更长上下文相关的响应,从而让它们更适用于交互式和会话应用。

根据人类反馈的强化学习(RLHF)是 LLM 的另一重要方面。该技术是使用人类生成的响应作为奖励对模型进行微调,从而让模型可以学习自身的错误并随时间提升性能。

图片

表 1:对比传统机器学习深度学习和 LLM

AI 模型评估

AI 模型评估是评估模型性能的重要步骤。目前已有一些标准模型评估协议,包括 K-fold 交叉验证、Holdout 验证、Leave One Out 交叉验证(LOOCV)、Bootstrap 和 Reduced Set。

图片

图 3:AI 模型的评估过程

随着 LLM 应用增多,其可解释性却越来越差,因此现有的评估协议可能不足以彻底评估 LLM 的真实能力。

评估什么

开发语言模型(尤其是大型语言模型)的最初目标是提升 AI 在自然语言处理任务上的性能,其中包含理解任务和生成任务。正因为此,大多数评估研究关注的也主要是自然语言任务。

自然语言处理任务

图片

表 2:基于自然语言处理任务的评估概况:NLU(自然语言理解,包括 SA(情感分析)、TC(文本分类)、NLI(自然语言推理)和其它 NLU 任务)、Rng.(推理)、NLG(自然语言生成,包括 Summ.(摘要)、Dlg.(对话)、Tran.(翻译)、QA(问答)和其它 NLG 任务)和 Mul.(多语言任务)

稳健性、道德、偏见和可信度

LLM 的评估涵盖稳健性、道德、偏见和可信度等关键方面。为了全面评估 LLM 的表现,这些因素的重要性正在提升。 

图片

表 3:在稳健性、道德、偏见和可信度方面的 LLM 评估研究概况

社会科学

社会科学研究的是人类社会和个人行为,包括经济学、社会学、政治学、法学等学科。评估 LLM 在社会科学领域的表现对于学术研究、政策制定和社会问题解决而言具有重要意义。这些评估有助于推进模型在社会科学领域的应用并改善模型的质量,提升对人类社会的理解以及推动社会进步。

自然科学和工程学

评估 LLM 在自然科学和工程学领域的表现有助于引导科学研究的应用和发展、技术开发以及工程研究。

图片

表 4:在自然科学和工程学任务方面的评估研究概况,其中涉及三个方面:数学、科学和工程学

医学应用

LLM 在医学领域的应用最近引起了极大的关注。这里从四个方面介绍 LLM 在医学领域的应用:医学问答、医学检查、医学评估和医学教育。

图片

表 5:LLM 的医学应用方面的评估研究概况,其中涉及四个方面:Med. Exam.(医学检查)、Med. Ass.(医学评估)、Med. QA(医学问答)和 Med. Edu.(医学教育)

智能体应用

LLM 不仅专注于一般语言任务,而是可以用作一种强大工具,应对不同领域的任务。通过为 LLM 配备外部工具,可以极大扩展模型能力。

其它应用

除了上述分类,LLM 还能用于其它一些不同领域,包括教育、搜索和推荐、性格测试以及特定领域的应用。

图片

表 6:LLM 的其它应用方面的评估研究概况,其中涉及四个方面:Edu.(教育)、Sea. & Rec. (搜索和推荐)、Pers. Test.(性格测试)和 Specific applications(特定领域的应用)

何处评估:数据集和基准

LLM 评估数据集的作用是测试和比较不同语言模型在各种任务上的性能。GLUE 和 SuperGLUE 等数据集的目标是模拟真实世界的语言处理场景,其中涵盖多种不同任务,如文本分类机器翻译、阅读理解和对话生成。这里不关注用于语言模型的任何单个评估数据集,关注的则是用于评估 LLM 的基准

由于 LLM 在不断演进,因此基准也会变化,这里列出了 13 个常用的基准。每个基准侧重于不同的方面和评估指标,都为各自领域提供了宝贵的贡献。为了更好地进行总结,这里将基准分为两类:通用语言任务基准和特定下游任务基准

图片

表 7:LLM 评估基准概况 

如何评估

常用的评估方法分为两大类:自动评估和人类评估。顾名思义,这里就不多介绍了。

总结

任务:LLM 的成功和失败案例 

现在总结一下 LLM 在不同任务中的成功和失败案例。注意,以下结论都是基于现有评估工作得出的,结果可能取决于具体的数据集。 

LLM 擅长做什么? 

  • LLM 熟练掌握了文本生成,能生成流畅和精确的语言表达。 
  • LLM 能出色地应对涉及语言理解的任务,比如情感分析和文本分类。 
  • LLM 展现出了稳健的上下文理解能力,让它们能生成与给定输入相符的连贯响应。 
  • LLM 在多种自然语言处理任务上的表现都值得称赞,包括机器翻译文本生成和问答。 

LLM 不擅长做什么? 

  • LLM 可能会在生成过程中展现出偏见和不准确的问题,从而得到带偏见的输出。 
  • LLM 在理解复杂逻辑和推理任务方面的能力有限,经常在复杂的上下文中发生混淆或犯错。 
  • LLM 处理大范围数据集和长时记忆的能力有限,这可能使其难以应对很长的文本和涉及长期依赖的任务。
  • LLM 整合实时和动态信息的能力有限,这让它们不太适合用于需要最新知识或快速适应变化环境的任务。 
  • LLM 对 prompt 很敏感,尤其是对抗性 prompt,这会激励研究者开发新的评估方法和算法,以提升 LLM 的稳健性。 
  • 在文本摘要领域,人们观察到大型模型可能在特定评估指标上表现不佳,原因可能在于这些特定指标的固有局限性和不足之处。
 
基准和评估协议

随着 LLM 的快速发展和广泛使用,在实际应用和研究中评估它们的重要性变得至关重要。这个评估过程不仅应该包括任务层面的评估,还应该包括它们在社会方面的潜在风险。表 8 总结了现有的基准和评估协议。

图片

表 8:新型 LLM 评估协议概况

巨大挑战

最后来看看 LLM 评估研究方面面临的挑战。作者认为,为了推动 LLM 和其它 AI 模型的成功发展,应当将评估当作一门关键性学科来对待。现有的协议不足以透彻地评估 LLM,还有许多挑战有待攻克,下面将简单罗列出这些挑战,但它们也是 LLM 评估方面的未来研究的新机会。

  • 设计 AGI 评估基准
  • 对完整行为进行评估
  • 稳健性评估
  • 动态和演化评估
  • 有原则且值得信任的评估
  • 支持所有 LLM 任务的统一评估
  • 超越评估:LLM 强化
理论大模型评估
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

图灵测试技术

图灵测试(The Turing test)由艾伦·麦席森·图灵发明,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

推荐文章
暂无评论
暂无评论~