Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型总弄错「事实」怎么办?这有一份汇聚了300多篇文献的综述

这篇文章对大模型的事实性进行了详细的梳理和总结。

大模型在掌握事实性知识上展现出巨大的能力和潜力,但是其仍然存在一些问题,比如缺乏领域知识,缺乏实时知识,可能会产生幻觉等等,这极大的限制了大模型的应用和可依靠性。近期已经有一些工作针对大模型的事实性进行了研究,但仍未有文章对大模型事实性的定义、影响、评估、分析和增强进行完整的梳理。

西湖大学联合国内外十家科研单位发表了一篇大模型事实性的综述《Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity》,该综述调研了三百余篇文献,重点讨论了事实性的定义和影响、大模型事实性的评估、大模型事实性机制和产生错误的原理、大模型事实性的增强等几个方面的内容,对大模型的事实性进行了详细的梳理和总结。这篇综述的目标是为了帮助学界和业界的研究开发人员更好得理解大模型的事实性,增加模型的知识水平和可靠程度。

图片

  • 论文链接:https://arxiv.org/pdf/2310.07521.pdf

  • 开源链接:https://github.com/wangcunxiang/LLM-Factuality-Survey

  • 作者单位:西湖大学、普渡大学、复旦大学、耶鲁大学、微软亚洲研究院

一、引言

对知识的掌握一直是人工智能系统发展中的基础追求。从历史上看,McCarthy(1963)和 Newell(1976)的开创性工作都强调了知识表示和推理在 AI 系统中的重要性。例如,Cyc 项目开始了一个雄心勃勃的旅程,旨在编码常识知识,希望为 AI 系统提供对世界的全面理解。与此同时,像 Miller(1990)的 WordNet 项目这样的努力试图创建捕捉词语之间语义关系的词汇数据库,从而帮助 AI 系统掌握人类语言的细微差别

而大型语言模型(LLMs)的出现,如 GPT-4,已经在学术界和工业界被视为一个重大的飞跃,特别是它们在掌握和应用知识上展现出巨大的能力和潜力。

使用 LLMs 作为知识载体的优势是多方面的。首先,它们减少了构建和维护专用知识库所需的开销和成本。此外,LLMs 提供了一种更灵活的知识处理和利用方法,允许进行上下文感知的推理,并具有适应新信息或提示的能力。

然而,尽管 LLMs 具有无与伦比的能力,其产生非事实或误导性内容的可能也让人产生担忧。此外,对一些特定领域知识或者实时事实知识的缺乏也极大限制了大模型的使用。一个常见的例子是,当你问 LLM 关于某个知名人士的问题,它可能会根据它所掌握的信息生成答案,但这些信息可能已经过时或者错误。如果该人士最近有重要的生涯变动,例如换工作或获得奖项,而这些信息并不在 LLM 的训练数据中,那么它生成的答案就会落后于现实。同样,如果其训练数据中包含了错误的信息,例如错误的出生日期或误报的死亡,那么它也可能会复制这些错误。

作者旨在为 LLMs 中的事实性研究提供一个详尽的概览,深入探讨四个关键维度:1)事实性问题的定义及其影响;2)评估事实性的技术及其定量评估;3)分析 LLMs 中事实性的基本机制并确定事实错误的根本原因;4)增强 LLMs 事实性的方法。

作者将 LLMs 的使用分为两个主要设置:没有外部知识的 LLMs,如 ChatGPT,以及检索增强型 LLMs,如 BingChat。

本次调查的完整结构如下图中所展示:

图片

二、事实性问题

图片

当作者谈到大模型中的事实性时,指的是大型语言模型生成符合事实信息的内容的能力,这些事实信息包括常识、世界知识和领域事实知识,这些事实信息的来源可以是词典、维基百科或来自不同领域的教科书。作者在上表中展示了 LLMs 中的各种事实性问题实例。例如,LLM 可能在特定领域的事实知识,如医学或法律领域,上存在缺陷。此外,LLM 可能不知道其最后更新后发生的事实。还有一些情况,尽管 LLM 拥有相关的事实,但未能推理出正确的答案。在某些情况下,它甚至可能忘记或无法回忆之前学到的事实。

图片

事实性问题与大型语言模型领域的几个热门话题密切相关,包括幻觉、过时的信息和领域特异性。这些话题的核心都是解决同一个问题:LLMs 生成与某些事实相矛盾的内容的潜力,无论这些内容是凭空产生的、过时的信息,还是缺乏领域特定的知识。因此,作者认为这三个话题都属于事实性问题的范畴。 

然而,值得注意的是,尽管这些话题是相关的,但它们各自有一个独特的焦点。

幻觉和 LLMs 中的事实性问题都涉及到生成内容的准确性和可靠性,但它们解决的是不同的方面。幻觉主要围绕 LLMs 生成无根据或不合理的内容。从 GPT4 technical report和一些Hallucination相关工作的定义中,作者将幻觉理解为模型倾向于 “产生与某些来源不符的无意义或不真实的内容”。这与强调模型学习、获取和利用事实知识的事实性问题是不同的。具体对比如下表:

图片

而过时的信息则关注先前准确的信息被更近期的知识所取代,或者新的不存在的事件发生的情况。最后,领域特异性强调生成需要特定、专门知识的内容。尽管存在这些差异,但这三个话题都有助于更深入地了解 LLMs 中更广泛的事实性问题。

这篇综述关注两种设定:

  • 1. 标准 LLMs:直接使用 LLMs 进行回答和聊天;

  • 2. 检索增强型 LLMs:检索增强的生成。

三、事实性的评估

图片

本章关注于大模型事实性的评估指标、基准测试、评估方法、特定领域的事实性评估。

事实性评估指标:

作者介绍了通常用于 NLG 的几种自动评价指标,同时特别检查了事实性的指标。

本文将这些指标分为以下几类:

  • (1) 基于规则的评价指标;

  • (2) 基于神经网络评价指标;

  • (3) 人类评价指标;

  • (4) 大模型评价指标。

图片

事实性基准测试:

作者介绍了用于大模型事实性评估的基准测试,同时介绍了其任务类型、数据集、评价指标、以及目前代表性大模型在其上的表现,具体内容如下表所示:

图片

事实性评估方法:

作者介绍了评估大模型事实性但没有引入新评价基准的工作,重点在于那些开创了评估技术、指标的工作,或为 LLMs 的事实性评估提供了独特见解的研究。

作者介绍了每个工作的任务、数据集、指标、是否有人类评估、被评估的大模型以及粒度,具体如下图所示:

图片

同时有一些增强模型事实性的工作也使用了一些传统任务的数据集,作者也将这些工作的评价方式和数据集囊括其中,如下表所示:

图片

特定领域的事实性评估:

针对特定领域事实性评估的基准。该表展示了领域、任务、数据集,以及在相应研究中评估的 LLMs:

图片

四、事实性的分析

图片

本章关注于大模型事实性的内在机制以及大模型产生事实性错误的原因。

具体来说,大模型事实性内在机制的分析包括大模型存储、处理事实知识和产生事实性内容的机制,尤其是知识存储、知识完整性和认知、上下文影响和知识冲突的方面的分析;而事实性错误的来源分为三个层面,分别是模型层面,包括领域知识缺乏、信息过时、记忆不全、遗忘和推理错误等;检索层面,包括信息不足、扰乱性信息、信息不被模型接受、误解相关信息等;推理层面,包括雪球效应、错误解码和展示误差等。

五、事实性的增强

图片

本章关注于大模型事实性增强的方法,包括应用在独立大模型(Standalone LLMs)上的和检索增强的大模型(Retrieval Augmented LLMs)上,以及对领域知识增强的大模型(Domain Factuality Enhanced LLMs)也进行了详细的讨论。

当关注独立大模型生成时,增强策略可以大致分为三大类:

  • 1.从无监督语料库中获取事实知识:这涉及在预训练期间优化训练数据,例如通过去重和强调信息性词汇。

  • 2.从有监督数据中获取事实知识:这一类别的例子包括有监督的微调策略,重点是使用带标签的数据进行微调,或从知识图谱这样的结构化知识中进行整合,或对模型参数进行精确调整。

  • 3.生成时从模型中最好地提取事实知识:这一类是为了模型能够输出事实性知识,包括了像 Multi-agent 这样的方法和创新的 prompts,也包括新的解码方法,如事实核心抽样。

当关注检索增强的大模型生成时,增强策略可以大致分为三大类:

  • 1.交互式检索和生成:尽管检索系统旨在获取相关信息,但它们有时可能无法检索到准确或全面的数据。此外,LLMs 可能难以识别或甚至被检索到的内容误导。实施交互式检索机制可以指导 LLM 进行更好的内容生成。相关工作包括将 Chain-of-Thoughts 推理中间步骤应用到检索中,以及使用基于 LLM 的 agent 框架,让LLM和外部知识 API 进行交互,反馈修正LLM生成的事实错误。

  • 2.让 LLMs 适应检索生成:仅仅使用 LLMs 中的检索信息并不总是能增强它们回答事实性问题的能力,这可能是模型不能适应检索到的数据。而有些适应策略能帮大模型更好得使用检索的数据,具体来说,作者探索了三类方法:基于提示的方法、基于 SFT 的方法和基于 RLHF 的方法。这些方法增强了检索的准确率,或是让LLM有了引用检索来源的能力。 

  • 3.从其他知识库中检索:这一类别包括从外部参数记忆或知识图谱中检索的方法,以增强模型的事实性知识。

作者选取了一部分事实性增强的方法,展示其效果,包括评估的数据集、指标,以及 baseline 效果和使用他们方法后的效果,如下图所示:

图片

领域事实性增强的大模型:

作者列出了针对特定领域事实性增强的 LLMs。其中涵盖了多个领域,包括医疗 / 健康(H)、金融(F)、法律 / 法务(L)、地球科学 / 环境(G)、教育(E)、食品检测(FT)和家居装修(HR)。基于特定领域 LLMs 的实际应用场景和作者之前对增强方法的分类,他们总结了几种常用的增强技术:

  • 1. 持续预训练:一种通过使用特定领域数据持续更新和微调预训练语言模型的方法。这个过程确保模型在特定领域或领域内保持最新和相关性。它从一个初始的预训练模型开始,通常是一个通用语言模型,然后使用特定领域的文本或数据对其进行微调。随着新信息的出现,模型可以进一步微调以适应不断发展的知识领域。持续预训练是维持 AI 模型在快速变化的领域,如技术或医学中的准确性和相关性的强大方法。

  • 2.持续 SFT:另一种增强 AI 模型事实性的策略。在这种方法中,模型使用特定领域的标记或注释数据进行微调。这个微调过程使模型能够学习和适应领域的细微差别和特点,提高其提供准确和与上下文相关的信息的能力。当随着时间的推移可以获得特定领域的标记数据时,它尤其有用,例如在法律数据库、医疗记录或财务报告的情况下。

  • 3.从零开始训练:这涉及从最小的先验知识或预训练开始学习过程。这种方法可以类比为用一个空白的板子教机器学习模型。虽然它可能没有利用预先存在的知识的优势,但在处理完全新的领域或任务时,如果只有有限的相关数据可用,从零开始训练可能是有利的。它允许模型从头开始建立其理解,尽管它可能需要大量的计算资源和时间。

  • 4.外部知识:这涉及用外部来源的信息增强语言模型的内部知识。这种方法允许模型访问数据库、网站或其他结构化数据存储库,以验证事实或在回应用户查询时收集额外的信息。通过整合外部知识,模型可以增强其事实检查能力,并提供更准确和与上下文相关的答案,特别是在处理动态或快速变化的信息时。

对于每一个特定领域大模型,作者列出了其领域、模型名称、评估任务和数据集,以及各自的增强方法,如下表中呈现:

图片

六、结论

在这次的综述中,作者系统地探索了大型语言模型(LLMs)中事实性问题的复杂景观。首先,作者定义了事实性的概念,然后讨论了其更广泛的影响。之后,作者进入事实性评估部分,包括基准测试、评估指标、特定的评估研究和特定领域的评估。随后,作者深入探讨了大模型事实性的内在机制。作者进行了事实性增强技术的讨论,无论是对于纯大模型还是检索增强的大模型,并关注了特定领域知识增强的大模型。

尽管这次综述中详细描述了许多进展,但仍然存在一些巨大的挑战。由于自然语言固有的复杂性,事实性的评估仍然是一个复杂的难题。此外,大模型如何存储、更新事实知识和产生事实性内容的核心过程尚未完全揭示。尽管某些事实增强技术,如持续训练和检索,显示出前景,但它们仍存在局限性。

展望未来,寻求忠实于事实的大模型既带来了挑战,也带来了机会。未来的研究可能会更深入地了解大模型的神经结构,开发更稳健的评估指标,并在增强技术上进行创新。随着大模型越来越多地融入数字生态系统,确保它们的事实可靠性将始终是至关重要的,这将对 AI 社区及其以外的领域产生影响。

产业西湖大学、复旦大学、微软亚洲研究院
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~