Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

图片

                         图表 1: 大模型的通用训练流程 [1]

人工智能的前沿领域,大语言模型(Large Language Models,LLMs)由于其强大的能力正吸引着全球研究者的目光。在 LLMs 的研发流程中,预训练阶段占据着举足轻重的地位,它不仅消耗了大量的计算资源,还蕴含着许多尚未揭示的秘密。根据 OpenAI 的研究,在 InstructGPT 的开发过程中,预训练阶段近乎耗尽了全部的算力和数据资源,占比高达 98% [2]

图片

                             图表 2: 带着笑脸的修格斯 [3]

预训练模型宛如一头未经雕琢却力量强大的猛兽。在经历了漫长的预训练阶段后,模型已经建模了大量而又丰富的世界知识。借助高质量的对话数据进行有监督微调(Supervised Fine-Tuning,SFT),我们可以使这个「野兽」理解人类的语言、适应社会的需要;而后通过基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)的进一步优化,使其更精准地契合用户的个性化诉求,在价值观上与人类「对齐」,从而能更好地服务于社会。诸如 SFT 和 RLHF 等相关对齐阶段,可以视为对这头猛兽的驯化过程。但我们的目标不止于此,更重要的是揭示赋予 LLMs 独特能力的根本过程 —— 预训练(The Pre-training Period)。预训练阶段犹如一个蕴藏无限可能的宝盒,亟待科研人员深入挖掘其中更为深远的价值及运作机制。

当前,多数开源的 LLMs 仅公布模型权重与性能指标,而深入理解模型行为则需要更多详尽信息。LLM360 [4] 与 OLMo [5] 的全面开源,向研究者和社区提供了包括训练数据、超参配置、预训练过程中的多个模型权重切片以及性能评测在内的全方位深度解析,大大增强了 LLMs 训练过程的透明度,助力我们洞悉其运作机理。

人类到底能否信任 LLMs?面对这一核心问题,上海 AI Lab、中国人民大学、中国科学院大学等机构从预训练阶段入手,试图洞察 LLMs 这个庞然大物。团队致力于剖析 LLMs 如何在预训练阶段内构建可信的相关概念(Trustworthiness),并试图探索预训练阶段是否具备引导和提升最终 LLMs 可信能力的潜力。

图片

  • 论文标题:Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models
  • 论文链接:https://arxiv.org/abs/2402.19465
  • 项目主页:https://github.com/ChnQ/TracingLLM

这项工作首次给出了如下观察:

  • 发现 LLMs 在预训练的早期阶段就建立了有关可信概念的线性表征,能够区分可信与不可信的输入
  • 发现预训练过程中,LLMs 表现出对于可信概念类似于「信息瓶颈」先拟合、再压缩的学习过程
  • 基于表征干预技术,初步验证了 LLMs 在预训练过程中的切片可以帮助提升最终 LLMs 的可信能力

图片

                                图表 3: 文章概览图

在本研究中,团队使用了 LLM360 [4] 开源项目所提供的丰富 LLM 预训练资源。该项目以 1.3 万亿 Tokens 的预训练数据预训练出其基础的 7B 模型 Amber,并均匀地开源了 360 个预训练过程中的模型参数切片。此外,基于 Amber,LLM360 进一步发布了两个微调模型:使用指令微调优化的 AmberChat 模型和经过安全对齐优化的 AmberSafe 模型。

1 LLMs 在预训练过程中迅速建立起有关可信概念的线性表征

数据集:本文主要探究可信领域下的五个关键维度:可靠性(reliability)、毒性(toxicity)、隐私性(privacy)、公平性(fairness)和鲁棒性(robustness)。每个维度下,团队均选取了具有代表性的相关数据集来辅佐研究:TruthfulQA、Toxicity、ConfAIde、StereoSet 以及经过特定扰动处理的 SST-2。团队根据原数据集的设定,对每个样本进行标注,以标识每个输入样本是否包含不正确、有毒、隐私泄露、有歧视和被扰动的信息。

实验设置:本文采用线性探针(Linear Probing)技术 [6] 量化 LLMs 内部表征对可信概念的建模情况。

具体地,对于某个可信维度下的数据集,团队收集所有切片在该数据集下的内部表征,对于每个切片的每一层表征都训练一个线性分类器线性分类器在测试集上的正确率代表着模型内部表征区分不同可信概念的能力。前 80 个切片的实验结果如下(后续完整切片的实验结果请移步正文附录,实验趋势大体相同):

图片

                              图表 4: 线性探针实验结果

上图所示实验结果表明:

  • 随着预训练的进行,在所选取的五个可信维度上,大模型中间层的表征可以很好地区分是否可信;
  • 对于区分某个样本是否可信,大模型在预训练的早期阶段(前 20 个切片)就迅速学习到相关概念。

2 信息瓶颈视角下审视 LLMs 有关可信概念的预训练动态

受到利用互信息来探测模型在训练过程中动态变化的启发 [7],本文也利用互信息对 LLMs 表征在预训练过程中的动态变化做了初步探索。团队借鉴了 [7] 中使用信息平面分析传统神经网络训练过程的方法,分别探究了模型表征 T 与五个原始数据集 X 之间的互信息,以及模型表征 T 与数据集标签 Y 之间的互信息。其中,在 Reliability 维度上的实验结果如下(其他可信维度的实验结果请移步原文附录):

图片

                               图表 5: 互信息实验结果

从图中可以看出,T 与 X 的互信息呈现出先上升后下降的趋势,而 T 与 Y 的互信息则持续上升。综合来看,团队发现这些趋势与经典论文 [7] 中描述的先「拟合」 (fitting) 后「压缩」 (compression) 两个阶段相吻合。具体来说,大语言模型在初始随机化时并不具备保留信息的能力,因此互信息接近于 0;随着预训练的进行,大模型逐渐具备语言理解和概念建模的能力,因此互信息持续增长;随着预训练的进一步进行,大模型逐渐学会压缩无关信息并提取有效信息,因此 T 和 X 的互信息减少,而 T 和 Y 的互信息继续增长。

从互信息的角度,这是一个很有趣的发现。尽管定义和实验设置存在细微的差异,但大语言模型和传统神经网络的预训练阶段都能被划分为「拟合」和「压缩」两个阶段。这暗示着大语言模型和传统神经网络的训练过程中可能存在一些共通之处。这一发现不仅丰富了团队对大模型预训练动态的理解,也为未来的研究提供了新的视角和思路。

3 预训练切片如何助力最终 LLMs 可信能力提升

3.1 表征干预技术

团队观察到,既然 LLMs 在其预训练的早期阶段就已经学习到了有关可信概念线性可分的表征,那么一个很自然的问题是:LLMs 在预训练过程中的切片能不能帮助最终的指令微调模型(SFT model)进行对齐呢?

团队基于表征干预的技术(Activation Intervention),给予该问题初步的肯定回答。

表征干预(Activation Intervention)是 LLMs 领域中一个正在快速兴起的技术,已被多个场景下验证有效 [8-9]。这里以如何减轻 LLMs 的幻觉问题,让其回答变得更「真实」为例 [8],简要阐述表征干预技术的基本流程:

1. 首先,分别使用涵盖真实与虚假信息的正负文本来刺激 LLMs 并收集其对应的内部表征;
2. 然后,对正负表征的质心作差获得「指向真实方向的引导向量(Steering Vector)」;
3. 最后,在 LLMs 前向推理时每一步产生的表征上加上该引导向量,达到干预输出的目的。

不同于上述方法从待干预模型自身抽取引导向量,团队意在从 LLMs 预训练过程的切片中构建引导向量来干预指令微调模型,如下图所示。

图片

                                图表 6: 表征干预技术示意图

其中,团队使用北京大学团队开源的 PKU-RLHF-10K 数据集 [10-11] 来构建正负文本对,该数据集包含一万条带有安全 / 非安全回复标注的对话数据,可用于 LLMs 的 RLHF 训练。

3.2 实验结果分析

论文在上文提及的可信领域下五个维度的数据集(Reliability: TruthfulQA,Toxicity: Toxigen,Fairness: StereoSet,Privacy: ConfAIde,Robustness: SST-2),以及四个常用的大模型通用能力评测数据集(MMLU,ARC,RACE,MathQA)上,评测了四个模型的性能:指令微调模型 AmberChat,安全对齐模型 AmberSafe,使用来自 AmberChat 自身的引导向量干预后的 AmberChat,使用来自中间预训练切片的引导向量干预后的 AmberChat。实验结果如下图所示(更多的实验观察结果请移步原文):

图片

                              图表 7: 表征干预后模型性能评测结果

实验结果表明,在使用来自预训练切片的引导向量干预 AmberChat 后,AmberChat 三个可信维度(TruthfulQA,Toxigen,StereoSet)上都有较明显的提升。同时,这种干预对模型通用能力的影响并不显著(在 ARC,MMLU 上表现出边际损失,在 MathQA 和 RACE 上表现出边际提升)。

令人惊讶的是,使用预训练的中间切片构建的引导向量,相比于来自 AmberChat 自身的引导向量,能更显著地提升 AmberChat 模型的可信性能。

4 小结

随着人工智能技术的不断进步,未来,当试图对齐比人类更强大的模型(Superalignment)时,传统的依赖「人类反馈」的微调技术,如 RLHF 等,或将不再奏效 [12-13]。为了应对这一挑战,研究机构正在积极探索新的解决方案。例如,OpenAI 提出了「弱对强监督」的方法 [12],Meta 提出了「自我奖励」机制 [13]。同时,越来越多的研究开始关注「自我对齐」(self-alignment)这一新兴领域 [14-15] 

该研究为解决 Superalignment 问题提供了新的视角:利用 LLMs 在预训练过程中的切片来辅助最终的模型对齐。团队首先探究了预训练过程中 LLMs 是如何构建和理解「可信」这一概念的:1)观察到 LLMs 在预训练的早期阶段就已经建模了关于可信概念的线性表征;2)发现 LLMs 在学习可信概念的过程中呈现出的类信息瓶颈的现象。此外,通过应用表征干预技术,团队初步验证了预训练过程中的切片对于辅助最终 LLMs 对齐的有效性。

团队表示,期望本研究能够为深入理解 LLMs 如何动态构建和发展其内在的可信属性提供新的视角,并激发未来在 LLMs 对齐技术领域的更多创新尝试。同时期待这些研究成果能有助于推动 LLMs 向着更可信、更可控的方向发展,为人工智能伦理与安全领域贡献坚实的一步。

参考文献
[1] https://karpathy.ai/stateofgpt.pdf
[2] https://openai.com/research/instruction-following
[3] twitter.com/anthrupad
[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., ... & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.
[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., ... & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.
[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48 (1), 207-219.
[7] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.
[8] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.
[9] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.
[10] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.
[11] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K
[12] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., ... & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.
[13] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.
[14] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., ... & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.
[15] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., ... & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.
工程AIxiv专栏
相关数据
线性分类器技术

机器学习通过使用对象的特征来识别它所属的类(或组)来进行统计分类。线性分类器通过基于特征的线性组合的值进行分类决策。 对象的特征也称为特征值,通常在称为特征向量的向量中呈现给机器。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
暂无评论
暂无评论~