Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

BERT、GPT-3们有了新名字:Percy Liang、李飞飞等发布200多页综述,阐述大模型机遇与风险

在一篇 200 多页的论文中,Percy Liang、李飞飞等斯坦福研究者系统阐述了大规模预训练模型背后的机遇与风险。他们还给这些模型取了一个统一的名字—— Foundation Model。


随着 BERT、DALL-E、GPT-3 等大规模预训练模型的出现,AI 社区正在经历一场范式转变。从计算机视觉自然语言处理,从机器人学到推理、搜索,这些大模型已经无处不在,而且还在继续「野蛮生长」。


这种野蛮生长是大模型的有效性带来的必然结果。在 BERT 出现(2018 年)之前,语言模型自监督学习本质上只是 NLP 的一个子领域,与其他 NLP 子领域并行发展。但在 BERT 横扫 11 项 NLP 任务之后,这种格局被打破了。2019 年之后,使用自监督学习构造语言模型俨然已经成为一种基础操作,因为使用 BERT 已经成为一种惯例。这标志着大模型时代的开始。


这一时代的重要标志是「同质化」。如今,NLP 领域几乎所有的 SOTA 模型都是少数几个基于 Transformer 的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。


毋庸置疑,这种同质化是有好处的,大模型的任何一点改进就可以迅速覆盖整个社区。但同时,它也带来了一些隐患,因为大模型的缺陷也会被所有下游模型所继承。


大模型的强大能力来自巨大的参数空间的结合,这也导致它们的可解释性非常差,其能力和缺陷都存在不确定性。在这种情况下,盲目将整个研究范式向大模型转变真的可取吗?


最近,斯坦福大学的 Percy Liang、Rishi Bommasani(Percy Liang 的学生) 、李飞飞等 100 多位研究者联名发布了一篇系统探讨此问题的论文。在论文中,他们给这种大模型取了一个名字——「基础模型(foundation model)」,并系统探讨了基础模型的机遇与风险。「基础」代表至关重要,但并不完备。



论文链接:https://arxiv.org/pdf/2108.07258.pdf


论文正文分为四个部分,分别阐述了基础模型的能力、应用、相关技术和社会影响,其具体内容如下:


  • 能力:语言、视觉、机器人学、推理、交互、理解等;

  • 应用:医疗、法律、教育等;

  • 技术:建模、训练、适应、评估、系统、数据、安全与隐私、稳健性、理论、可解释性等;

  • 社会影响:不平等、滥用、环境、法规、经济、伦理等。




这篇论文的问世将为负责任地发展、部署基础模型提供一些借鉴。


此外,斯坦福大学的师生、研究人员还成立了一个「基础模型研究中心(CRFM)」,这是斯坦福 HAI 的一个新的跨学科项目。8 月 23 日到 24 日,这两个组织将发起一场关于基础模型的 workshop,讨论基础模型的机遇、挑战、限制和社会影响。



workshop 链接:https://crfm.stanford.edu/workshop.html?sf149081997=1


以下是论文各个章节的介绍。


 第二章 基础模型的能力


基础模型拥有的能力有时是在学习过程中出现的,这些能力往往能为下游应用提供动力。关于基础模型能力的推理影响了具有基本能力 AI 系统的创建。该论文的第二章就主要探讨了基础模型的能力及影响,具体包括以下几部分内容:


2.1 语言


该论文首先以自然语言的属性展开,并分析了 NLP 领域基础模型的影响。然后又进一步探讨了语言变体和多语种的问题,最后论文这部分阐述了 NLP 基础模型从人类语言中获得的灵感。


人类和基础模型的语言获取。


2.2 视觉


视觉是生物体理解其生存环境的主要模式之一。视觉能够为智能体带来稳定广泛的密集信号收集能力。论文的 2.2 部分首先概述了计算机视觉领域的关键能力和方法,其中阐明了计算机视觉领域的几大关键任务,包括:


  • 语义理解任务;

  • 含有几何、运动等元素的三维任务;

  • 多模态集成任务,例如视觉问答等。


然后 2.2 部分还探讨了当下计算机视觉领域面临的研究挑战,主要面向几个重点应用领域:


  • 面向医疗保健和家庭环境的外围( ambient )智能领域;

  • 移动和消费领域;

  • 具体化的、可互动的智能体中领域。


通过大规模利用自监督,视觉基础模型具备一种潜力,即提取原始多模态感知信息并转化为视觉知识,可有效支持传统感知任务,并能够在具有挑战性的高阶技能方面取得新进展。


视觉的基础模型目前处于早期阶段,但已在传统计算机视觉任务取得了一些改进(特别是在泛化方面),并预计近期的进展将延续这一趋势。然而,从长远来看,基础模型在减少对显式注释的依赖方面的潜力可能会带来智能体基本认知能力(例如,常识推理)的进步。同样该论文也探讨了用于下游应用的基础模型的潜在影响,以及推动领域发展必须面临的核心挑战。


2.3 机器人


机器人研究领域的一个长期挑战是让机器人具备处理无数现实难题的能力。该论文的 2.3 部分讨论了基础模型如何助力产生「通用型」机器人,并从机遇和挑战风险多个方面展开。


从机遇的角度讲,机器人技术的基础模型应该采用多种形式,因为机器人技术中的问题往往并不符合「一刀切」的模式,不同的问题有不同的输入输出特征。


从挑战与风险上看,一方面,机器人研究必须收集足够大小和多样性的数据集;另一方面,机器人领域需要合理机制来确保能够在现实世界中安全地部署学习行为。


机器人基础模型需要跨多种环境和行为的海量数据集。


2.4 推理和搜索


推理和搜索一直是人工智能领域的中心主题,许多推理问题构成了无限的搜索空间。近来一些应用和研究表明:人们对应用基于学习的方法来解决推理问题的兴趣激增。论文的这部分从当前面临的任务、基础模型扮演的角色、AI 推理领域未来面临的挑战几部分展开。


一个几何证明的搜索树例子。


2.5 交互


随着基础模型开发的成熟,模型的容量将不断扩大,它们的多功能性最终可能导致我们与 AI 交互的方式发生根本性变化。论文的这部分从两个重要利益相关者的角度讨论这些变化带来的机会,这两个利益相关者是指


  • 将与基础模型交互以设计用户体验的应用程序开发人员;

  • 使用由基础模型提供支持的人工智能应用程序或受其影响的终端用户。



如上图所示,基础模型将通过降低难度为开发者带来重大机遇,降低构建 AI 应用的门槛,并提高应用程序的交互上限。甚至在某些情况下,开发者和用户之间的界限会开始模糊,用户可以轻松开发自己的 AI 应用程序,例如使用自然语言进行开发。


2.6 关于理解的原理


基础模型可以了解训练数据的哪些方面?答案对于基础模型的整体能力非常有用,将为智能系统做出重要贡献。该论文主要关注自然语言领域,因为语言的使用是人类智慧的标志,也是人类体验的核心。


第三章 基础模型的应用


基础模型的能力表明了它们具备改变各行各业的潜力,论文的第三章重点从三个学科领域阐述了人工智能的应用,包括医疗保健、法律和教育,这些都是人类社会的基础。这一章节每一部分都探讨了基础模型为该领域带来的挑战和机会。


3.1 医疗保健和生物医学


医疗保健和生物医学是社会中一个巨大的应用领域。


在医疗保健领域,基础模型能够为患者改善医疗服务,提高照顾患者的效率和准确性。同时,基础模型能够减轻医护服务的负担,例如帮助查找相关案例。此外,手术机器人也是未来基础模型的一个研究方向。


在生物医学领域,科研发现需要大量的人力资源、实验时间和财务费用。基础模型可以促进生物医学研究,例如药物的发现和疾病的理解,最终转化为改进的医疗保健解决方案。使用现有数据和公开研究促进和加速生物医学发展是一个紧迫的问题。


医疗保健和生物医学的基础模型。


此外,未来医疗保健和生物医学领域还面临一些挑战,包括多模态处理、可解释性、法律和道德规范。


3.2 法律


在美国,寻求律师的法律援助可能是非常昂贵的,同时律师也是一个高压职业。


基础模型未来在法律领域的应用可能包括:利用机器学习辅助基于文本的法律任务。值得注意的是,法律的严谨性对 AI 模型提出了必然的高要求,包括数据标注成本非常高,通常只有律师具备创建高质量标签的专业知识,并且各个案件的细微差别也是非常重要,不容忽视的。



3.3 教育


基础模型已经开始用于提升一些教育领域特定任务的性能,论文的 3.3 部分从两个具体任务展开了讨论:(1)理解学生对概念的误解;(2)提高学生对教学指导的理解能力。


教育领域的基础模型应该在多个数据源上进行训练以学得教育所必需的能力。


了解了各种主题和不同的教学技术的基础模型可以以通用方式应用于一系列任务和目标,例如了解学生、协助教师、生成教育内容等。


此外,该论文对教育研究中基础模型涉及的伦理问题进行了阐述。尽管人工智能助力教育的未来令人兴奋,但在 AI 落地教育领域时必须要考虑隐私与安全、所需教师人数减少的影响、学生使用基础模型工具的效率等重要问题,论文中也针对这几个方面展开了讨论。


第四章 基础模型相关技术


本章主要从技术的角度进行分析。基础模型的技术基础产生了决定其潜力的能力,如第二章介绍的。为了了解在开发中使用的技术,我们需要考虑数据、模型架构、系统、模型训练以及模型的适应性这一系列因素,在研究中需要将模型和理论相结合。为了更好地理解模型,本章还讨论了如何评估和解释模型,以及模型的鲁棒性、安全性和隐私性的重要性,此外,该研究还讨论了 AI 安全领域,以确保这些模型在社会上进行部署时具有可靠性。


建模


本小节研究者讨论和确认了基础模型必不可少的 5 个属性:可跨越的表现力(spanning expressivity)、可扩展性、多模态、内存容量以及可组合性。有了这些属性,就可以有效地提取周围的大量信息,从而成功地解决下游任务。例如表现力可以灵活地捕获和吸收真实世界的信息;可扩展性可以熟练地处理大量的高维数据;多模态可以处理来自不同源和领域的内容;内存容量可以有效地存储和检索已获得的知识;可组合性可以促进对新任务、设置和环境泛化。


基础模型的五个关键属性。


训练


训练目标是描述如何将模型体系架构和大量广泛数据转换为基础模型的数学函数。该研究首先列举了训练方法需要实现的一些目标,可以考虑以下因素:利用广泛的数据、域的完整性、可扩展性和计算效率。此外还描述了当前方法中重要的设计权衡,当前模型所探索的三个重要的设计选择,最后概述了基础模型训练在未来道路上需要前进的目标。


适应性


虽然基础模型提供了一个强大的通用引擎来处理多模态信息,但在某些应用之前,适应性是一个基础模型必要的。本小节描述了适应性的现有方法,以及决定特定适应性程序是否适合特定环境的几个因素。此外,该研究还描述了基础模型适应性的多种示例,最后,该研究提出了一个长远的目标,即未来研究的基础模型适应性。


在适应性期间,基础模型被转换为适应模型(底部一行),以反映更新的信息、所需的行为或部署约束。


评估


对于基础模型来说,模型评估是至关重要的。本小节首先介绍了几种评估:内在评估,包括从广泛的外在评估中引入内在评估、对内在性质进行直接评估;外在评估与适应性,包括对特定任务而调整基础模型所花费的资源进行核算。此外本小节还介绍了评估设计等内容。


系统


计算机系统是开发基础模型的最大瓶颈之一,它们通常需要大量计算资源来训练,此外,这些模型可能会随着时间的推移而变得更大,训练难度将会升级。在本节中,研究者讨论了在开发和生产大规模基础模型时,计算机系统面临的挑战。主要从以下几个方面进行介绍:通过协同设计提高性能、自动优化、基础模型的产品化等。



除了上述介绍的内容之外,在第四章中还介绍了:数据方面,讨论了基础模型数据生命周期的管理,并概述了关于数据的四个需求,包括大规模数据管理、支持异构数据源、数据治理和数据质量监控;安全和隐私方面,讨论了单点故障、安全瓶颈等内容。


ML 系统的安全性和隐私基础模型带来的风险和机遇。


第五章 基础模型的社会影响


本章主要介绍了基础模型的社会影响,包括模型本身的构建和它们在开发应用程序中的作用,需要研究者仔细检查。具体而言,该研究认为基础模型具有广泛的社会影响,但同时也非常难以理解:基础模型不是直接部署的中间资源,而是作为一个基础,来进一步的进行适应性。因此,用传统方法对技术的社会影响进行推理可能很复杂:对于具有明确目的的系统来说,社会影响相对来说更容易(但仍然很难)理解。本章中,该研究讨论并开始理解基础模型社会影响的复杂性。本章讨论了不公平带来的危害和滥用的危害;基础模型对经济和环境的影响;基础模型在法律和道德方面影响。


不平等与平等:本小节主要描述了内在偏差,即间接但普遍地影响了下游基础模型的属性,此外还包括外部损害,即在特定下游应用环境中产生的损害等内容。


滥用:考虑基础模型的滥用——人们按照预期使用基础模型的情况(例如,生成语言),但是这种功能被有意地利用来对人群或个人造成伤害。本小节概述了基础模型如何使新的滥用形式成为可能,并介绍了支持滥用检测和缓解的新工具。


图中显示了基础模型对操控性和有害内容生成的影响,以及对检测的影响。


环境:本小节主要介绍了碳影响应该得到缓解、在使用基础模型之前应该评估成本和收益、应系统地报告基础模型对碳以及能源影响等内容。


用于部署基础模型的成本效益分析的可视化。


合法性:本小节描述了美国法律如何影响、约束或促进基础模型的创建和使用。我们注意到,围绕算法工具的法律前景仍然具有不确定性。本文强调与(1)模型训练、(2)模型预测的可靠性(3)模型输出保护相关的问题。


此外,本章还介绍了经济,基础模型有潜力通过提高生产力和创新来大幅提高整体生活水平,这些模型可以用来替代人类劳动,增强人类能力,或者帮助研究者发现新的任务和机会。本节最后还介绍了道德规范相关内容。


更多内容请参考论文。

理论斯坦福大学大规模学习
1
相关数据
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

视觉问答技术

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

推荐文章
暂无评论
暂无评论~