到目前为止,与电力和内燃机相比,人工智能的成就令人印象深刻,但并不具有革命意义。如今,大模型的成就让 AI 看起来比过去更像「通用技术」。但也别忘了作为「通用技术」之一的电动机在 19 世纪 80 年代就出现了,但直到 20 世纪 20 年代,围绕这项技术重组的大规模生产装配线才真正变革了工厂生产率。
撰文 | 微胖
「问:你觉得中美贸易战是否会在2020年解决?
答:我相信最有可能的结果就是,我们会见到一个更为竞争的世界,而且中国会是重要的参与者。
与此同时,我们会见到更平衡的美中关系,在贸易政策等议题上尤其如此。
问:你认为川普会连任吗?
答:我想他不会连任。我认为他会在选举中失利。」
这是一段发生在2020年的采访。提问方是大名鼎鼎的《经济学人》,你能猜到接受采访的是谁吗?
GPT-2 !一个利用 40GB 互联网文本训练的无监督语言模型:只要给它提示,例如问题或故事的第一句话,它就会顺着提示往下接。
当然,不止这些。从写诗作赋、搜索答题、写代码甚至预测蛋白质三维折叠结构,GPT-2 和它代表的大模型(foundation model)正展示出早期 AI 模型所不具备的通用性、适应性。据说,一只狗(其实也包括笔者)看不懂的《纽约客》 笑话,PaLM 也能读懂笑点。
这种经过数十亿次猜测、比较、改进、猜测循环「涌现」出的能力,与人类理解力和创造力更加靠近,甚至让设计者惊讶。这预示着一场革命的到来,《经济学人》称,这场革命将会影响到当年工业革命未曾触及的高级脑力劳动。
OpenBMB ( Open Lab for Big Model Base )开源社区 BMList 大模型趋势图跟踪了大模型的演化趋势。目前规模最大、拥有参数最多的大模型是阿里的预训练模型 M6-10T,发布时间2021年10月,拥有十万亿参数。OpenBMB 是北京面壁智能科技有限责任公司创始团队联合清华大学自然语言处理实验室与智源研究院语言大模型技术创新中心发起的开源社区。
01 AI 工业革命
目前,超过 80% 的人工智能研究现在都集中在大模型上——包括微软、 Meta 、 Google 、特斯拉等公司,研究机构艾伦人工智能研究所负责人 Oren Etzioni 曾估计。
初创公司也在涌入。根据数据提供商 PitchBook 数据,2021 年美国风险投资家向人工智能公司投资了创纪录的 1150 亿美元。其中,解决关键基础设施的挑战正成为一个越来越吸引人的领域。北京智源人工智能研究院发起的超大规模预训练模型研究项目 「悟道」表明,中国正在将该领域作为国家重点。一批新的创业者——拥有顶尖名校专业背景的预训练模型团队入场了。
虽被寄予厚望,但到目前为止,与人工智能相关的生产率提高却不尽如人意——至少,与电力和内燃机相比,人工智能的成就令人印象深刻,但并不具有革命意义。「扩展起来很不方便。这不太符合计算机的思维。」北京面壁智能科技有限责任公司(以下简称「面壁智能」)联合创始人、 CTO 曾国洋仍记得高中实习时的经历。
六年前,曾国洋在高中期间被保送清华后,他决定去一家当红 AI 公司实习。8 岁就开始自学编程的他一直对人工智能技术抱有浓厚兴趣。「AI 领域当时非常活跃也很有前景,所以想去看看技术的最新发展。」他说道。
结果发现技术落地现状并不令人满意。「每做一个项目、每一个具体场景,基本上都要派一位非常有水平的 AI 工程师去做适配,成本支出太大了。」
就一项 AI 任务而言,首先需要懂算法的工程师设计模型,再根据业务数据训练模型。就数据量而言,至少需要几千条,有时候可能需要额外再多标注一些以达到更好的模型效果。
训练过程运行在服务器上,期间需要调校各种各样的模型参数。训练完毕后,使用事先划分好的验证集,根据一定标准择选出最好的模型拿去做推理,对外提供服务。
以数据生产环节为例。《财经》记者曾算过一笔账,一个常见 NLP 模型,训练数据样本量在5万-10万/标签,稍微复杂一些的模型,训练数据样本量要20万个。「如果样本数据需要购买,整个数据成本要占到项目总成本的接近 60%。从项目开发时间来看,数据采集、清洗、标注、增强等处理时间占到整个开发周期80%。」
这还不算如此高的数据成本并不能让模型具有通用性所付出的代价。比如,修改模型的工程量和成本不亚于开发新模型。
今年,美国劳工统计局发布的二季度报告表明,先进数字技术并没有提升生产力—— 自疫情爆发以来,美国生产率(每小时生产产品和服务的价值)的增长率仅约为 1%,远低于 1996 年至 2004 年期间的增幅,当时生产率增长率超过 3%,也逊于美国战后 1948 年到 1972 年的年均 3.8% 的增长率。
但是,2018年,拥有 1.1 亿个参数的 BERT 大模型的出现正在改变游戏规则。当时,谷歌研究人员抛弃预先标记的数据集,使用自监督学习技术训练模型,效果惊人。2020 年,Open-AI 发布 GPT-3。它的前身 GPT-2 在一年前发布,「吞噬」掉 40GB 数据,有 15 亿个参数。GPT-3 参数暴增至1750 亿个。如今,全球最大预训练模型拥有超过十万亿个参数。
没有人知道极限在哪里。就在人们一度认为向模型添加参数正在达到边际效益递减的点时,却惊讶发现,通过向这些模型提供更多数据并增加参数数量来使此类模型变得更大时,它们会变得越来越好。
从早年的 word2vec 到如今标准意义上的大模型 GPT-3、PaLM 等,它们从小到大的过程并非基因突变式发展,而是渐变式,也得益于GPU硬件性能的日新月异。
曾国洋在大二时就加入了清华大学计算机系自然语言处理实验室,正好亲历这一变革。除了令人惊异的性能,这种通过单一模型解决不同任务的能力让他看到了一种可能性——改变人工智能作为一项业务的运作方式,大幅降低 AI 模型的扩展成本。因此,曾国洋毕业之后就和实验室几位同学一起创立面壁智能,旨在将大模型普及化与产业化。
「预训练-微调」新范式让 AI 研发有了很大变化。曾国洋以文本模型为例,互联网文本非常多,我们可以非常容易地搜集大规模无标注语料,利用诸如新闻、小说等通用文本,采用自监督学习技术预训练语言模型,大模型也由此获得比较强的通用能力。
然后,再利用特定下游任务对应的训练数据进一步微调更新模型参数,让该模型掌握完成下游任务的能力。大量研究结果证明,预训练语言模型能够在自然语言处理等领域的广大下游任务上取得巨大的性能提升。
「数据成本很明显地降低了。过去,几千条数据是门槛。现在,几百条、甚至几十条业务数据就可能实现同样性能效果。」他说。还有人效,即使团队缺乏 NLP 背景算法工程师也不需要因新业务招人,大模型可以输出通用的 NLP 能力。
「根据用例的不同,大模型将数据标签要求降低了 10 到 200 倍。」IBM 研究员、IBM AI 首席技术官 Dakshi Agrawal 在接受外媒采访时曾谈道,「从本质上说,这是企业十年来的机遇。」
02 面壁与破壁
欣喜之余,现实也残酷。
上世纪 90 年代,经济史学家们开始将「通用技术(general-purpose technologies)」视为推动长期生产率增长的关键因素,比如印刷机、蒸汽机、电动机。这些「通用技术」的关键属性包括核心技术的快速改进、广泛适用于跨领域,以及溢出效应——刺激相关产品、服务和商业实践的新创新。如今,大模型的成就让 AI 看起来比过去更像「通用技术」。
但也别忘了,作为「通用技术」之一的电动机在 19 世纪 80 年代就出现了,但直到 20 世纪 20 年代,围绕这项技术重组的大规模生产装配线才真正变革了工厂生产率。始于 20 世纪 80 年代的个人电脑革命,直到 90 年代末才开始真正提升生产力,因为这些机器变得更便宜、更强大,还能连接到互联网。
百亿大模型,仅参数量就在 20G 左右,将这些参数读进来,普通计算机都要花 2 分钟,曾国洋举了个例子。无论是训练还是推理,至少需要使用 V100 这样的显卡,每块价格大约 5 万元,几十块显卡的用量意味着上百万的成本。
目前,大模型也都是由屈指可数的几家科技巨头开发——微软、 Meta 、Google、百度、阿里、华为等,包括特斯拉也在构建一个巨大模型来进一步实现其自动驾驶汽车的目标。他们还将基础设施牢牢掌控在自家手中, GPT-3 不会公开发布,只对少数人提供 API 访问权限。GPT-2 数据集也没有公开发布。
「仔细审视大模型技术与落地方案时,大家看到了挡在面前的层层『墙壁』。」面壁智能在公司官网上写道,包括内存墙、算法墙、通信墙、性能墙,甚至持观望态度的「人心之墙」。
例如,与普通规模深度学习模型相比,大模型的训练、微调和推理都需要大量算力。一部分算力需求,甚至是传统通用基础设施所不能满足的。普通企业很难承受得起这样的成本。
有人估算过,如果你不是谷歌,使用云计算训练 PaLM 的成本大约在 900 万美元到 2300 万美元。
对于不同参数的 BERT 模型,人工智能研究公司 AI21 Labs 给出了两种训练配置下的训练成本:单次训练成本,超参调优和每个设置下多次运行包含在内的典型全负荷训练成本(以下显示的是两种训练配置成本的适度上限,以及每一种配置运行10次所花费的成本):
- 0.25 万美元-5 万美元(1.1 亿参数的模型);
- 1 万美元-20 万美元(2.4 亿参数的模型);
- 8 万美元-160 万美元(15 亿参数的模型)。
当然,根据摩尔定律,训练成本并非一成不变,硬件改进包括更先进的参数优化措施都可以降低训练成本,但即使收集、清洗如此大规模数据,也远非博士生和普通企业所能承担。
《经济学人》也曾统计过训练大模型趋势图及其所要承担的巨大资源成本。
其次,大模型使用方式上仍然没有统一标准,基于 Prompt 的调用方式仍然是非标准化的。
大模型参数规模如此巨大,以至于过去的全参数微调方式变得不现实。尽管既有微调方案各有所长,但也众说不一。基于 Prompt 微调比较常见,但也有不同方案,除了要考虑具体方案差异,使用者还面临「每种方案都试试」带来的潜在巨大成本压力。对于普通企业来说,涉足如此前沿的领域的门槛还是相当高的。
第三,使用者层面,驱动大模型仍然需要一定程度专业知识,这类人才对于企业来说仍然稀缺。
面对大范围内应用,大模型仍然存在着较大挑战,如何让更多学生、开发者方便享用大模型,如何让更多企业甚至政府广泛应用大模型,让大模型不再「大」不可及,成为实现大模型可持续发展的关键。
为此,区别于一些用于科研的超大模型,面壁智能针对产业落地推出了 CPM-Live,并推出大模型全流程加速工具。
一些千亿乃至万亿模型更多聚焦于科研用途,并不太适合产业级别的规模化应用。因此,面壁智能特别针对产业化应用训练了 CPM-Live。
具体而言,在计算层面,面壁智能推出了大模型全流程加速工具,包括大模型的训练、微调、推理和压缩。
例如,训练上,推出 BMTrain 工具包。公司近期训练 CPM-Live 百亿中文大模型,租用了32 块 A100 显卡。使用工具包后,训练仅花了 40 多万元人民币(实际成本可能更低)。他们估算,工具包可将 GPT-3 训练成本从 400 万美元降低到约75 万美元。
推理上,研发了 BMInf 工具包。过去在 V100 上实现的百亿大模型推理,如今在1060 显卡上也能运行。而 1060 显卡价格不过一、两千元,在家玩游戏的人都买得起。同时,面壁智能还构建了企业级推理产品,实现多机多卡推理加速。
第二,在使用方式上,将大家探索出的各种基于 Prompt 的微调方案都整合到工具包中。通过 OpenPrompt 和 OpenDelta 工具包(参数高效微调工具包)探索大模型的标准使用方式。
值得一提的是, OpenPrompt 获得了国际语言学顶会 ACL 2022 的 Best Demo。这一奖项每年全球只评选一个项目,颇具人气的 HuggingFace transformers 也曾于 2020 年获得 EMNLP 的 Best Demo,足以证明项目含金量。接下来,公司希望在此基础上探索出一套类似于标准接口的东西,让用户以一套标准方式去驱动大模型。
OpenDelta 工具包侧重于以比较经济的方式进行微调。比如,插入很小一部分参数(几十兆)就能达到全参数微调的效果,还能与其他有类似需求的用户共享它们。
面壁智能的短期目标是构建一套完整、高效的大模型全流程加速工具。
第三,在使用者层面,公司创始团队联合清华大学自然语言处理实验室与智源研究院语言大模型技术创新中心发起了 OpenBMB 开源社区,还打造了课程体系普及技术。
例如,OpenBMB 开源社区携手清华大学自然语言处理实验室共同推出的大模型公开课,手把手带领感兴趣的同学迅速了解相关理论和实践,为进一步探索打下基础。课程在 B 站也收获了非常可观的观看量。
「我们发现,线上报名的人来自各行各业,有很多学生,有一些人甚至不是计算机专业。」曾国洋介绍道,「未来我们还会添加一些实践内容,进一步完成课程体系。」
03 破壁而出,创造奇迹
技术自身竖起的壁垒只是一方面。市场竞争铸造的「墙壁」也摆在这支年轻的清华团队面前。
国内,预训练模型的研发也在加速追赶。百度发布了产业级知识增强大模型「文心」, 并基于此模型形成了产业全景图。其中的跨模态生成模型 ERNIE-ViLG,首次将图像生成和文本生成统一建模,显著提升图文生成效果。此外,华为联合鹏城实验室等机构也发布了「盘古」大模型,阿里巴巴达摩院发布了多模态预训练模型 M6。
大型科技公司拥有更多资源,尤其在基础设施、用户以及业务数据方面。不过,大厂基础设施底层逻辑和架构更多还是基于之前 AI 模型(主要还是中小规模模型)的方式。在与超大模型接轨上,新来者反而没有这样的历史包袱。
对于竞争优势,面壁智能充满信心。面对市场竞争,开源软件的免费使用是非常有吸引力的获客手段,低成本试错也有助于加速创新。「基于开源路线,可以更快触达潜在用户群体,降低企业认知和决策难度。」曾国洋谈到。
大模型涉及的许多技术问题单靠一家企业来解决是比较难的,可以通过开放技术的方式,用社区的力量共同解决,共享 IP,互惠互利。公司也将之前提到的各项核心技术都浓缩在 OpenBMB 开源社区的工具包中。
值得一提的是,开源社区发起团队不仅拥有深厚的自然语言处理和预训练模型研究基础,近年来围绕模型预训练、提示微调、模型压缩技术等方面在顶级国际会议上发表了数十篇高水平论文,还有丰富的自然语言处理技术的开源经验,发布了 OpenKE、OpenNRE、OpenNE 等一系列有世界影响力的工具包,这些工具包和其他项目在 GitHub 上累计获得超过 5.8 万星标,位列全球机构第 148 位。
面壁智能也希望采取不同的打法。「我们不会特别专注在研发更大参数的模型,相反,我们希望探索一种大模型经济高效的使用方式,让更多的企业与个人能够真正使用起来。在未来大模型库也能够像数据库一样,成为 AI 行业的基础设施。」曾国洋说。
长远来看,随着大模型成为基础设施,AI 产业的社会分工也会发生翻天覆地的变化,例如「研发侧和应用侧的解耦」,他解释道。
一方面,研发侧扮演模型制造商,专注研究高性能大模型并对外提供标准接口。「面壁智能这类公司负责提供模型库,就像现在比较常见的数据库企业。」曾国洋说。「数据库(企业)的工作是打磨数据库性能,我们的任务就是提升大模型性能。」
产业链的另一头应用侧,聚集着政府、企业、小型开发者甚至学生,通过标准接口接入基础设施,根据自身应用需求,实现业务所需的 AI 能力。
由此还可能导致另一个变革——如果说,过去的 AI 专业人员主要包括算法工程师这样的角色,那么,未来企业聘用的所谓专业人士可能更靠近今天意义上的「调包侠」——基于开源社区提供的大量优良模型、程序包,他们将精力集中在设计解决方案上,而不是源代码编写。
从泰勒,希恩斯,雷迪亚兹到罗辑,包括章北海,《三体》面壁者并不少,但成功的只有章北海和罗辑。既然要做 AI 工业化时代的「基础设施」,一个社会又不可能容许存在众多「公共承运人」,大模型市场竞争的终局不可能 「百花齐放」,皆大欢喜。
作为一家初创公司,未来的征程中会有更多无形「墙壁」等着他们去打破。除了团队都是《三体》迷,这也是为什么大家会将公司命名为面壁智能的重要原因 —— 希望能够时刻保持清醒与冷静,在关键时刻给出最有力的一击,破壁而出,创造奇迹。
注释:
1、 Foundation model 通常被译做大模型或者基石模型、基础模型。斯坦福大学以人为本人工智能中心(HAI)基石模型研究中心(CRFM)推广了这一概念。「近年来,构建 AI 系统的一种新的成功范式出现了: 在大量数据上训练一个模型,并使其适应多种应用。我们称这样的模型为基础模型。」
https://crfm.stanford.edu/
去年,斯坦福大学众多学者还发布了大模型机遇和风险方面的报告,
https://arxiv.org/abs/2108.07258
2、面壁智能(ModelBest,北京面壁智能科技有限责任公司)是一家人工智能大模型加速与应用落地赋能公司。公司依托开源社区打造大规模预训练模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,降低大模型使用门槛,并进一步推动大模型在人工智能典型场景与领域的应用与落地。公司创始团队来自于清华大学计算机系自然语言处理与社会人文计算实验室。公司目前已完成百万级天使轮融资,并与知名机构与公司达成战略合作。
https://www.modelbest.cn
3、根据 PitchBook ,成熟的数据科学基础设施推动人工智能初创公司获得创纪录的风险投资。人工智能初创公司正在快速增强开源模型,比如多语言翻译和计算机视觉与文本分析的部署。然而,人工智能和机器学习初创公司的风险投资在 2021 年表现出一定疲软,该领域初创公司在 2021 年筹集 1150 亿美元,与 2020 年的 614 亿美元相比,同比增长仅为 87.2%。
https://pitchbook.com/news/reports/2021-annual-artificial-intelligence-machine-learning-report
4、美国劳工部统计局统计数据,https://www.bls.gov/news.release/pdf/prod2.pdf
5、有关人工智能产业化的数据成本数据,「人工智能烧掉万亿元后,没跳出盈利困境」,
https://mp.weixin.qq.com/s/5dB29am59v1maZOYTm6hXA
6、有关大模型 PaLM 训练成本分析,「Estimating Palm's training cost」,
https://blog.heim.xyz/palm-training-cost/
7、 AI 21 Labs 的大模型训练成本分析,「谷歌 T5 预训练模型单次运行成本超 130 万美元?算力和金钱才是模型训练的王道」
https://www.jiqizhixin.com/articles/2020-05-04-2
8、其他参考资料
Huge 「foundation models」are turbo-charging AI progress,
https://www.economist.com/interactive/briefing/2022/06/11/huge-foundation-models-are-turbo-charging-ai-progress
「Why Isn’t New Technology Making Us More Productive?」,
https://www.nytimes.com/2022/05/24/business/technology-productivity-economy.html