Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

千亿参数大模型免费在线畅玩!无需注册,零门槛体验OPT-175B

零代码体验AI大模型,打开网页就能玩。
提起大模型,除了各种惊艳的性能表现,还伴随着高昂的硬件要求和运行成本,将绝大多数 AI社区成员都拒之门外。

得益于开源社区的蓬勃发展,现在情况大有不同:

无需注册,就可以免费白嫖 1750 亿参数的 OPT 模型!

图片

还不快打开下方链接,自己上手在线体验一下?

云服务体验地址:https://service.colossalai.org/

快速体验

基于 1750 亿参数 OPT 大模型,该网站支持多种文本生成任务,包括事实问答、聊天机器人、翻译、文章创作等。

只需点击对应的子任务名,如 FAQ(事实问答),输入需要的对应内容,点击右下方的蓝色生成按钮,稍等就能得到结果。

图片

背后技术

OPT-175B

要想了解刚刚体验的大模型推理的技术原理,首先,让我们先回顾一下刚才所用到的大模型。
OPT 的全称为 Open Pretrained Transformer,是 Meta(Facebook) AI 实验室发布的对标 GPT-3 的大规模 Transformer 模型,共有 1750 亿个参数

图片

与 OpenAI 尚未公开模型权重的GPT-3 相比,Meta AI 慷慨地开源了所有的代码以及模型权重,极大推动了 AI 大模型落地与应用,每一位开发者都能以此为基础开发个性化的下游任务。

然而 GPT-3、OPT-175B、AlphaFold 等前沿 AI 大模型远超现有硬件容纳能力,训练和部署推理服务都必须使用复杂专业的分布式技术。现有系统大都存在上手门槛高、运行效率不高、通用性差、部署困难、缺乏维护等问题。

面对这一痛点,面向大模型时代的通用深度学习系统 Colossal-AI,仅需几行代码,便能高效快速部署 AI 大模型训练和推理,促进 AI 大模型低成本应用和落地。

使用开源 Colossal-AI 快速部署 AI 大模型云服务

OPT 云服务

此次 OPT-175B 超大模型部署的快速上线,依托 AI 大模型开源解决方案 Colossal-AI 生态,只需少量改动,即可完成大模型云端并行部署

从无法运行到快速启动:

运行超大模型首当其冲的问题是单个 GPU 显存无法容纳巨量的模型参数,而推理问题不仅仅要考虑吞吐量还要考虑时延,因此使用并行来解决这个问题是一种直观的思路,借助 Colossal-AI 生态可以轻松将一个单机模型转换成并行运行。Colossal-AI生态提供众多可以参考应用实例,如 GPT、OPT、BERT、PaLM、AlphaFold 等。
获得并行 OPT 模型之后,下一步要处理的是参数加载。Colossal-AI 生态也提供了并行模型参数加载的解决方案,用户只需要参考样例简单提供参数映射关系即可完成模型参数的加载,最后将模型投入到 Colossal-AI 生态提供的推理引擎中,设置相应的超参数。截至此刻,大模型OPT 主干网络的推理服务就可以上线并能输出有意义的结果。

从成功启动到高效部署:

在跨越了内存墙问题、并行参数加载等重重阻碍,成功运行了并行主干网络后,为了进一步提高推理性能,Colossal-AI 还提供了多个面向生成式任务的优化,可实现数十倍推理吞吐量的提升
由于 OPT 面向的是生成式任务,而生成式任务需要不断循环模型的输出结果。这使得推理中常见的 batching 策略无法直接应用,而单 batch 运行效率低下。此外,在生成阶段还存在大量的重复计算。
为了全面释放生成式任务运行中高性能硬件的潜力,此次推理部署增加了 left padding 技术使得 batching 成为可能,还增加了past cache 技术来消除在生成阶段的重复计算问题,以及引入 bucket batching 技术减少无意义的计算。

先来讲讲为什么生成式任务无法直接使用常见的 batching 方法。如下图所示,由于输入语句的长度通常参差不齐,而且多数语言的书写习惯都是从左至右,如果用常规的 right padding,那么对于较短的句子就难以生成有意义的结果或者需要复杂的处理才能生成结果,继而导致无法使用 batching 方法。而当我们使用 left padding 对句子进行填充时,每一个句子的生成侧(右侧)都是对齐的,可以同时生成新的单词。

图片

Right padding 不适合生成式任务

图片

Left padding

由于模型的一次推理仅能生成一个新词,于是在生成式任务中每生成一个新词后都会加到输入序列的尾部再次投入模型进行计算,生成下一个新的单词,由于每一次推理都需要针对新的完整序列进行计算,就会存在大量重复计算的问题,尤其是对于占绝大多数计算量的 Linear 层来说。因此 Colossal-AI 开发人员在模型内部加入 past cache 技术,会暂存同一次生成任务中 Linear 层的输出结果,每次只有新的一个单词会进入 Linear 层进行计算,并把该词的计算结果加入到暂存结果中避免重复计算。Past cache 技术可以极大的降低实际计算量。

图片生成式任务计算过程。Past cache 将同一次任务的 Linear 层计算结果保留,新的一次推理只需要计算新增的一个单词,与 cache 拼接进入后续计算。

此外,Colossal-AI 开发人员注意到不同于其他任务,生成式任务计算量的参差不齐,不仅仅来自于输入句长的不同,还来自于输出目标句长的不同,且输出句长和输出目标句长都将在一个较大的范围内取值。简单的 batching 方案将两者相差很大的推理放在同一个批次中将造成大量冗余计算,因此Colossal-AI 开发人员加入了 bucket batching 技术,即按照输入句长以及输出目标句长进行桶排序,同一个桶内的序列作为一个 batching,极大的降低了冗余计算量。

图片Bucket batching。将具有相近输入与输出长度的任务放在同一个批次

面向大模型时代的 Colossal-AI

Colossal-AI 不仅针对 AI大模型提供了诸多优秀的解决方案,更为重要的是完全开源
每一位开发者都可以基于它低成本训练自己的大模型,并部署为云服务。例如,在 1 张 10GB 的 RTX 3080 上,便可训练 120 亿参数的模型,相比原生 PyTorch 可提升 120 倍的模型容量

图片

Colossal-AI 自开源以来便广受关注,已经多次在 GitHub 及 Papers With Code 热榜位列世界第一,相关解决方案已成功在自动驾驶、云计算、零售、医药、芯片等行业知名厂商落地应用,可快速高效完成 AI 大模型的云服务部署。

图片

Colossal-AI 团队近期还连续入选和受邀全球超级计算机大会、国际数据科学会议、世界人工智能大会、亚马逊云科技中国峰会等多项国际专业盛会,并发表主题演讲,展示不断革新的高性能计算与人工智能前沿发展,及其在全面推动 AI 大模型民主化中的创新实践,敬请关注!

项目开源地址:https://github.com/hpcaitech/ColossalAI
云服务体验地址:https://service.colossalai.org/
参考链接:

https://arxiv.org/abs/2205.01068

https://sc22.supercomputing.org/

https://medium.com/@yangyou_berkeley/using-state-of-the-art-ai-models-for-free-try-opt-175b-on-your-cellphone-and-laptop-7d645f535982

工程预训练大模型
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

桶排序技术

桶排序或所谓的箱排序,是一个排序算法,工作的原理是将数组分到有限数量的桶里。每个桶再个别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排序)。桶排序是鸽巢排序的一种归纳结果。当要被排序的数组内的数值是均匀分配的时候,桶排序使用线性时间。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

推荐文章
暂无评论
暂无评论~