Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南报道

不作诗,只做事:华为盘古3.0,给大模型落地定了个调

千呼万唤始出来,华为的多模态千亿级大模型 「盘古」3.0 版来了。

图片

自去年底以来,ChatGPT 的技术突破引爆了 AI 军备竞赛,国内外科技公司和机构接连发布了上百个大语言模型

而在其中,有个玩家「没有出手」,却一直备受期待。7 月 7 日,华为开发者大会 HDC Cloud 在东莞召开,在刚刚进行的 Keynote 上,华为终于公布了盘古大模型的最新消息。

「自 2017 年 transformer 架构提出以后,在一些领域,新的架构已经开始解决通用性问题,AI 进入了大模型时代。国内上半年陆续发布了 80 余个 AI 大模型,」华为常务董事 、华为云 CEO 张平安表示。「我们注意到了它们都有很好的对话能力。但我要说,盘古大模型不写诗,只做事。盘古大模型的目标是利用 AI 技术给各行业带来价值。」

在这次大会上,盘古大模型再次明确定位「为行业而生」,华为也首次对外公布了盘古基础大模型的全栈创新和行业大模型的技术细节。

揭秘盘古 3.0

盘古大模型的目标是要重塑千行百业。

具体来说,3.0 版的盘古大模型是一个面向行业的大模型系列,具有「5+N+X」三层架构:从 AI 能力的基础层,到行业的第二层,再到应用层面向场景的各个接口,华为围绕深耕行业面向开发者持续打造了新的竞争力。

图片

其中:
  • L0 层包括 NLP、视觉、多模态、预测、科学计算五个基础模型,提供满足行业场景中的多种技能需求。盘古 3.0 提供了 100 亿、380 亿、710 亿和 1000 亿参数等基础大模型,以匹配不同场景、时延、响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
  • L1 层是多个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自有的专用大模型。
  • L2 层提供了更多细化场景的模型,更专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供「开箱即用」的模型服务。

针对千亿级参数大模型的训练,华为提出了多种高效训练新技术。

图片

图片

图片

最后这个训练优化器,还入围了 7 月即将举行的 AI 顶会 ACL 的杰出论文奖。

盘古大模型采用完全分层解耦设计,可以快速适配、快速满足行业需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。

在 L0 和 L1 大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对自有数据二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

图片

在盘古大模型体系下,AI 是如何实现专业化落地的?华为表示,在 AI 管道上存在数十个不同的模型,匹配了多行业的不同诉求。基于此,文案生成,对话语音、代码生成,以及图像生成、编辑等能力都可以供人们快速调用上线。

华为表示,盘古大模型易落地的优势,在于提供了解耦设计。

「我们所有的大模型都共用了能力集,训练数据也进行了解耦。不管你希望使用 310 亿大模型,还是 1000 亿参数的大模型,都可以快速进行转换,」张平安表示。

在底层算力上,华为提供了基于昇腾的硬件,构建了昇腾芯片使能能力 CANN,在这其上则是 MindSpore AI 框架和 ModelArts 机器学习平台。基于这样的全栈能力,华为提升了大模型构建、训练和部署的效率。

由于众所周知的原因,华为使用自有算力设备,在昇腾云上,我们发现大模型的训练效率达到了业界主流 GPU 的 1.1 倍。
图片硬件能力
这样的算力也可以为外界所用。此次华为云还宣布在乌兰察布和贵安上线昇腾 AI 云服务,可提供每秒 200 亿亿次浮点运算能力。现在缺乏 GPU 的科技公司有了新的选择。据介绍,美团利用昇腾 AI 云服务,AI 算子的工作效率提升了 30%。

昇腾云服务除支持华为自家的 AI 框架 MindSpore 外,还支持 PyTorch、TensorFlow 等主流 AI 框架,框架中的 90% 算子都可以通过华为的迁移工具从 GPU 平滑迁移到昇腾。

为行业而生

昨天在 WAIC 大会上,华为轮值董事长胡厚崑表示,ChatGPT 的出现把 AI 推向了新的风口,人工智能将帮助改写身边的一切。华为现在的核心目标是在下个阶段,全力推进人工智能走深向实。

华为盘古系列基础大模型于 2021 发布,包括 NLP、CV 和科学计算大模型,后续发布了矿山、药物分子、气象、海浪等行业大模型。

其中,盘古 NLP 大模型首次使用了 Encoder-Decoder 架构,兼顾 NLP 大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。而在下游应用中,盘古大模型仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配。

而盘古 CV 大模型则是首次实现模型按需抽取的业界最大 CV 大模型,兼顾判别与生成能力,能够基于模型大小和运行速度需求,自适应抽取不同规模模型,AI 应用开发快速落地。

华为介绍,盘古大模型已经深耕超过十个行业,服务 400 余个业务场景。

就在昨天,华为云盘古大模型研发团队独立研究并撰写的一篇论文《Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast》登上了《自然》杂志。

图片

作为工程领域的 AI 技术,登陆 Nature 正刊是一件罕见的事。该论文详细介绍了基于深度学习开发的精准精确全球 AI 气象预报系统 —— 华为云盘古气象大模型,这是首个精度超过传统数值预报方法的 AI 预测模型,突破了 AI 预报天气精度不及传统数值预报的世界性难题,对比传统方法预测速度提升 10000 倍,可秒级完成对全球气象的预测

《自然》审稿人对该成果给予高度评价:「盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。」因为盘古气象系统的准确表现,欧洲气象局已经将该系统列入了模型对比作为参考。

这是盘古大模型应用的「一小步」。在下午的发布会上,华为介绍了一系列大模型在其他领域的落地进展。

在政务领域,华为云携手深圳市福田区政务服务数据管理局上线了政务智慧助手小福,其能够精准理解民众咨询意图,改变了传统的一网通办模式。

在基于盘古大模型的政务助手上,AI 可以实现对话理解,画面内容的分割和理解,并正确对于政务规则进行解释并提出建议。现在摄像头从看得明白升级到了看得懂,对开放世界有了进一步的发现理解,构建了感知、认知到决策处置的全流程能力。

图片

在金融行业,人们面临巨量的数据,对于数据应用和分析的门槛很高。工行在全国有 4 万余个网店和 20 万余员工,利用盘古大模型,工行与华为构建了金融大模型(网店助手),新的模型把生成能力和检索能力进行了结合,可以为柜台流程形成规范的操作指导,降低了单词业务办理的操作次数,每次办结时间缩短了 5 分钟以上。未来,人们还希望在此基础上构建信贷系统、金融风控等组件。

在制造业,生产供应和交付存在大量决策优化问题,传统的求解是一个复杂过程,需要业务专家、编程专家甚至数学专家进行合作。在华为供应链中,盘古制造大模型提前学习了业务流程、制造规则,现在发给制造员的订单信息和邮件可以被大模型准确理解,转化为调度指令交由「盘古天筹求解器」,成为了未来三天的全局统筹最有规划

当其他大模型还在聊天写段子的时候,盘古大模型正在下矿井,做气象预测,开发新药。华为表示,这就是盘古大模型的理念。

最后当然还有 AI 自动编程能力,华为盘古的代码生成工具名叫 CodeArts。

图片

「盘古训练了 760 亿行精选代码,8500 万开源代码仓,1300 余万篇技术文档。它内建了盘古大模型智能开发助手 CodeArts Snap,目标是一句话生成代码,一个案件生成测试用例,依次点击自动注释。我们的目标是让它称为每个开发者的 AI 助手,」张平安表示。

它有三大核心能力:智能生成代码,智能问答和智能协同。

在现场,华为展示了用 CodeArts Snap 开发一个未完成的应用。首先,我们用对话方式提出需求,把需求复制到代码注释位置,就可以命令 Snap 直接完成目标任务的开发。

图片

我们可以让 Snap 解释代码的意义,生成测试用例,随后直接一句话就可以让它自动提交代码,进行流水线应用部署,AI 还自动生成了 Commit 提交信息。过去这些功能可能需要在不同软件上进行切换,现在在一个对话框里,这些任务就可以快速完成了。

在活动中,华为还介绍了数字内容生产工具 MetaStudio 的能力,拍摄一段 5 分钟的视频上传到华为云,一个小时后就可以构建出一个属于自己的数字人。

总结一下,盘古希望让每个开发者和企业都有自己的 AI 版专家助手。

看起来,这样的目标已经一定程度上实现了,未来我们将看到更多基于盘古大模型的应用。
入门
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

美团机构

美团的使命是“帮大家吃得更好,生活更好”。作为中国领先的生活服务电子商务平台,公司拥有美团、大众点评、美团外卖、美团打车、摩拜单车等消费者熟知的App,服务涵盖餐饮、外卖、打车、 共享单车、酒店旅游、电影、休闲娱乐等200多个品类,业务覆盖全国2800个县区市。

www.meituan.com
自动编程技术

自动编程相对与手动编程而言它是利用计算机专用软件来编制数控加工程序,编程人员只需根据零件图样的要求,使用数控语言,由计算机自动地进行数值计算及后置处理,编写出零件加工程序单,加工程序通过直接通信的方式送入数控机床,指挥机床工作,自动编程使得一些计算繁琐、手工编程困难或无法编出的程序能够顺利地完成。

推荐文章
暂无评论
暂无评论~