Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南原创

从机器学习到推荐系统,技术平台全面统一:火山引擎已经发动

从自动驾驶到推荐系统,机器学习的开发现在都可以用统一的平台完成了。

不同机器学习任务,用统一的平台实现,速度成倍提升,GPU 调度 0 碎片,这是火山引擎最新开放的技术。

7 月 20 日,火山引擎 FORCE 原动力大会在北京举行。在活动中,品牌发布刚一年的火山引擎公布了一系列最新能力。

在 AI 方面,火山引擎推出了机器学习与智能推荐平台多云部署解决方案。据火山引擎机器学习系统负责人项亮介绍,字节跳动内部抖音、西瓜视频、飞书等不同业务的 AI 训练任务,都基于统一的训练平台提交,由统一的训练系统训练。

此次发布的这套解决方案也秉承了「统一、开放」的理念,初衷是希望算法工程师可以高效地实践自己的设想。

火山引擎机器学习系统负责人项亮。

机器学习能力的统一和开放

火山引擎脱胎于字节跳动的技术中台,其算法工程和业务平台可分为推荐系统机器学习平台,两者基于字节跳动统一的机器学习系统,后者又基于一套强大的计算基础设施。

这套统一的体系,服务了字节跳动的视频、内容和电商业务。项亮认为,尽管是不同的业务,但本质上都可以抽象成机器学习问题,进行统一的训练。

「在抖音中,用户看视频存留的时长和点赞、分享、关注的比例表面上看起来是不一样的,在转化成为机器学习任务后可以总结为同一个问题,即 A 事件发生时,预测发生 B 事件的概率。在懂车帝里看完文章评估用户点赞评论的概率,可以类比到电商应用中去,」项亮说道。

对于字节跳动这样一个以数据驱动闻名的公司来说,不同的业务体系应用统一化平台的一个最直观的好处,就是减少了「变量」。因为所有业务底层的工程体系都是统一的,更容易判断出究竟是哪些因素为业务带来了正向的提升,从而可以快速在不同业务中复用有效知识,也可以将创新的想法直接转化为生产力,减少工程投入,增强工程师、研发的单兵作战能力,提升创新效率。

「这也是我们这次通过火山引擎,将这套 AI 基建系统开放给外部企业的原因。」项亮说,「ToB 服务本身就是帮客户专注自身业务,我们把我们擅长的技术服务拿出来,让客户专注于他们擅长的领域。」

据项亮介绍,「统一」架构并不是字节跳动首创,不过从更好地支持业务出发,字节跳动持续打磨这套系统,希望能将性能和体验做到极致,这背后投入了大量的人力和资源。

以火山引擎机器学习平台「0 碎片」能力为例,由于 GPU 的成本较高,提升 GPU 的使用效率一直是客户迫切的需求。基于字节跳动庞大的 GPU 资源,在算力充分大的情况下,系统会对多个用户的不同需求进行动态优化分配。在大多数情况下,火山引擎能够保证所有用户都达到 100% 申请率,不用担心资源碎片的问题。在这套内外复用的系统中,通过复用更大的资源池,可以保证外部客户的 0 碎片。

「火山引擎一直在努力帮助客户降低成本,」项亮表示,「我们相信只有从客户的利益出发,才能把蛋糕越做越大。」

让开发者获得更好体验


在原动力大会上,火山引擎全新发布的机器学习与智能推荐平台多云部署解决方案强调了开发者体验。

很多开发者都会遭遇这样的问题:在构建机器学习业务时,用于训练的 GPU 通常利用率较低。传统做法一般是给研发工程师配置许多带 GPU 的物理开发机,而在未进行机器学习训练任务时,这些计算卡会被闲置。火山引擎机器学习平台的独立在线开发机模块,能在对齐物理开发机体验的同时提升效率。

「在开发机关机之后,之前进行的操作、下载的数据、配置的环境,在重新开机之后全部原样保留,」项亮表示。「关机之后,算力同时也会立即释放出去。」

开发机模块很好地集成了容器,方便人们在不同环境上进行切换,另外,火山引擎机器学习平台在监控、实验 tracking 等方面也提供了相应的工具。在复现方案时,火山引擎可以通过镜像方式提供开发环境的解决方案;在工程师开发完成后,可以通过 Job 化的训练,将开发代码保存在云端,在机器学习平台上一键发起训练,并对比不同实验结果。
不仅如此,在帮助客户实现 GPU 「0 碎片」的基础上,火山引擎机器学习平台还从计算、网络、存储等方面入手,为开发者带来极致、顺滑的性能体验。
在计算上,火山引擎提供各种算子优化能力,可以让现有的算子速度获得成倍提升。

在通信方面,火山引擎开源了两个通信库,bytePS 用于实现参数通信、参数同步;veGiantModel 主要实现超大模型的多机并行训练加速。

在存储环节中,火山引擎提供两套解决方案:TOS 对象存储和 vePFS 分布式文件系统,面向实际工作中会遇到的复杂文件、环境处理挑战,同时满足了存储的高性能和易用性需求。

另外,智能推荐系统字节跳动业务快速发展的重要技术动力,火山引擎推出的智能推荐平台在实时性和规模性上充分利用了已有的实践,可以实现秒级实时更新和超大规模推荐广告模型的训练。

据了解,要想实现一个端到端推荐系统,其工作涉及数据处理、特征工程、规则编排、验证推荐效果等任务。在火山引擎上,这些过程不需要跨多个系统。只需要一个平台,输入用户行为就可以接入到推荐结果输出,搭建完整的推荐服务,不需要关心其中的细节。针对不同行业的客户,火山引擎提供了自定义模板能力,企业可以根据自身业务对工具进行大量定制。

在智能推荐平台中,火山引擎还提供了十余种模型结构,只需要设定好优化的目标就可以开始训练。自定义模型能力则是通过低代码的方式实现模型的开发,平台内置多种代码示例,提供了代码对比、效果对比、训练日志等多种工具,方便工程师更快上手。

无论是预置模型还是自定义模型,火山引擎的底层都是基于一套字节跳动自研的训练和推理方案,可以实现万亿级参数的模型训练,全方位的容错机制保证稳定性,支持流式训练和实时模型调参等特点,可以保证模型训练的性能和效果。

在部署方式上,机器学习平台和智能推荐平台支持四种不同的部署方式,包括公有云部署、VPC 部署、私有云和专属 AZ 部署。

云上增长新动力


字节跳动的发展伴随着深度学习等技术的爆发,同时,我们的系统从一开始就根植于云上。」项亮介绍。

字节跳动已经实现了自身业务的全量云原生化。去年底,火山引擎正式发布云计算产品,结合自身的强大能力,火山引擎为企业提供了云原生的全套构建方案。

目前,火山引擎已获得了数千家标杆企业、机构的青睐,服务了金融、能源、汽车、消费电子等众多行业的客户。企业基于火山引擎,正在创造出越来越多的新能力。

基于火山引擎的机器学习平台,无人驾驶技术公司轻舟智航打造了研发工具链轻舟矩阵,全面应用于自身开发体系中。轻舟矩阵以仿真为核心,打通了从数据处理、标注、训练、大规模仿真和技术输出的全流程,实现了车辆数据的安全存储和高效调用,并支持多种车型的开发,可对数据进行自动标注、质检、训练和评估,让自动驾驶 AI 大脑可以从海量数据中自主学习。

在这其中,火山引擎通过 RDMA 网络直连的万张 GPU,结合自研 BytePS 分布式训练框架和高性能算子库,使主流模型的多机加速效率超过 90%,自动驾驶模型训练 GPU 利用率提升 30%。模型全生命周期管理工具与火山引擎自研存储的无缝衔接,以及特性化的服务体验,极大加速了轻舟矩阵上自动驾驶模型的训练效率。

推荐系统方向,火山引擎利用最新硬件架构的特性,借助英伟达对推荐系统 Pipeline 的定制优化,可以帮助企业快速构建、部署和扩展最先进的深度学习推荐系统,显著降低成本,大大减少任务延迟。
当前,基于云服务的 IT 基础设施领域正在经历又一次变革:5 年前,58% 的企业选择多云架构。而在 2021 年,已经有 80% 的企业选择了多云架构,其中 79% 的客户又会选择两个以上公有云。在多云时代,绝大多数应用负载将部署在云原生基础设施上,云原生正在成为企业的数字「新基建」。

在不断变化的世界里,火山引擎这台发动机,将帮助企业持续保持前进的动力。
产业统一开放FORCE动力大会火山引擎
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

推荐文章
暂无评论
暂无评论~