Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南报道

每个字节跳动的背后,都有一台火山引擎

9 岁的字节跳动宣布「全擎投入」企业技术服务市场,一上来就计划要做 50 年。

每年夏季举行的 CVPR 是人工智能领域里最被人关注的盛会之一。在这场万名学者参与,持续多天的活动中,时不时会涌现出引领下个方向的前沿研究,正如 2016 年的 ResNet、YOLO,2009 年的 ImageNet,还有 2015 年的 Inception 一样。

这些在业内如雷贯耳的模型和数据集不断进化发展,如今已经成为了摄像头中的识别算法,手机上的人脸解锁功能、拍照美颜工具甚至自动驾驶汽车上识别红绿灯的能力。

CVPR 大会上也有着各式各样的图像识别竞赛,来自科技公司、学术机构的研究者们会利用最领先的技术一决高下,而因为赛制更加贴近现实,参赛队伍们提出的解决方案很可能几个星期之后就会出现在 App 上,成为手机上的一个新功能。

在今年的 CVPR 上,由 AI Benchmark 举办的「移动 AI 挑战赛」引人关注,而在其中「实时移动端检测场景赛」上获得冠军的队伍,成绩相比第二名高出了八倍还多。

这支名叫 ByteScene 的队伍来自字节跳动

绝对优势夺冠

CVPR 2021 的 MAI 竞赛上,字节跳动工程师们组成的队伍 ByteScene 夺得了实时移动端场景检测(Camera Scene Detection)比赛的冠军。

这是一个在苹果 A11 处理器( 用于 iPhone X、iPhone 8 / 8 Plus )上,使用移动端深度学习框架 TensorFlow Lite CoreML 运行实时移动端场景检测算法的比赛。任务要求 AI 算法对摄像头输入的图像实时预测出其场景类别,共有 30 个场景类别,训练集却只有 9900 张图片,对于人工智能来说,存在很大的过拟合风险。

ByteScene 团队却利用迁移学习方法拿出了一个容量仅为 8.2Mb 的小模型,实现了 95% 的 Top 1 识别准确率,平均延迟仅 4.4 毫秒,最终得到的分数是第二名的八倍还多。

图片


实时移动端场景检测技术在抖音和剪映等产品里已经落地应用。由于操作简单,使用体验智能化,这项技术提升了 App 上的用户体验。

短视频是目前最火的应用方向,但对于人们来说,制作一段高质量的视频往往是件困难的事。「智能模板匹配」为大众用户提供了一个低门槛的快捷视频创作方式,真正实现了「一键成片」。

图片


在 CVPR 竞赛中用到的图像场景检测和分类算法通过预测每个素材中的场景类别,为智能模板匹配提供了重要依据,让普通用户也能通过简单的操作,剪辑出高质量的视频。

提出技术,在竞赛中夺冠,又将其应用到抖音中的技术团队,是字节跳动的「智能创作团队」。该团队的研究领域覆盖音视频、计算机视觉、语音、图形图像、工程软件开发等多个方向。

现在,这一团队的技术又成为「火山引擎」的一部分,正式对外开放了。

数智化转型这门生意,正在吸引越来越多的互联网大厂。6 月 10 日,字节跳动旗下智能科技品牌火山引擎的首场品牌发布会在北京举行。

图片


随着火山引擎一系列核心技术的发布,字节跳动正式官宣进军面向企业的 to B 市场。

字节跳动的「秘密」开放出去

企业市场和个人用户市场的挑战不同,进入 ToB 市场,字节跳动首先展现出了自己的态度:把自己的「秘密」开放给企业客户。

做企业服务这件事,对于字节来说并不是从零开始。和一直所践行的理念相同,字节跳动的 to B 业务也源自需求驱动。

故事要从 2017 年说起,当时的字节跳动刚刚因为今日头条个性化推荐系统成为人们谈论的话题,一家手机厂商突然找过来希望使用这种技术来优化自己的应用商店。

「最后我们决定干这一单,这就是字节跳动 To B 的第一笔订单,」字节跳动副总裁杨震原表示。「效果出奇的好,客户的广告收入一下子增加了 117%,双方技术团队都获得了提升。在这项合作之后我们决定沿着这个方向继续做下去。」

很快,其他手机厂商就找上门来。在这之后字节跳动又开始尝试推动计算机视觉数据分析产品。

2020 年 6 月,字节跳动正式推出了企业技术服务平台火山引擎,依托大数据、人工智能等技术能力,以及增长理念与方法论,这家公司希望能够为客户提供技术产品与解决方案,帮助企业完善数字化转型底层建设。

上个星期的正式发布,则宣告了字节跳动已下定决心,要将成立至今的所有技术能力开放给全行业。不论是神秘的推荐系统,还是强大的 AI 美颜功能,在抖音、今日头条、西瓜视频等应用上的技术,所见即所得。

图片


字节跳动在过去九年间的高速增长,沉淀了经过大规模实践验证的增长方法、工具和技术能力,」火山引擎总经理谭待说道。「这些能力在火山引擎上有机地组合成为了统一的基础服务、技术中台、智能应用和行业解决方案四层架构。其中包含 60 多款单品,被统称为『智能增长技术』。」

具体说来,它提供的能力包括三个方面:

  • 首先是增长方法:其中包括字节跳动多年来自用的创意生产、内容制作、个性化匹配、用户运营能力等,其特点是数据驱动。在字节跳动自身的实践中,从算法改进、功能点验证,甚至每个产品的命名都是以数据驱动方式来进行的。
  • 然后是实用工具:做好一个工具并不容易,在字节内部数千人团队研发的工具支撑了这家公司的业务扩张,它们现在也通过火山引擎对外输出能力。
  • 最重要的是技术能力:用技术解决数字化问题,可以支持业务的爆发增长。在这方面,火山引擎把支持抖音、今日头条等全系产品的同款技术对外提供,包括基础架构、云原生、个性化推荐、音视频处理能力等,它们可以帮助企业更好地实现业务的数字化转型。

综合了方法、工具和技术,火山引擎提供的全链路方案以数据为资源,构建于字节跳动的基础服务之上。这种高度整合的能力降低了企业实现智能化的门槛。

按照字节跳动的总结,这套智能增长技术体系可用四个层次概括:

图片


在最底层是统一基础服务,火山引擎打造了统一的云原生操作系统,一方面可以屏蔽底层 IT 的差异性,支持研发敏捷的迭代,也能够提供弹性、稳定的算力支持。

在这其上是为开发者们准备的技术中台,而智能应用通过数据产品和业务工具来提升非技术人员的工作效率。最后在部分行业中,字节跳动已经打造出了一系列成型的解决方案。

一线字节工程师,向所有企业服务

火山引擎并不只是让已有内容的展示更加灵活,还能为人们带来全新的应用体验。在电商场景中,通过它的 AR 技术,人们可以在手机上试妆、试色、试鞋;通过推荐系统主动推送产品,可以改善用户体验,并提升销量。

图片


抖音同款的 AR 试妆,可以让消费者无需去柜台试色号,在手机上就能体验商品,这项技术为一家美妆交易类客户提升了 12.6% 的购买转化率。

在「智能增长技术」的产品矩阵中,个性化推荐算法很受企业客户青睐。利用高效的信息匹配机制,不同领域的客户获得了效果显著的增长。发布会上一组数据显示,使用火山引擎提供的推荐算法后,某电商客户的人均点击率提高 48.3%,人均 GMV(成交金额)更是提高了 100% 以上,多家手机厂商客户的应用商店、浏览器、负一屏等场景的点击率也有大幅增长。

这样为企业带来实际增长的案例有很多。在合作过程中,它们得到的都是技术研发人员直接的服务:字节跳动选择的组织模式简洁明了,用技术中台直接市场化的方式来支持火山引擎,没有创建新部门。

据介绍,在最新的视频编解码国际标准贡献排在全球前三的先进视频团队,创造了大量抖音爆款特效的智能创作团队,还有推荐算法、数据等不同领域优秀的团队,都在为火山引擎的企业客户服务。

「只有这样才能保证开放出去的是字节跳动内部最好的技术,」谭待说道。

图片


目前,火山引擎的「智能增长技术」已服务了众多客户,包括苏宁、京东、vivo、建设银行、银河证券、吉利、bilibili 和华润,并获得了人们的认可

点燃火种

为什么要做火山引擎,把技术开放出去?字节跳动认为现在到了合适的时候。

「从客户的角度来看,人们对于字节跳动的技术工具很感兴趣。作为科技公司,字节跳动的数字化应用是非常『激进』的。除了抖音和今日头条,我们的内部报表和流程,甚至 HR 系统的绩效评估也是高度数字化分析的。这些内容为公司内部决策有很好的效果,提升了效率。」杨震原表示。

对于字节跳动自身来说,将技术应用到更广泛的范围内,也能让研发团队找到更加合理的发展方向。

图片


「我们的优势在于自身业务的规模与复杂性。在做好自身业务的过程中,我们会发现很多问题、了解大量需求。这些需求打磨出了我们服务的能力,」杨震原说道。

除了众多大公司客户,字节跳动还希望将火山引擎的能量拓展至初创团体,并开放更丰富的技术与服务能力。发布会上,火山引擎推出了火种计划。

「对于小微企业来说,火种计划可以帮助他们在人力和资源有限的情况下,用上比较好的基础服务工具。」谭待说道,火种计划将向小微企业限时免费开放多款智能应用及数据产品,首批名额一千家。而在工业智能化转型过程中,互联网公司的技术无法生搬硬套,需要针对具体场景做更深入的优化,火山引擎也在与行业领军企业合作,共同研究解决方案,促进行业的数字化转型升级。

图片


开放自身领先技术的举动,在科技公司中并不让人陌生。推动云服务成为新时代基础设施的亚马逊 AWS,最早就是工程师们将自身运维工具、管理平台开放的一次「无心插柳」。但如今字节跳动的入局,显然会为企业服务市场带来新的冲击。

在火山引擎宣布大规模应用之后,一些声音认为字节跳动正在切入云服务市场,是要做中国「第四朵云」。不过对此这家公司的态度较为谨慎,表示:火山引擎目前还没有推出公有云产品,对市场相关猜测不做评论。

不论如何,做企业服务就需要持续而大规模的投入。字节跳动表示,自己有做好这件事情的决心和耐心。

「To B 市场行业间差异巨大,业务链条长,上下游复杂,我们需要学习的东西还有很多,」杨震原说道,「我们接下来可能需要在 30 年、50 年里一直做这件事情,才能取得更好的成功。」

产业火山引擎字节跳动
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的,并在随后的两篇论文中进行了修订。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

移动端深度学习技术

现阶段的移动端 APP 主要通过以下两种模式来使用深度学习: online 方式:移动端做初步预处理,把数据传到服务器执行深度学习模型,优点是这个方式部署相对简单,将现成的框架(Caffe,Theano,MXNet,Torch) 做下封装就可以直接拿来用,服务器性能大, 能够处理比较大的模型,缺点是必须联网。 offline 方式:在服务器上进行训练的过程,在手机上进行预测的过程。 当前移动端的三大框架(Caffe2、TensorFlow Lite、Core ML)均使用 offline 方式,该方式可在无需网络连接的情况下确保用户数据的私密性。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

推荐文章
暂无评论
暂无评论~