四月作者

五年落地超过八千家客户后,他们终于找到了AI规模化应用的完整方法论

AI 能力在产业端的规模化落地是否存在可能?第四范式用五年时间给出了答案——在金融、零售、医疗等行业领域积累了超过八千家行业客户 AI 落地业务经验。


“数据治理难、科学家稀缺、业务价值不佳以及算力成本负担重,是企业 AI 转型中四个最常见的坑,”第四范式创始人兼 CEO 戴文渊谈道,“这些问题归根结底是因为缺少基于规范和标准的基础设施。”

为此,他们从实战经验中提炼出一套完整方法论——从底层操作系统到基于自研 AI 加速卡的一体机,从模型开发工具到业务开发工具——并将其标准化地复制给更为广泛的产业客户与市场需求。
第四范式创始人兼CEO戴文渊

“是的,我刚从客户那里出来”。

电话那头,赶着搭高铁的胡时伟气喘吁吁,“他们是一家面向大学生的 APP 公司,平时日活也就百万左右,疫情期间达到了四百万,线上流量爆增,需求非常典型。”

胡时伟是第四范式的联合创始人,同时也是公司技术层面的首席架构师。这几个月以来,频繁穿梭于不同客户之间成为第四范式各个负责人的日常。

第四范式是一家面向人工智能机器学习平台的公司,来自于一帮年轻的研究人员,特别是的,他们曾为百度、今日头条等中国顶尖的互联网公司打造了最早一批的深度学习技术框架,手握彼时产业端稀缺的 AI 业务开发经验。

2014 年底,他们创立了自己的公司“第四范式”,并展现出惊人的成长速度和落地能力。五年的时间里,他们在金融、零售、医疗等行业领域积累了超过 8000 家行业客户。今年 4 月,第四范式完成 C 轮总计 2.3 亿美元融资,估值约为 20 亿美元。

据 IDC2019 年《中国机器学习开发平台市场评估》显示,第四范式机器学习平台市场占有率位于第一,领先于 BAT、微软和 AWS 等公司与平台。

在这背后,是机器学习模型与框架等偏向底层的 AI 能力走向业务端的突破,是 AI 价值切实落地到面向用户的场景里。

一、疫情催生流量格局剧变,如何解围?

2020 年,席卷全球的新冠疫情当属影响最大的市场变量,隔离与封城让线下产业举步维艰;而与此同时,线上办公新增 3 亿人,观看直播的人次达到 500 亿,一场线下用户向线上流量的大规模迁移或许只发生在一瞬间。

黑天鹅突如其来,促使线下经营者和线上流量主都不得不对重新深思 “在线化” 主题,胡时伟和同事们接触多了太多这样的声音。

“一方面,他们迫切地想要活下来;另一方面,如果能活下来,他们必须思考要做出哪些改变。”

在胡时伟看来,他们所面临的共同挑战主要集中在三个层面:
  • 移动化以后,如何找到用户;

  • 找到用户以后,如何经营用户;

  • 如何竞争获取用户的碎片化时间。

“比如传统零售业,店家熟知如何选址才能会有丰富的人流;到了线上,就是有效流量获取的问题,而这可能是线下店主所完全不了解的。”胡时伟说道。

此外,传统线下行业的竞争仅限于商圈,同品类的店铺,但到了线上,竞争泛化为无差异的用户的时间竞争。这些竞争或许发生在今日头条与银行应用之间,也可能是电商与阅读类应用的竞争。业务与交易的过程被打碎,用户的注意力稍不留意就被偷走。

种种挑战,无论是对于初涉移动互联网的线下店家,还是年轻的线上流量主,要想快速提出有效的解决方案都不是件容易事。

胡时伟,第四范式联合创始人兼首席架构师。

胡时伟和同事们想出了办法。不过主角并不是他们,而是封装了人工智能能力的功能包——“相当于为每家企业提供一个 VIP 专员为他们解决业务问题”。

具体来看,这些问题被梳理为增长、留存、变现三大类,每一类问题都关联了相应的自动化功能,比如要实现用户留存,可以通过关联推荐、热点推荐、千人千面等智能推送能力提升活跃度。

这些功能的影子最早出现在今日头条等信息流里,它们正是出自第四范式的早期团队。现在它们被定义地更加清晰和准确,其适用的场景也从内容领域拓宽到各行各业,成为第四范式面向企业用户的首个业务系统应用——天枢。

事实上,第四范式的这些单点能力已在多个领域落地并取得了不错成效,包括为在餐饮领域,百胜餐饮(KFC 母公司)提供 APP 点餐推荐功能,使其客均单价得到提升。在媒体领域,第四范式累计服务上千家媒体客户,每天为 2 亿人次提供千人千面的浏览体验。

第四范式总裁  裴沵思

二、管理 AI 业务的第一步:让数据 AI Ready

要让人工智能的能力轻松落地到客户端。在应用之下,还需要更为底层的能力支撑,以降低算力和建模的高门槛,让数据成为人工智能系统真正可用的数据。

第四范式将这样的平台能力集成为「AIOS」操作系统,脱胎于全流程 AI 平台「先知」——从最初解决数据建模问题,到实现模型快速上线,以及现在提供端到端的方案——该平台成为驱动第四范式能力升级的重要引擎。

和面向个人计算用户的 Windows 操作系统类似,「AIOS」操作系统主要面向企业用户,用于人工智能业务的管理,它类似于一套数据中台的系统应用,不过这里的「数据」有些特殊——它们是 AI Ready 的数据。

胡时伟解释,基于这种被特殊定义的数据形式和产品化模式,能够为企业的业务数据和机器学习系统之间架起一座桥梁,以解决人工智能落地实际业务过程中的「数据治理」的难题。

这套理论听来有些晦涩,数据还有「AI Ready」和「非 AI Ready」之分?这和「数据治理」有何关联?

胡时伟进一步解释,所谓「数据治理」,即指在 AI 数据的采集和传输过程,进行治理和规范化,很大程度上对应了数据清洗和数据集成等工作。实际上,这些环节在 AI 落地应用过程中耗费了大量人力和时间,因为 AI 应用的本质就是数据的问题。

回顾过往的市场与客户经验,胡时伟坦言,「从传统案例来看,机器学习这件事情,失败的概率其实非常大」。但他同时指出,这其中 90% 以上的苦恼都集中在数据问题,有时客户甚至无法意识到是自己的出了问题。

按照数据 AI Ready 的思路,「数据治理」的核心就在于将「非 AI Ready」的数据转换成「AI Ready」数据。胡时伟将其比喻为「用 Word 打开 PDF 格式文档的乱码问题」,第一步便是先转换成对应的正确格式文档。

第四范式团队的创新之处就在于,首次将何为机器能够读懂的「正确格式文档」定义清晰。胡时伟将其称之为「AIOS 最为重要的设计之一」。

「将大幅降低 AI 业务和其他 IT 系统之间的连接成本」,他说道,「用企业内部的数据形态去构建成 AI 数据,与之对应的 AI 业务就能自动地连接其他数据资源。」

而这恰恰是现有的传统数据管理与分析软件所无法实现的功能盲区,因为传统管理软件与 AI 业务管理软件的管理目标和服务对象不同,形成了原理和架构上的差异——前者无法理解数据一致性和有序性问题。

胡时伟以金融领域中机器学习对于欺诈行为的识别举例:机器学习通常需要从数据库调取历史交易数据进行学习和建模,用于判断和检测新的交易。但很多时候,由于历史数据在数据库中进行了格式处理,所以机器无法再辨认。(金融领域是第四范式最早开拓的优势市场,目前 80% 以上的头部银行都是第四范式的客户。)

除了在系统底层的设计思路革新之外,第四范式还提供了一套十分简易化的自动化建模平台——HyperCycle,基于团队积累的高维机器学习框架与 AutoML(自动机器学习)算法,将 AI 数据的分析过程简化为行为、反馈、学习、应用四个步骤。

与满是代码行的编程界面有所不同,HyperCycle 的界面和 IU 设计简洁易懂。

相比此前谷歌云、微软云等云计算推出的 AutoML 线上服务,胡时伟认为,HyperCycle 工具软件的成熟性与适用场景更为广泛。

三、从全生命周期看 AI 应用:谁才是「算力短板」

接触的客户与场景越多,对于 AI 应用落地的难点与痛点理解便越深刻,而在之中,算力已经成为 AI 落地话题绕不开的话题。

不止步于软件与算法能力的锻造,尤其在接触了广泛与深入的客户需求讨论后,这两年第四范式开始向硬件层面探索,并与今年推出第二代 SageOne 算力平台——SageOne 和 SageOne 领航两大系列,后者完全基于中国 AI 基础设施的软硬件设计。

第四范式副总裁郑曌在接受机器之心采访时表示,SageOne 领航算力平台最早由客户提出,满足对于数据的敏感性、合规性、安全性的更高需求。

目前,SageOne 领航通过硬件与软件、算法的高效适配,能够在性能上与国际主流计算平台性能对齐。郑曌透露,目前合作伙伴包括华为寒武纪、海光等。

此外,SageOne Advance 系列加入了第四范式自研人工智能加速卡 ATX900。经过全面测试验证,在风控反欺诈、反洗钱和智能营销等场景的性能比传统 AI 构建方案平均提升 4-10 倍。

与市面上已有的 AI 软硬一体加速方案不同,第四范式更看重从 AI 应用的全生命周期着手找到算力短板,并将之攻克。「传统方案主要聚焦在训练和推理两个环节的性能优化,但我们发现,AI 业务对于算力的需求贯穿了整个 AI 全流程生命周期。」

以数据数据准备环节为例,在软件层面与 AIOS 系统的数据治理优化相对应;在硬件层面,通过 ATX900 设计提出针对性的优化提速方案:包括提升 FE 过程中数据落盘的压缩效率,性能最高提升 10 倍;自研 GBDT 模型训练加速(FlashGBM),加速 GBDT 模型训练速度;采用自动调惨技术,自动优化模型训练超参数,最高提升高达 19 倍等。

通过一系列的软硬件深度优化,SageOne 对比传统算力服务器设计,在保证性能一致的基础上,将算力成本降低至 1/10。据介绍,在某连锁餐饮企业实际应用场景中,SageOne 以 8 台替换了 88 台通用服务器集群。

郑曌表示,目前行业客户对于 AI 应用与基础设施的建设需求多种多样,拓宽产品的维度提供更为完整的解决方案是市场的需求所在。比如从横向维度来看,互联网成熟度较高的客户倾向于软件方案,非互联网客户因为基础设施薄弱,加入 AI 应用之后算力成本势必成为其负担,便需要完整的软硬一体方案。

整体来看,第四范式所提出的整套 AI 落地软硬件产品逻辑在于,从底层系统出发,从实际算力短板着手,填平算力与技术的沟壑,提供从数据到建模,从数据到应用的「傻瓜式」开发工具。

他们打破了新增 AI 业务与企业现有 IT 业务的高墙,得以让 AI 数据与计算在企业系统里自由穿梭与融合。我们有理由相信,AI 技术终将走下神坛,成为企业客户真正触手可及的业务能力。
产业AI第四范式天枢第四范式
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
第四范式机构

第四范式成立于2014年,是国际领先的人工智能平台提供商,利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。第四范式坚持以“Empower AI Transformation and Inspire AI For Everyone”为企业愿景,依托于AutoML、迁移学习等技术与企业级人工智能PaaS平台,不断推动人工智能快速、规模化的产业落地。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业AI创新变革。

https://www.4paradigm.com/
寒武纪机构

寒武纪科技是全球智能芯片领域的先行者,宗旨是打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司创始人、首席执行官陈天石教授,在处理器架构和人工智能领域深耕十余年,是国内外学术界享有盛誉的杰出青年科学家,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。 团队骨干成员均毕业于国内顶尖高校,具有丰富的芯片设计开发经验和人工智能研究经验,从事相关领域研发的平均时间达七年以上。 寒武纪科技是全球第一个成功流片并拥有成熟产品的智能芯片公司,拥有终端和服务器两条产品线。2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU,与特斯拉增强型自动辅助驾驶、IBM Watson等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会评选的十五项“世界互联网领先科技成果”。目前公司与智能产业的各大上下游企业建立了良好的合作关系。在人工智能大爆发的前夜,寒武纪科技的光荣使命是引领人类社会从信息时代迈向智能时代,做支撑智能时代的伟大芯片公司。

http://www.cambricon.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
流计算技术

Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,比如map、reduce、join和window。

推荐文章
暂无评论
暂无评论~