Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大格局!第四范式要在一年内开源95%核心技术


最先落地 AutoML 的那家公司,现在喊出了开源。

自动机器学习 AutoML 技术,可以把特征提取、模型选择参数调节等机器学习的复杂过程实现自动化。这种能够大幅降低 AI 应用门槛的工具,是目前人工智能业界炙手可热的方向。

第四范式成立之初就开始投入力量研究 AutoML 技术,现在又把自动化 AI 的能力拓展到 AI 应用的大多数环节。

在 6 月 23 日的年度发布会上,第四范式的 AI 操作系统 AIOS 升级到了 2.0 版。更引人关注的是,这家公司还计划在一年内将 95% 核心技术开源出来。

「我们把最核心的数据和算力技术开源给技术社区,它们是开发者最需要的东西。」第四范式联合创始人、首席研究科学家陈雨强说道。

第四范式技术副总裁郑曌等人在发布会上宣布了 AIOS 核心技术的开源。

从零开始,构建 AI 数据引擎

首先是机器学习数据库 OpenMLDB。在 AI 时代,机器学习模型不断高频次演进,这意味着数据供给的重要性不断提升。但即使是在大型科技公司里,我们仍然能看到 SQL 数据处理 10 小时,上线排查 6 个月这样的情况。 

机器学习技术实现理性和瞬时高效的推理判断,但不论事务型数据库、分析型数据库还是传统数仓,在执行这类机器学习任务时都无法保障正确的数据供给,」在发布会当日的技术分论坛上,第四范式资深架构师王太泽说道,「由于不是面向机器学习的设计,传统的数据库无法完全覆盖从离线、在线到数据反馈的全流程,对于机器学习应用来说效率较低。」

第四范式帮助超过 120 个场景完成了数据的开发和矫正,这让他们的工程师总结出供给正确数据的解法。

与Hadoop、Oracle、MySQL 等目前流行的数据库相比,第四范式提出的OpenMLDB,定位是为AI 而生的机器学习数据库,而这也是目前行业内的空白。

OpenMLDB 解决了 3 个机器学习的核心数据问题:

首先是离线在线不一致,OpenMLDB 通过统一的数据存储引擎避免了跨数据库的信息交换。另一方面,通过统一的数据计算引擎,这套系统使离线和在线使用同一套计算逻辑,确保了总结规律和线索演算时思维方式的一致。

其次是时序正确性:在超过一半的场景中,由于传统的数据库系统无区别对待历史经验和未知信息,数据科学家在数据开发过程中产生了时序泄露,在进行规律总结的时候使用到了不该使用、来自于未来的「穿越数据」。OpenMLDB 通过使用自动时序拼接语法和时序泄露检测模块,避免了错误的数据使用。 

最后是闭环完整性,机器学习需要将线索演算以及业务推理判断正确与否的反馈沉淀成经验和知识,这需要数据库系统能够具备 将线索推演,以及判断的反馈,进行正确关联的能力。OpenMLDB 通过对线索与反馈的自动拼接检测与自动关联,保障了唯一拼接标识,避免了数据拼接错位的问题。 

在从传统数据库系统切换到 OpenMLDB 后,开发过程的数据正确性得到了保障。除了性能强大,OpenMLDB 在使用上也很方便,它支持标准 JDBC、Restfull 和 SQL 接口。

「MLDB 是我们的核心能力。在机器学习数据库上,我们的技术是非常领先的,」陈雨强表示。在一些 AI 决策任务中,使用 OpenMLDB 的开发效率可以提升多达 8 倍,相比传统数据库进行线上实时特征计算时,使用 OpenMLDB 能够 3 到 10 倍的性能提升。

为 AI 而生的操作系统

在平台侧,第四范式推出了为 AI 而生的的操作系统内核——OpenAIOS。

AI 的应用深入来看要经历十几个步骤,不同的技术组件支撑了不同的步骤,而每一个步骤对资源的需求又有着较大的不同。第四范式将这些环节的能力面向计算、存储、通信三个方面进行了进一步的抽象和沉淀。

这是一套分布式的 AI 操作系统,它拥有较为完整的开发体验:支持 Visual Studio、Jupyter Notebook 等编译器,内置核心应用和商店,同时支持第三方应用,又使用了原生的 Kubernetes 环境,拥抱所有云原生应用。

所有这些都是为了解决智能化过程中面临的异构计算挑战。如今的计算设备内除了 CPU、GPU,还有很多不同的 AI 加速芯片。这些算力架构各不相同,在互相联络时还因为空间的距离存在一定延迟。

为了实现有效的算力,第四范式研究人员实现了异构 Kernel 深度优化、计算协同处理、资源调度等能力,优化了数据存储,又自研了异构硬件专用的通信协议。
  • 在算力方面,当数据量大到通用计算芯片无法处理时,OpenAIOS 的多级计算内核有针对性的设计硬件之间的协同处理策略,将计算任务进行工作量拆分,通过统一的智能化调度,将拆分后的任务给到不同的专用计算芯片进行处理。

  • 在存储方面,因为内存和显存不够导致的任务失败是开发者最常遇到的难题。在不侵入现有应用和代码的情况下,OpenAIOS 在操作系统内部建立了一套面向内存和显存的多级存储内核,通过自动扩容策略和多级缓存机制将存储容量进行扩展,提高了任务的成功率。 

  • 在通信速率方面,数据的交换效率是人们关注的重点,OpenAIOS 提供了多级通信内核,在机器学习特有的梯度权重交换等环节,提供了低延迟、高吞吐的通信框架, 以及面向异构加速器的专用通信协议,减轻数据通信上的压力。

多设备的情况下,OpenAIOS 可以高效率调动 GPU 算力,提升模型训练时的速度。在 GPU 虚拟化的工作中,第四范式系统率先实现了应用零改造的显存扩容。

第四范式技术副总裁郑曌在发布会上宣布开源机器学习操作系统内核 OpenAIOS,以及面向实时智能决策的分布式机器学习数据库 OpenMLDB,面向开发者提供开箱即用的技术能力。

开源地址:

  • OpenMLDB Github:

  • https://github.com/4paradigm/OpenMLDB

  • OpenAIOS Github:

  • https://github.com/4paradigm/openaios-platform

基于OpenAIOS内核,『AIOS社区版』也已经正式上线,AIOS的核心技术都会以「社区版」的形式,免费向开源社区开放。

『AIOS社区版』:openaios.4paradigm.com

郑曌还宣布了 Knot「中国结」计划:在未来一年之内,公司将实现 95% 以上的核心技术开源开放,并为各家企业共计培养超过一万名 AI 应用开发工程师。

「我们相信 AI 决策是帮助企业转型的新范式,是能够带领企业走向质变的重要方法。第四范式希望能够帮助开发者做越来越多重要的工作」郑曌说道。
产业开源第四范式AutoML
相关数据
第四范式机构

第四范式成立于2014年底,是国际领先的人工智能平台与技术服务提供商, 依托于领先的机器学习技术与丰富的行业实践经验,第四范式打造了企业智能化转型战略产品“天枢”,通过构建以消费者为中心的全链路客户流量运营,帮助企业实现以创造业务价值为目标的智能化转型。此外,第四范式为企业树立了正确的转型目标和方法,通过自动化AI应用构建平台第四范式HyperCycle ML,提升AI建模效率,降低AI应用门槛,将AI技术快速、规模化落地到企业众多业务场景中,提升业务场景价值。同时,第四范式采用软件定义算力的先进理念为企业提供软硬一体AI集成系统SageOne,降低企业AI部署总体拥有成本,推动企业全面智能化转型进程。目前,第四范式已为金融、零售、能源、医疗、制造、互联网、媒体等行业成功落地上万个AI应用,助力各行业企业的AI创新变革。

https://www.4paradigm.com
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

推荐文章
暂无评论
暂无评论~