Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数元灵科技加入Linux Foundation AI & Data基金会,并捐赠开源湖仓项目 LakeSoul

数元灵加入 LF AI & Data

近日,数元灵科技宣布加入 Linux Foundation AI & Data 基金会,积极参与到全球人工智能(AI)和大数据(Data)相关技术的开源创新和技术生态建设。数元灵科技自成立以来始终坚持技术创新、开源协作的开发理念,长期致力于研发高价值、高实用性、低成本的创新技术及解决方案,希望通过不断增进与全球开发者和开源社区的互动与融合,共同促进国产开源技术繁荣发展。

LakeSoul 湖仓项目自 2021 年 12 月底开源以来,数元灵一直践行着开源的理念,持续向开源项目贡献代码,并做了大量的功能、性能的迭代优化。目前 LakeSoul 项目已在 Github 上获得全球近 1300 Star和290+ fork。

为了能够让 LakeSoul 的社区更加繁荣,同时也走向国际舞台,近日,我们决定将 LakeSoul 项目捐赠给 Linux Foundation AI & Data 基金会,并在项目答辩会上获得基金会技术委员会(Technical Advisory Committee)的一致高度认可,并通过投票,成为了基金会沙箱孵化项目,同时也是 Linux 基金会首个湖仓框架项目。后续 LakeSoul 开源项目将以社区中立的方式进行运作,由 Linux 基金会进行社区管理和协作。在此,我们也真诚邀请对开源湖仓框架感兴趣的开发者和用户,加入到 LakeSoul 开源社区中来,为打造新一代的开源湖仓框架贡献力量。项目地址: https://github.com/lakesoul-io


LakeSoul 开源湖仓框架介绍

国产唯一开源湖仓 LakeSoul 于 2021 年 12 月底开源。LakeSoul 的设计理念是打造简单易用、高性能的云原生的数据湖仓,一体化地支持 BI、AI 多种应用落地。

LakeSoul 具有以下几个重要特性

ACID 事务高并发更新:LakeSoul 通过元数据库事务机制实现了两阶段提交协议和自动提交冲突处理,保证了流批作业并发写入数据的一致性和原子性;并能够支持高并发高吞吐的写入和更新。

  • 高效灵活的 upsert 操作:LakeSoul 支持 range 和 hash 分区,通过灵活的 upsert 功能,支持行、列级别的增、删、改等更新操作;并原生支持具有相同主键的多流拼接功能,能够很方便地支持构建实时机器学习等场景;
  • 高性能的 IO 层:LakeSoul 使用 Rust 实现了异步的文件读写,包括 upsert 更新和 Merge on Read,并对对象存储、HDFS等存储层做了大量性能优化,相比同类框架有着显著的性能优势;
  • 构建实时数仓:LakeSoul 支持流或批的方式对湖仓中的表进行读写,可以通过 SQL、Python 等语言进行开发。LakeSoul 支持在线数据库 CDC 流整库自动同步入湖,支持 DDL 变更同步;支持 Kafka 消息队列自动入湖。同时,LakeSoul 表支持增量流式读取,LakeSoul 表读出的增量流可以作为 Flink Changlog Stream 格式,进一步进行增量计算,从而实现高效的全链路实时数仓。
  • BI&AI一体化地支持:LakeSoul 实现了原生的 IO 层,并提供 C、Java、Python 等接口,可以很方便地对接各类大数据计算、AI 计算框架,在一套湖仓数据上实现 BI、AI 多种应用,统一数据口径并最大限度发挥数据价值。

LakeSoul 具有显著的性能优势

从公开的性能对比测试中可以看到,得益于 LakeSoul 的元数据层并发事务处理能力和 IO 层的性能优化,在写入和读取时,LakeSoul 均有显著的优势,其中 Upsert 写入更是数倍领先于业内同类框架。

LakeSoul 典型应用场景

1.构建实时数据中台

LakeSoul 提供了从数据库 CDC、消息队列等多种数据源同步入湖的工具,并能够支持自动表/Topic 发现,自动 Schema 变更同步等,从而能够很方便地将上游数据写入 LakeSoul 湖仓中。

LakeSoul 湖仓中的表在实时更新后,自身的变更可以再次以增量 CDC 流的方式读出,并支持读取为 Flink Changelog Stream,从而可以进一步驱动下游链路的增量计算,实现全链路实时的湖仓分层建模。

通过这样的方式构建数据中台,能将上游多源异构的多模态数据在湖仓上进行统一管理。同时能够大幅降低数据延迟,保证数据更新的实时性;另一方面借助全链路增量计算也能够大幅降低计算资源消耗。此外,整个链路是由增量数据来驱动更新计算的,不再需要传统的调度系统。

2.构建实时机器学习样本

LakeSoul 原生支持多流拼接,能够将多个具有相同主键的实时流(其他字段可以不同)拼接到一张目标表中。这个功能可以用以构建实时机器学习样本,例如在一个推荐系统中,可以实时将用户特征、商品特征和用户行为标签等实时流进行拼接,形成训练样本,如下图所示:

通过这种方式,可以高效实时的构建机器学习样本,实现低延迟的机器学习数据体系。


共创开源社区未来

数元灵科技将与 LF AI & Data 携手促进 LakeSoul 开源项目的技术生态建设和应用落地。同时,LakeSoul 将会与 Linux 基金会旗下的多个数据与智能领域的开源项目紧密协作,包括原生支持 PyTorch 等 AI 框架直接读取湖仓数据、数据血缘和权限控制等重要功能。

数元灵科技 CEO 朱亚东表示:“我们很荣幸能够加入 LF AI & Data 基金会,共同促进技术开源,同时,将当前国产唯一开源湖仓 LakeSoul 捐赠给基金会也意味着国产湖仓走上全球技术舞台,期待未来有更多的技术从业者参与到社区的建设迭代,共同打造新一代的开源湖仓框架。” 

产业
1
暂无评论
暂无评论~