把纸质家谱做成数据中台,原来是这样的体验

从数据采集、数据治理,再到知识挖掘与推理,一个家谱数据中台到底是怎样炼成的?

说起「数据中台」,很多人都不会感到陌生。但究竟如何定义「数据中台」?也许就会难倒一大批人了。


「数据中台」是近年来比较火热的一个技术概念,最早源于国内的科技公司。简单来说,就是利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成标准后的数据 API,进而提高数据的共享能力。

目前数据中台的建设尚处于起步阶段, 还没有统一的数据中台建设标准、规范以及评价指标,且没有统一规范的定义,其英文译法也多种多样:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但这些名字都不能很好地体现其数据共享和数据价值最大化的实质。


近日,来自合肥工业大学、明略科技北京大学等机构的研究者在《自动化学报》上介绍了关于构建家谱知识图谱的数据中台实践。经过广泛研究,研究者在这篇论文中给出了关于「数据中台(Central-Platform)」的正式定义:

数据中台将一个机构 (企业、事业、或政府部门) 的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制, 以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理, 逻辑管理包括数据结构的设计和数据之间相关性的分析, 如数据仓库; 物理管理包括数据的存储和检索。

此外,以华谱系统为例,这篇文章整体介绍了关于「数据中台」的定义、功能模块、关键技术、挑战问题以及相应的解决方案。研究者利用知识图谱构建和推理技术,从海量家谱数据采集、汇聚开始,在数据治理、数据开发、数据资产管理等模块建设过程中辅以 「HI」 (人类智能)、 「AI」 (人工智能) 和 「OI」 (组织智能) 三者的交互和协同,创建了一个标准、可复用的家谱数据中台架构。


华谱数据中台的数据管理架构建设和关键技术

下图展示了华谱数据中台的架构 Huapu-CP,我们以该架构为例,来分析一下家谱数据中台系统核心模块的主要技术以及要解决的问题。

图 1:Huapu-CP 框架图。

具体而言,Huapu-CP 数据中台架构特点可分为三个层面:

1) 基于数据的逻辑管理和物理管理,建设了家谱领域数据管理体系,提高数据服务效率,加速数据价值变现过程,打破了信息之间的屏障。

2) 基于 HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能体系,采用数据规范、数据清洗等数据治理技术形成了包括家谱人物数据、人物关联数据、社交数据、日志数据等的数据体系,更好地赋能于华谱系统前台业务。

3) 融合知识图谱技术,以家谱知识图谱作为数据中台架构的数据底座,从业务的角度组织数据。完成传统数据模式无法支持的节点关联分析、社区发现、用户推荐等复杂计算和挖掘任务。

数据的物理管理

首先,从数据的物理管理层面看,Huapu-CP 选择了图数据库集群的方式,将数据分布存储到多个机器上,并进行实时同步,以保障数据的安全性、一致性及性能的可扩展性。如图 2 所示:

图 2:物理管理框架图。

针对图数据规模较大、图数据分析与挖掘耗时较长的问题,通过对大数据计算算法和框架的对比研究,华谱系统采用 Spark 分布式计算框架,在上层应用 (如子图模式查询、同名人物识别) 中,利用图划分算法将原始的图数据拆分为多个子图,基于分布式计算并行处理,以节省整体计算时间、 提高计算效率。

Huapu-CP 的数据采集方式包含 4 种,其数据采集架构如下图所示:

数据采集架构图。

数据的逻辑管理:HAO 智能体系

在数据的逻辑管理阶段,华谱系统将知识图谱技术、专家智能、组织智能等技术融入数据表示、数据治理等子模块中,协调逻辑管理整个流程。

逻辑管理框架图。

Huapu-CP 利用 HAO 数据治理构架进行数据规范、数据清洗、数据交换和数据集成等数据治理工作。

数据治理架构图。

数据安全和隐私保护

除此之外,家谱数据和家谱服务需要一系列资产管理和用户关系管理算法支撑,Huapu-CP 已形成较为完善的算法开发体系。在数据安全和隐私保护上,Huapu-CP 架构也从用户权限管理和应用权限管理两个层面进行了设置。

针对用户权限管理,Huapu-CP 架构中提出了基于图数据库的 「粗细粒度结合」的权限管理方法,并提出了基于 HAO 模型的权限管理闭环架构。

「粗细粒度结合」的权限管理方法。粗粒度表示该用户所拥有的角色,细粒度指针对数据层面的权限管理。

基于 HAO 模型的用户权限管理架构。

如上图所示,基于 HAO 模型的用户权限管理闭环架构的主要流程为: 由领域专家 (HI) 和组织智能 (OI) 设计用户的权限体系, 由人类专家 (HI) 审核后在权限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供权限调整方面的反馈, 并再由 HI 或 OI 审核、优化 。其中, 为了实现闭环权限控制,系统应实时地采集、存储用户行为数据和用户操作数据,并设计智能的日志分析算法。

针对应用权限管理,研究者通过设置应用读取数据的权限,避免恶意修改读取数据程序而导致的数据泄露问题; 同时,加入 HAO 模型实现应用权限管理的闭环,便于应用的改进和升级。

在 Huapu-CP 架构中,开发新应用的权限管理流程如下: 首先,由于每个应用只需部分数据的读取权限,为了系统中数据资产的安全性与隐私性, 应限制数据访问权限为该应用所需的最小集合。因此,「HI」与 「OI」可基于该应用的实际需求设计该应用所具备的最大权限集合。其次,由于应用的需求可能存在变化, 该应用交付使用后可针对用户行为数据分析或用户反馈数据分析 (AI) 得出该应用改进方向和内容, 反馈至专家 (HI) 和组织 (OI) 重新设计应用权限, 形成权限管理的闭环。

Huapu-CP(https://www.zhonghuapu.com/)对数据中台建设进行了一个成功的尝试,目前已有千万级数据节点,能提供秒级数据服务。但数据中台技术尚处于起步阶段,还面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战。新一代的数据中台技术,在融合数据的基础上,更需要关心是否能够很好地沉淀行业知识。研究者表示,知识图谱技术相对于传统的二维表使用图描述实体与关系,其复杂的图结构更有利于探索数据之间的关联关系和获取知识。
产业明略科技数据中台
2
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

数据仓库技术

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

明略科技机构

明略科技作为更具行业“Know-how”的新一代数据中台先行者,致力打通感知与认知智能,连接人、机器、组织的智慧,帮助企业构建人机协同的行业大脑,加速企业数字化转型。明略科技致力于探索新一代人工智能技术在知识和管理复杂度高的行业中的落地。打通感知与认知智能,通过多模态人工智能和大数据技术,连接人、机器、组织的智慧,最终实现具有分析决策能力的高阶人工智能应用,让组织内部高效运转,让更多的人和资源投入到创新的工作中去。明略科技始终以数据安全和隐私保护为最高纲领,立志成为全球企业级人工智能的领跑者,创造人机同行的美好世界。

https://www.mininglamp.com/
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~