作者

数据太多、太乱、太杂?你需要这样一套数据治理流程

数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范处理的。

最近,明略科技与合肥工业大学的研究者在中文核心期刊《软件学报》上发表了一篇关于数据治理的论文。它介绍了数据治理的概念,并对数据清洗、交换和集成等进行具体分析,从而提出了一种新型大数据治理框架「HAO 治理」模型。

论文地址:http://www.jos.org.cn/1000-9825/5854.htm

数据治理真的很重要?

智能是基于数据的,而数据又是基于大量人工与工程努力的,所以人工智能还有相当一部分「人工」。数据收集需要人工确定数据源,或者手动写爬虫;数据处理则需要观察数据,并手动写整个清洗过程;数据标注则要根据具体业务,看看怎样给数据打标签才好。

这些过程都会耗费大量精力,有时候如果处理路径不明确,甚至会导致重复或冗余的人力工作。因此事先确定一个具体的处理流程,明确数据该怎样治理、算力该怎样分配、模型又该如何部署,那么整个开发过程能减少很多人力成本与工程负担。

作为论文一作,明略科技集团首席科学家、明略科学院院长吴信东教授表示:「数据治理的本质是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评估、指导和监督的过程,通过提供数据服务创造价值。数据治理可对数据战略资产进行管理,通过从收集汇聚到处理应用的一套治理机制,提高数据质量,实现数据共享和价值最大化。」

既然那么重要,就需要一套框架,就像 DL 模型最开始都是手动写,但成为主流后就需要 TensforFlow 这样的框架。吴信东等研究者详细分析了数据治理中的各种模块,并表示数据治理从来都不是一次性的程序,每个组织必须采取许多小的、可实现的、可衡量的步骤来实现长期目标。

因此,如果我们想降低数据治理的成本,最优地调配数据、模型及算力,那么就需要一个成熟的框架。如下我们重点介绍「HAO 治理」模型的概念与过程,并从公安数据治理的角度看看该框架在实际应用中是什么样的。

什么是 HAO 治理模型

前面介绍过数据治理是从数据收集到应用处理的管理机制,而框架则规定了有关数据的流程、原则或定义。比如说我们现在有一堆图像数据集,那么从图像源、图像采集到图像储存,我们先要确定数据的接入方式是什么。

随后,因为这些图像不止用于一个任务,所以需要确定标准化的形式,并做一些清洗与预处理;当然,标注还是根据任务来确定的。最后,这些图像数据还应该统一地提供给不同的模型与任务,从而构建不同的服务,这一部分也是该统一管理的。

而明略科技设计的「HAO 治理」模型会从大数据开始,为「HI」(人类智能)、「AI」(人工智能)和「OI」(组织智能)三者协同的智能提供数据治理支持。下面举个 HAO 的例子:

其中 HAO 智能的输入不仅有各种传感器,还有人类的主观感受。后面的雾计算会分析所有信息,并将机器运算/推理结果与人的分析相匹配,形成概率化与规则化有机协调的优化判断。人类、机器和组织三者结合,它们的数据与判断相互协助,这样才能最大化地利用数据的能力。

整个人机协同系统是非常复杂的,那么这就要求有一套成熟的治理框架来规范数据与算力的分配。

这样的系统应该需要满足很多要求,例如全面的数据接入机制、标准化的数据处理流程、多元集成的数据组织模式和多种数据服务模式。其中数据服务模式可以向使用者提供查询检索和比对排序等基础数据服务,也可以面向专业人员提供挖掘分析和专家建模等智能数据服务。

如下展示了 HAO 智能的蓝图设计,它主要包括感知、认知和行动三部分。

总体而言,整个过程会从大数据环境开始,并根据大数据、人类专家系统人工智能和组织智能生成对应的知识图谱,从而将大知识应用到人机协同中。此外,「HAO 治理」是一种实用系统,因此也就要求模块化数据源和治理功能,它需要更快速与灵活地搭建新特性。

「HAO 治理」模型是什么样的

「HAO 治理」模型主要包含三部分,即数据接入模块、数据治理模块和数据服务模块。其中数据接入需要采集、汇聚等操作,从而构建异质的大数据。其次数据治理模块主要对数据进行一系列预处理过程,从而构建更加容易建模的数据。最后的数据服务模块则通过分析与加工,为外部提供各种新的能力。

1. 数据接入

一般而言,现实世界的数据主要分为结构化或非结构化,而这些图像、文本等各种数据都应该进行统一的接入与管理。对于数据源之上的接入模块,它主要完成不同类型的抽取汇聚任务配置,包括异构数据库之间数据传输汇聚,不同类型的文件数据和服务接口间相互传输。

2. 数据治理

接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。

其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。

3. 数据服务

数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。

基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。

其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。

统一数据接入、治理和服务模块,就能构造出「HAO 治理」模型,它规定了最一般的处理流程。吴信东教授说:「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。」

公安的数据治理应该是什么样的

上面介绍了「HAO 治理」模型的主要概念,那么它应用到现实世界中又是怎么样的,它能进一步降低人工成本吗?在论文的最后一部分,研究者以公安数据治理为例,介绍了整体流程与框架到底是什么样的。

先来看张图,如下图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用四部分。它将不同的数据按照应用分到了不同的主题或专题库,例如常住人口专题库或企业信息专题库等等。与此同时,不同的数据也能最终组成知识图谱,相当于构建了一种庞大的背景知识。

看上去这张图非常复杂,但其实也就分为储存、计算、管理和应用四部分。

  • 数据存储:基于分布式的大数据存储平台;

  • 数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;

  • 数据管理:对集成后的数据统一维护与管理;

  • 数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。

从上图我们可以看到整个工作流大概从预处理到分析挖掘分为 7 个部分,其中不同的部分会调用不同的数据知识库,最后的分析挖掘则是我们希望获得的结果。

在整个流程中,我们除了对数据进行各种操作与处理外,还要创建新的知识表示方式。例如将数据按照一定主题进行关联来构造一个模型,公安数据治理分别以人、物、时空、组织、虚拟标识、 案件等作为主题来建立模型。

除此之外,知识图谱按照目标数据可以分为实体、事件、关系三种类型,从而建立数据之间的关联关系。如下在公安场景中,我们能以人为中心实体构建的一个简单的知识图谱。其中我们需要建立人与电话号码所属关系、人与护照所属关系及人与人的关系等等。

以上就是公安数据治理的简要结构了,吴信东教授说:「明略科技提出这样的数据治理框架,希望通过数据在线、分析洞察、闭环智能「三步走」战略,构建从感知到认知再到行动的反馈闭环,将人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。」

工程明略数据数据治理数据分析
2
相关数据
吴信东人物

吴信东教授是数据挖掘研究与应用的知名学者,明略数据首席科学家、科学院院长。在加入明略数据前,曾任美国路易斯安那大学计算机科学终身教授,兼任该校计算与信息学院院长。此外,他也是长江学者、海外杰青、国家「千人计划」特聘专家、IEEE Fellow、AAAS Fellow。

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

雾计算技术

雾计算或雾联网,是使用最终用户终端设备或连接最终用户设备的边缘设备,以分布式协作架构进行数据存储,或进行分布式网络数据包传输通信,或相关分布式控制或管理。雾计算是由思科在2014年所提出的概念,为云计算的延伸,这个架构可以将计算需求分层次、分区域处理,以化解可能出现的网络塞车现象。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

推荐文章
暂无评论
暂无评论~