Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百分点大数据技术团队:应急领域数据治理“N步法”实践探究

编者按

自2018年应急管理部门设立以来,国家应急管理体系和能力有了极大的提升,但也为原应急各有关部门应急资源和力量的整合带来了挑战;同时,随着物联网、云计算、移动互联网等技术的成熟,以及智能移动终端的普及,社会逐渐步入以数据为核心的大数据时代,围绕数据开展的应急管理体系建设、灾害模型研究和战略调整,成为应急管理模式变革的必然趋势,应急行业面临着数据获取难、数据组织难、数据共享难、数据应用难等数据治理问题。

百分点大数据技术团队基于在应急行业项目中积累的经验,总结了一套应急数据治理方法体系。

应急管理是国家治理体系和治理能力的重要组成部分,2018年第十三届全国人民代表大会第一次会议批准通过国务院机构改革方案,设立中华人民共和国应急管理部,整合国家安全生产监督管理总局,国务院办公厅的应急管理,公安部的消防管理,国土资源部的地质灾害防治、国家森林防火指挥部等职责,将突发事件应对工作作为重要职能予以全面加强,纳入经济社会发展规划;2019年习近平总书记在中央政治局第十九次集体学习时强调充分发挥我国应急管理体系特色和优势,积极推进我国应急管理体系和能力现代化。

但当前,围绕数据开展的应急管理体系建设存在着诸多挑战:

应急管理领域海量数据采集汇聚难

安委办成员单位应急相关业务系统众多,数据传输格式不统一,导致数据汇聚难,进而使得各个单维度数据独立,无法发挥数据融合作用。

缺乏各业务系统多维数据的关联

缺乏多维数据关联,单维即独立的“线条”,独立的信息“管道”,无法形成“网”,即缺乏围绕应急管理领域信息要素关联关系的挖掘。

缺少应急管理智慧应用的数据支撑服务

缺少应急管理智慧应用,目前仅仅是各个业务应用系统的安全管理服务应用,当前的数据服务无法实现支撑各个安委办成员单位的应急管理领域智慧应用。

缺乏数据共享服务,业务难以联动

各部门之间存在信息孤岛,各自建立的系统之间数据相互独立,由于无法相互共享,导致数据利用率低下,难以做到数据价值最大化。

数据建设多样,无统一建设标准

所需接入的系统繁杂,系统产生的数据存在交叉情况,由于缺乏统一的建设标准,各系统产生的数据字段、命名规则等存在差异。

因此,应急行业数据治理工作尤为重要。遵照应急管理部《应急管理信息化2019年第一批地方建设任务书》、《数据治理系统地方建设任务书》,与国务院安委会办公室、国家减灾委办公室联合下发的《关于加强应急基础信息管理的通知》文件指示,应急行业的数据治理工作在统一信息资源规划下,利用数据接入、数据处理、数据管控、数据服务、数据共享交换等技术,实现应急管理部门内部、外部共享交换的应急数据资源的汇聚、治理,形成统一的数据资源池,对内部业务系统和外部共享交换提供统一的数据目录服务,是加强应急基础信息管理,推进信息共享共用,深化应急基础信息的分析应用,提升应急智能预测预警和辅助决策水平的基础工作。

一、应急数据治理流程概述

依据应急管理部下发的数据治理建设任务要求,按照数用分离、智能驱动的思路,百分点依托大数据全栈技术和产品,构建符合应急管理业务的大数据治理体系,实现数据接入、处理、存储、应用等全生命周期的管理。在信息资源规划下,构建统一应急大数据资源中心,实现统一的数据标准、数据接入、数据服务及深度的数据应用和全面的数据安全,提供数据共享交换、数据应用等服务,为风险管控动态化、监测预警智能化等应急管理的各项业务,提供强有力的数据支撑。

图1. 应急管理数据治理流程框架

数据接入

数据接入是指根据业务需求,在接入准备阶段定义数据获取、处理、治理、组织、服务各环节的流程、方法和流转机制,并根据数据探查和定义将多源异构数据接入大数据资源池,完成与数据提供方的数据对账。

数据接入主要包括数据探查、数据定义、数据读取和数据对账等功能。

数据处理

应急行业数据处理是指按照数据接入环节的数据定义,结合应急行业防汛抗旱等特殊字段数据处理规范,针对规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不一的大数据特性,以数据应用为导向,通过规范化处理,提升数据价值密度,为自然灾害、安全生产和城市安全等领域支撑的多场景智能应用实现数据增值、数据准备、数据抽象,为应急管理事前、事发、事中和事后四个阶段,提供科学决策支持。

数据处理主要包括数据提取、数据清洗、数据关联、数据比对、数据标识和数据分发等功能,按不同阶段的数据处理要求,将数据原始备份、标准化处理、整合加工、结合业务应用的数据分别存储于原始库、资源库、主题库、专题库四大库,为数据组织和数据服务提供支撑。

数据管控

应急行业数据管控通过应急相关数据标准、元数据管理、数据质量管理、统一应急数据资源目录规划等功能,实现应急数据资产管理和对数据全生命周期的统一管控。

数据质量管理是指通过建立数据质量评估标准和管理规范,及时发现、定位、监测、跟踪、解决各类数据质量问题,形成数据质量问题的闭环处理,以保证数据质量的稳定可靠。

数据运维管理是指通过釆集数据接入、处理、组织和服务等各项任务的状态信息,对异常状态进行预警和处置,实现对各任务的实时监控和管理。

数据共享交换

应急行业数据共享交换通过汇聚应急行业数据,打通各单位的信息阻碍,向应急管理部门内部组织以及外部安委办成员单位等提供数据资源共享与交换服务。

数据共享交换主要包括数据汇聚分发、数据传输交换等功能。

数据应用

应急行业数据应用是根据应急业务需求,在对数据进行相应的接入、处理、治理、组织之后,为自然灾害、安全生产和城市安全等领域支撑多场景智能应用,为应急管理事前、事发、事中和事后四个阶段,提供科学决策支持,为应急管理内部自建系统与政务相关单位建设业务系统数据报送提供数据对接服务。

如服务提供方将服务接口发布到应急管理信息资源平台,应急管理信息资源平台完成服务接口的审核封装,并统一受理资源需求方提出的服务接口申请,经审核、授权后,对资源需求方提供统一的接口服务,通过数据接口对上层应用提供监督管理、监测预警、指挥救援、决策支持、政务管理五大业务域业务系统提供统一、高效的数据服务支撑。

二、应急数据治理核心步骤

1. 数据标准

1.1 数据标准概述

随着机构的整合和职能的调整,原有各部门分散的标准规范已然不能满足新成立的应急管理信息化工作需要,系统性建设应急管理信息化标准规范体系,聚焦标准体系边界扩展以及新技术标准的发展和纳入,在综合考虑应急管理部门建设需求,参考各转隶单位原有的标准化的基础上,建立统一、完整的应急管理网络信息体系标准体系。

图2. 应急管理数据治理技术规范体系

应急管理数据治理技术规范体系共分为 9 部分:

总体:总体技术要求;

数据接入:数据接入技术要求;

数据处理:数据处理技术要求;

数据管控:分级分类技术要求、数据质量管理技术要求、数据资源目录技术要求、应用资源目录技术要求、元数据管理技术要求;

数据资源池:原始库技术要求、资源库技术要求、主题库技术要求;

数据服务:查询检索服务技术要求、比对订阅服务技术要求、数据汇聚服务技术要求、数据推送服务技术要求、元数据访问服务技术要求;

数据总线:服务总线技术要求;

数据运维:数据运维技术要求;

数据管理:数据元规范、限定词规范、应急代码集、应急数据元、数据集规范。

依据应急管理数据治理技术规范体系及参考应急行业与地方标准形成数据标准产出物:数据元标准、代码集标准、资源目录标准、数据接口标准、数据治理技术标准等。

1.2 数据标准产出物

数据标准产出物

数据元标准从数据类型、数据格式、数据值域范围、数据维度值范围多方面制定规范。内容涵盖安全生产、自然灾害、指挥救援、城市安全等几部分核心业务流程数据。遵循国家或行业制定的数据元标准,超出标准范围,根据实际行业或业务自行制定。内容采用摘要表示的方式定义和描述,包括:内部标识符、中文名称、英文名称、中文全拼、标识符、数据类型、表示格式、值域、说明、约束、版本、取值示例等来描述。

以安全生产中的企业基本信息为例,企业数据包括基本信息、业务信息、通讯信息等内容,企业名称、统一社会信用代码等数据元情况如下表所示。

表1. 企业名称数据元

代码集标准

代码表示特定事物(或概念)的一个或一组字符,若干个同类的代码为一个方面的内容而服务组成在一起形成代码表。代码集则是将一种代码应用于代码集中的所有元素所产生的结果。在应急管理数据元的值域中会引用代码集作为数据的取值范围。

以性别代码表为例,对应的数据元包括性别、性别代码,说明内容为人的性别代码,表示形式为1 位数字码,编码规则采用GB/T 2261-1980中的编码,性别代码如下表所示。

表2. 性别代码表

信息资源目录标准

信息资源目录标准是按照统一的应急管理数据资源目录标准规范,在标准的制定过程中,对大数据平台存储的应急数据资源和通过接口方式提供大数据平台使用的数据资源进行梳理,并赋予唯一的目录标识符和编码,实现对所有的应急数据资源进行统一管理。

应急资源目录清单内容包括数据类别、信息资源编码、信息资源名称、共享类型等,其中信息资源编码由行政区划代码、应急管理信息分类代码和顺序码组成,按照资源目录编码规则编制。通过应急目录清单可了解目前资源的分类、共享等情况。

数据清单中的每一个资源都是一个数据资源,数据资源信息数据项包括数据资源目录编号、数据资源标识符、数据资源管理单位、数据资源名称、主题信息分类、业务领域分类、数据资源更新周期、数据资源更新方式、更新时间、数据资源共享类型等。

数据项是数据资源的元数据信息,包括数据项编码、数据项标识符、英文名称、中文名称、说明描述、数据项类型、数据项长度、是否必填等、共享内容、管理方式、更新周期、信息资源摘要、行业领域分类、信息要素分类、行为主题分类等。通过资源目录标准赋予唯一的目录标识符和编码,使得资源目录便于管理维护。

图3. 信息资源目录关系

数据接口标准

为了实现应急数据共享,提升数据价值,其他下属机构业务系统需要调用大数据资源池中的数据。数据通过服务接口方式实现应急管理内部以及与外部的数据传输交换。可提供结构化数据(各类数据库数据)、半结构化数据(位置数据、日志数据等)、非结构化数据(视频数据、音频数据、图片数据)存储传输能力。

在应急管理数据共享与交换中,为了保证数据提供方和数据接收方之间高效、准确地交换数据,因此接口规范的编制应符合如下原则:

数据接口应具备完整性、规范性、开放性和灵活性;

接口定义遵循易理解、易使用、易交流、方便扩展的原则;

保证数据提供方和数据接收方的数据一致性;

在满足业务需求的前提下,使接口数据量最少,最大限度地减轻数据接收方的压力;

具有可靠完善的接口数据传输与错误纠正机制,保证数据的正确性和完整性。

请求报文:接口请求参数在请求行URL中通过key-value的键值对形式进行参数传递,或在请求体中通过JSON格式进行参数传递。

响应报文:响应参数在响应报文体中,支持JSON、XML格式。

以企业基本信息表为例,下表为企业基本信息的接口标准,包括接口说明、接口资源归属、接口名称、支持格式、请求方式、请求参数、响应参数等内容。

表3. 企业基本信息表接口信息

实施技术标准

实施技术标准依据应急管理数据治理技术规范体系进行构建及补充,包括数据治理全生命周期流程,覆盖数据接入、数据处理、数据管控到数据服务、数据共享交换的标准体系。具体标准内容为:数据接入标准、数据汇聚分发标准、数据处理标准、数据分级分类标准、数据质量标准、数据运维标准、数据服务标准、数据交换技术标准、数据传输格式标准、数据库命标准、数据项标准、数据标签管理标准等。以下为部分标准内容简述:

数据接入标准:针对应急数据“多源异构”的特性,针对对结构化、非结构化数据进行接入,主要技术方法有数数据读取、数据对账等操作。

数据分发标准:根据不同应用场景,按照数据定义的分发策略,将处理过程产生的关联、关系、标签等信息,以及数据本身信息,进行同步或异步的相关处理,并将结果数据对应分发到原始库、资源库、主题库、专题库。例如,数据分发将数据资源根据需要从市局下发到各区局。

数据处理标准:按照数据接入环节的数据定义,针对规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不一的大数据特性,以数据应用为导向,通过规范化处理,提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象。主要技术有数据探查、数据定义、数据提取、数据清洗、数据关联、数据标识、数据比对等

数据分级分类标准:按照应急管理涉及的行业对应急管理数据进行分类,包括应急救援、安全生产、灾害防治、综合管理和其他行业管理共5个行业领域分类。

数据项标准:数据项是指数据元素可由若干个数据项组成,数据项是数据的不可分割的最小单位。数据项的名称有编号、别名、简述、数据项的长度、类型、数据项的取值范围。数据项是数据记录中最基本的、不可分的有名数据单位,是具有独立含义的最小标识单位。 

2. 数据汇聚

为解决应急管理信息资源在集中汇聚时面临的分散孤立、源头多样、跨网传输等问题,需要构建应急大数据资源池对应急相关的业务数据进行汇聚治理,为实现数据互联互通打下基础。

应急行业数据汇聚主要实现应急管理厅/局内部数据、外部委办厅/局数据、社会及互联网数据、感知数据等全域应急数据的接入。涵盖监督管理、风险监测、指挥救援、政务管理等全业务域。通过统一接入,将源数据集中存储至原始库。利用数据抽取、消息服务、网络爬取、数据交换、填报采集等技术手段,来解决应急数据孤岛问题。

2.1 应急内部数据汇聚

应急内部业务系统主要以安全生产业务为核心,结合自然灾害与城市生命线等业务,围绕监督管理、监测预警、指挥救援、决策支持、政务管理五大业务域建设的各类业务系统。

表4. 应急内部业务系统

2.2 应急外部数据汇聚

外部委办局数据主要以应急环境信息、动态感知、救援资源、管理对象为核心的气象环境、气象感知、三防监测、海洋环境、救援资源、交通环境等方面信息。

表5. 应急业务相关委办局单位

3. 数据资源池构建

3.1 原始库建设

原始库存储接入汇聚来自应急管理局内部系统(包括应急管理厅、市应急管理局、区县应急管理局)、其他安委办成员单位各个条线业务系统数据,接入方式包括对接应急管理局各业务系统、对接外部业务开放接口、订阅政数局共享交换平台数据等。

为了在各个源业务系统和数据资源池之间有一个平滑的过渡,一方面要保障数据资源池的稳定性,各个源业务系统数据变化不会对数据资源池造成影响,又可以减低前置系统数据被抽取的压力,原始库在这中间起到了屏蔽变化,平滑过渡和分发的作用。

原始库更新机制设计

针对原始库中数据的存量和日增量的不同情况,设计了不同的原始库数据更新机制。更新机制设计如表所示。

表6. 原始库更新机制

原始库数据生命周期设计

综合考量原始库的存储成本,数据价值,抽取方式等内容,原始库中数据的生命周期设计如表所示:

表7. 原始库生命周期

3.2 资源库建设

资源库库表用于存储由原始库数据进行清洗、转换等标准化后的数据,资源库相对于原始库在数据域层面只保留结构化域。

资源库的表结构设计应该遵循如下原则:

完整性原则:保证输入源原始库的数据的完整,数据字典清晰明确。

及时性原则:数据更新的频率应与源原始库更新频率基本一致,保证输入信息的及时性。

根据以上原则,资源库的表结构设计与原始库的表结构基本保持一致,在粒度上以最细的方式存储;在数据内容上,保存对原始库进行标准化后的标准数据,以及清洗产生的脏数据,便于向源业务部门反馈,促进其提升数据质量,同时减少误清洗带来的风险。

资源库对原始库进行数据处理,生成治理后的标准规范数据集合,主要分为监督管理资源库、监测预警资源库、指挥救援资源库、决策支持资源库、政务管理资源库。

3.3 主题库建设

主题库是根据应急业务,围绕基础信息、行政管理、监督管理、监测预警、应急处置等实体构建沉淀的一组数据建模方法和一系列基础算法,是为了高度统一的刻画这些实体的属性和特征,从庞大的资源库中抽取共性的维度进行分析,形成高通用、易扩展和易使用的数据模型,形成多要素的全方位的、全时空的实体感知信息。主题库设计有以下原则:

低耦合:合理定义基础属性、扩展属性,避免属性定义重复、冗余出现;

稳定性:保持基础宽表模型的稳定性,通过属性表解决扩展属性变化频繁的问题;

高效性:模型解耦设计兼顾应用灵活组装和高效数据更新。

主题库的划分主要根据模型设计人员的行业经验以及对现有应急行业业务了解来进行的,应急行业的主题库分为八大主题,分别是:管理对象、灾害事故、应急人员、救援资源、日常监管、应急环境、动态感知、空间地理。

图4. 主题库建设框架

3.4 专题库建设

专题库设计面向应急管理常态与非常态业务需求,通过将资源库、主题库数据进行二次抽取装载的方法重新组织数据,并按照不同事件专题应用的需求重新整合形成专题库。

在主题库之上,还有一层数据集市层,我们称之为专题库。专题库是依据部门专题业务需求,按照维度建模等原则建立起来的,是主要面向部门级业务,并且只面向某个特定的主题。专题库存储为特定用户预先计算好的数据,从而满足用户对性能的需求。

安全生产隐患排查专题库

安全生产隐患排查专题库以监管安全生产企业为核心,汇聚企业信息、巡查人员信息、隐患信息、重大隐患信息、网格信息、企业风险分级等相关数据,实时同步企业自查隐患、政府巡查隐患数据,构建“风险-能力-事件”图谱。

图5. 安全生产隐患排查数据模型

三防监测预警指挥救援

三防监测预警指挥救援专题库以三防指挥部为核心,汇聚关键基础设施/风情/雨情/潮情/水情等常态化监测数据、灾害预警数据/突发事件报送等综合值班值守数据、辅助决策数据、指挥协同数据、应急资源管理数据等,对台风、洪涝等灾害信息进行监测、展示和分析,调用应急平台其他业务系统数据进行数据组织及呈现实时动态监测、日常监测信息、灾情信息分析展示、重点关注目标统计分析、态势分析与研判、事故舆情应对辅助决策、应急资源推荐、指挥调度等功能。

图6. 三防监测预警指挥救援数据模型

4. 数据服务支撑

4.1 数据资源目录

应急管理数据资源目录分类参考应急管理部标准并结合实际应急管理数据涉及的行业及其业务范围作为分类依据。数据资源目录划分为数据来源目录、主题信息目录、专题信息目录。

数据来源目录分类按照应急管理领域信息资源涉及的来源部门进行划分,包括内部机关单位、下属单位、其他政府部门、互联网及社会单位共5个分类。

主题信息目录分类结合应急管理部下发标准规范,按照应急管理领域信息资源涉及的主题信息进行划分,包括管理对象、灾害事故、应急人员、救援资源、日常监管、应急环境、动态感知、空间地理为8个主题分类。

专题信息目录对特定应用或服务需求所构建的目录,是按数据支撑业务进行分类设计,为业务系统与其他数据需求单位提供支撑服务。内容可包括:安全生产隐患排查专题、安全生产执法专题、三防监测专题、应急指挥专题等内容。

4.2 数据共享交换

通过对应急数据的汇聚形成了统一的数据资源池,数据共享交换在数据资源池的基础上,梳理数据共享资源目录,形成应急数据共享体系。纵向上打通从应急管理部、省应急管理厅、市应急管理局、区应急管理局多级间的数据上报、下发,横向上拉通政务服务数据管理局、各应急相关委办局单位等单位之间的数据对接、数据考核、数据共享。

图7. 数据共享交换关系图

4.3 数据上报

利用应急管理部数据治理系统(含数据共享交换平台)与地方、部本级业务系统联通,汇聚政务服务及监管数据。为满足政务服务及监管数据共享需求,由数据治理系统结合数据共享交换平台作为应急管理部体系内基础设施和数据交换通道的作用,通过配置交换任务等。

各地方、部本级业务系统产生的事项、办件、电子证照目录、监管事项目录清单、行业 监管对象信息、行业执法人员信息、监管行为信息、信用监管信息、风险预警模型信息、重点企业信息和行业知识等政务服务和监管数据,通过应急管理部数据治理系统汇聚到政务服务及监管系统业务库,数据上报流程如下:

图8. 数据上报流程图数据交换总体框架

三、应急数据治理成效

通过应急领域数据治理的“N步法”,从数据接入、数据处理、数据管控、数据共享服务、数据应用五个环节提升数据治理价值。为安全生产、自然灾害、救援指挥、监督执法、综合决策等智慧应用,提供专常兼备的数据支撑能力,在突发事件的事前、事发、事中、事后阶段发挥数据支撑作用。从数据的数量、质量、流通、效率、安全等多方面全流程为应急数据体系建设带来诸多成效。

摸清数据底数

对应急业务相关数据进行信息资源规划,从安全生产、自然灾害防治、应急救援、城市安全多个领域进行梳理,汇聚各方资源形成数据资源池,编制应急数据台账,做到应急数据的“家底清、底数明”,实现分散、割裂的应急业务数据向数据资产的转变。并在大数据治理平台中对数据进行视图管理。

提升数据质量

建立统一、完整的应急管理数据标准体系,提升应急数据质量,提高数据使用价值。

拉通业务数据

统一汇聚应急基础数据,通过数据关联融合,挖掘数据潜在价值,拉通应急数据与上级业务部门(部省)、下级业务部门(区县)、内部业务系统、外部委办局单位之间的数据通路,实现数据的上传下达内联外接。

实现降本增效

通过数据治理建设的数据平台统一完成数据上报任务与外部委办局单位数据对接,降低各业务系统分开开发的对接接口的成本。

保障数据安全

数据入口与数据出口,通过数据治理平台统一进行数据上报与下级单位数据上传下行的网络对接,避免对外开通多个网络端口。同时对数据资源进行编目划分,并且通过严格的鉴权体系,控制数据权限,确保数据安全。



百分点
百分点

百分点是中国领先的企业级大数据+AI产品与技术提供商,拥有完整的大数据及认知智能产品线。秉承“用数据推动社会进步”的理念,为业内分享大数据和AI技术在行业实践中的经验与思考。

工程
1
暂无评论
暂无评论~