Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杨科学作者龚力校对文婧 编辑

大数据治理:支撑新一代AI应用落地的基石

2016 年,谷歌 AlphaGo 机器人在围棋比赛中击败了世界冠军李世石,引爆了人工智能,开启人工智能的新纪元。2017年,国务院发布实施了《新一代人工智能发展规划》,对中国面向2030年的人工智能产业进行了整体规划与部署。一时间,人工智能AI成为炙手可热的风口,几乎所有的IT互联网企业,以及那些还在推动互联网+、数字化转型的传统企业,也试图寻求借助人工智能实现自身的转型升级。

但如同这些年来,大数据先是被神化,然后又被妖魔化的技术概念炒作路线一样,本轮AI热潮也必然会经历从过度神化走向落地的过程。在狂热之余,也有必要分析本轮AI热潮的实质:本轮火热的人工智能在算法或模型方面并无革命性的重大突破。深度学习早在上世纪八十年代就已经出现。近年来人工智能的突然爆发,主要有两个关键因素:一是大数据深度学习算法提供海量的训练数据作支撑;二是高性能计算,尤其是通用计算GPU给予了神经网络深度学习强大的计算力支持,使得以前无法完成的计算或者无法在短时间内完成的计算成为了可能。

正因为有了两个关键因素作支撑,使得本轮人工智能呈现与以往不同的特征:在特定领域,学习的主体真正由人变成了机器,人工智能正式进入了2.0时代。这也是试图寻求借助人工智能实现自身转型升级的传统企业,最为关注的焦点:即如何借助人工智能技术,通过机器自主学习从海量的文本、视频、图像等大数据中每天24小时、永不停息地探寻规则、模式、预测、趋势、关联关系等隐性知识,实现知识创新服务与决策支持,释放“智能红利”,而使公司获得更早的发展先机和更强的竞争力。因此,本文的关注重点并非研究某项具体的人工智能技术,而是探讨如何在传统企业内部建立从大数据到知识的一套工作机制或方法,即行业数据+AI元素,促成AI技术在行业知识转化过程中更好的发挥创新引领作用。

1. 从大数据到知识的转化过程

本文提出通过大数据治理工作,在企业内部建立起一套支撑大数据深化应用、AI2.0(即机器自主学习)常态化运转,涵盖大数据、组织架构、技术平台等在内的创新工作机制,将隐性知识的转化主体逐渐由人向机器转变。如下图所示。

企业大数据包括社交媒体数据、机器对机器数据、大体量交易数据、生物计量学数据和人工生成数据,分为文本、视频、图像、语音等承载形态。大数据到知识的转化可以分为两个阶段:

大数据深化应用阶段,企业主要由数据科学家、数据分析师等大数据专业人员运用机器学习、探索分析、实时数据服务等大数据深化应用技术,从大数据中提取出规则、趋势、关联关系等各类知识,基于相关的应用方向结合实际需求,构建应用场景,从而产生业务价值;这个阶段的主要特征是以人为学习主体,大数据专业人员全程掌控,基于自身经验去获取所需的各类数据、选择合适的算法、技术、工具平台去发掘隐含在大数据中的隐性知识,完全离不开“人”。

在新一代人工智能应用阶段,数据科学家、数据分析师等大数据专业人员利用各种深度学习算法,放弃对结果的可解释性、不限定问题假设、不训练样本、也不人工标记数据集,只追求学习的有效性,仅结合人类的先验常识、隐性直觉等知识为引导,基于海量大数据,整体围绕“以机器为学习主体”这一目标,建立注意力模型、记忆网络、迁移学习、强化学习、半监督/无监督学习等算法模型,实现从浅层计算到深度神经推理,“永不停息”自主驱动学习,去发掘隐含在大数据中的隐性知识,最终使机器自身具备数据收集、整理、分析的能力,并自主对算法进行调整和优化,自主将大数据转变为知识,实现高阶人工智能,更好地支撑知识创新服务与各级决策。

2. 大数据治理

为了更好地支撑大数据到知识转化过程,应将传统数据治理升级到大数据治理,如同大数据是数据一样,大数据治理本质上也是数据治理,数据治理方法论同样也适用于大数据治理,但是考虑到大数据的特性,需要作出适当的调整,本文重点阐述大数据治理与传统数据治理差异性较大的内容,以及大数据治理对于深化大数据应用、支撑新一代人工智能落地的基石作用。

通过大数据治理,将推动“以人为学习主体”的大数据深化应用阶段逐步向“以机器为学习主体”的新一代人工智能应用阶段转变,推进治理的数据类型由传统的、占比不到15%的结构化数据向原生态格式、多结构、占比超过85%的非结构化数据转变;推进治理的数据范围由专注企业内部数据向行业上下游、跨行业、社会舆情等数据转变;推进数据治理工作目标由体现间接价值向直接推动价值创造转变。

2.1 大数据治理组织

在现有数据治理组织架构中增加大数据治理相关的职责和角色:将数据科学家、AI算法专家等大数据专家纳入到决策层——数据治理委员会(或知识创新领导小组,名字不限于此),大数据专家从驱动数据到知识的转化视角、知识指导实践的洞察视角,辅助作出各种决策,有助于从组织高阶层面为驱动大数据转化知识争取更多资源。按大数据类型分设大数据主管[1],负责本类型大数据的收集(不限本公司)、内部提供、外部交换及质量、安全等管理工作。数据主管向业务部门汇报,凭借其专业性,负责提升数据资产的可信度和隐私性,同时确保开展大数据深化应用、深化学习时,各项保障工作能支撑到位。

2.2 大数据质量管理

大数据质量管理相比传统数据质量管理更加复杂,主要表现在数据来源复杂且多样性、组织内外数据含义存在差异性、外部数据难以有效控制质量且错误数据无法溯源等等。同时,机器学习、深度学习算法对数据质量要求极高,否则可能会导致机器无法自主学习、或产生错误知识,影响决策,造成资源浪费。大数据质量评估维度需要重新定义。目前在大数据质量的可度量性方面以麻省理工学院Richard Y.Wang等提出的数据质量度量维度为典型代表,将大数据质量维度分为四大类、19个维度[2],如下表所示:

2.3 大数据架构管理

当前,各大型企业都已启动或即将完成大数据平台建设,基本上都规划了本企业的大数据架构,在此不再重复。在本处强调三点:

一是需要建立面向多源异构数据、尤其是非结构化数据的自动采集机制,数据来源可能是合作企业,也有可能是热点网站,需针对不同类型数据定制化开发不同的采集程序,如包装器、抽取程序等;

二是文本、图像、视频等非结构化数据,必须与人员、组织、产品等主数据进行关联,从而通过索引、分析等技术,挖掘非结构化数据的潜在价值;

三是大数据架构应逐渐向“以机器为学习主体”的目标架构阶段性演进。与传统的数据仓库建设方法类似,前期可根据应用需求,选择知识图谱、智能机器人等应用方向,基于特定领域设计应用场景,逐步建立起针对内外部数据自动采集、整合、分析以及自动学习优化算法的能力,通过场景驱动逐渐推动大数据应用架构向大数据智能化架构演进。

2.4 大数据生命周期管理

大数据生命周期管理与传统数据生命周期管理在流程上比较相似,但大数据环境下的数据清理,与传统数据清理区别较大。对于传统数据而言,数据质量是一个很重要的特性,但对于大数据,数据可用性则更为重要,传统意义上的垃圾数据,也有可能变废为宝。对于不同的可用性数据,应建立不同的数据质量标准,如应用于财务统计的数据和应用于分析的数据,在质量标准上有所不同,有的需求注重数据全面性但对质量要求不是特别高;有些需求,如审计与风险,则严格关注垃圾数据并从中发现问题。因此,大数据应用中不建议直接清理垃圾数据,可通过数据质量分级,不同质量等级的数据满足不同层次的应用需求。

2.5 大数据服务创新

大数据治理与数据治理最大的区别在于两者的关注点不同,数据治理主要是为了保证数据能够反映并还原真实业务,促进数据与业务的一致性,使企业能基于真实的数据环境更好的开展各项业务活动,产生间接价值。但大数据治理更多关注发挥大数据的应用价值,通过大数据深化应用、深度学习算法模型去发掘隐藏在海量大数据中的规则、模式、关系等知识,从而指导业务部门开展领先于市场竞争对手的高价值、低风险的业务活动;通过支撑新产业和新业态的跨界深度融合,甚至为企业开辟全新的市场空白地带,促进公司业务的全面创新与高速发展。

3.总结

本文从大数据视角将新一代人工智能定位为相对于大数据深化应用更高阶段的知识提取过程,并指出了两者的明确区别:以人为学习主体的大数据深化应用阶段和以机器为学习主体的新一代人工智能应用阶段;两者的共同之处都是从大数据到知识转化过程。在大数据转化为知识的过程中,以应用场景为驱动,通过大数据治理各项业务活动,促进大数据人工智能技术的深度融合,释放“智能红利”,推动新一代人工智能应用逐渐落地。

引用:

[1]桑尼尔.索雷斯.  大数据治理[M]. 匡斌译. 北京:清华大学出版社,2014.

[2]张绍华,潘蓉,宗宇伟. 大数据治理与服务. 上海科学技术出版社,2016.

【作者简介】

杨科学,御数坊高级咨询顾问,2006年硕士毕业于中南大学计算机专业,获得数据管理专业认证(CDMP)、信息系统项目管理师认证,主要从事数据治理、数据标准、数据质量、数据模型设计等咨询和设计工作。先后为金融、电力等行业的多家大型企业提供数据治理咨询和企业数据模型设计服务工作。


THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业大数据高性能计算神经网络深度学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

数据仓库技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~