如何打造数据驱动的知识型经济?这里有一份技术列表

如何打造数据驱动的知识型经济?这里有一份技术列表

迄今为止,我们的系统产生的还仅仅是数据,而不是信息,更不是知识。」上世纪90年代,管理大师彼得·德鲁对数据使用这样评论道。

现在看来,这个评论放在当今依然适用。在数据使用过程中,今天需要思考的是,如何将数据、信息转化为知识,扩大人类的理性,辅助决策?

本篇文章解释了数据、信息、知识、智慧的「数据金字塔」,并列出了知识型经济所需要的技术列表。

过去的一年里,疫情让社会生活方方面面都受到了重挫,但也带来了一些有趣的副作用:倒逼企业数字化转型。

正如微软CEO萨蒂亚·纳德拉(Satya Nadella),「新冠疫情在数月内促进了企业的数字化转型。」

那些提前布局数字化的公司在疫情期间看到了收益,其他公司也在使用各种数字化工具,视频通话、远程办公、云计算机器学习等得到了更多的应用。

但不管企业处于哪个阶段,随着数字化转型的加速,所有业务活动中越来越多的部分都在以数据的形式留下了足迹。每个员工、客户、供应商的动态,每个线索、信息位和过程都将以数字化的方式进行或记录。

反过来,这意味着从理论上讲,我们从数据中获得的应该不仅仅是对现状的洞察,还应该从数据到信息、从信息到知识。

在不久的将来,企业将是由数据驱动的,经济将是基于知识的。以下是知识型经济所需要的技术列表:

一 数据金字塔:从数据到知识

从1946年第一台计算机诞生,几十年IT技术的迅速发展下,人类从数据稀缺进入了数据爆炸时代,但我们一直没有解决的问题是,「如何将数据、信息转化为知识,扩大人类的理性,辅助决策?」

当前,我们对数据的利用还处在非常浅层的阶段,管理大师彼得·德鲁于上世纪90年代对数据使用的评论仍然适用于今天:「迄今为止,我们的系统产生的还仅仅是数据,而不是信息,更不是知识。」

数据、信息、知识,加上最高层级的智慧,四者之间的关系可以用「数据金字塔」来表示。这个金字塔一直以来都是信息科学语言的一部分,在基于知识的新数字世界中,对数据进行编码,利用商业、运营知识是取得进步和保持竞争力的关键。

如何打造数据驱动的知识型经济?这里有一份技术列表

数据金字塔:数据、信息、知识和智慧之间的关系表示

那么,我们如何从数据到信息,从信息到知识呢?首先要解释三者的区别。

数据就是数字或字符,是原始或无组织形式的事实的集合,没有上下文,也没有意义。例如,「18122020」只是一个数字序列。但是,如果我们将此序列定义为DDMMYYY格式的日期,则可以将其解释为2020年12月18日。在此附加上下文中,数字具有含义。

信息是为了特定目的而以一种更容易测量、可视化和分析的方式处理的数据。例如,我们可以通过公开各种看似完全不同的数据点和断开连接的数据点之间的关系的方式来组织数据。根据每天休市时的数据创建特定时间段内数据点的图表来分析道琼斯指数的表现。

知识是经过某种方式处理、构造、应用或付诸实践的信息。例如,通过捕获和表达与我们的数据点相关的关系的含义,我们可以自动化地洞察,并提取新知识。语义关系的知识图谱可以帮助解释某些股票如何影响道琼斯指数,以及不同的事件如何影响它们的价格。

向数据添加上下文会将其转变为信息,处理信息可以将其转变为知识,这些转换的关键是「连接」和「元数据」。

提到数据处理,大部分人想到的是深度学习。如今通过深度学习,我们可以通过找到数据背后的规律,并作出预测。

深度学习并不是唯一的数据处理方式,本篇文章尝试从一个不同的视角来分析,关注一个特定的数据结构:图。

二 图分析

图论的历史与一个看似完全毫无联系的问题有关,「通过柯尼斯堡(Königsberg)许多桥梁的最佳方式是什么?」1736年,瑞士数学家和物理学家莱昂哈德·欧拉(Leonhard Euler)建立了一个模型解决了这个问题,该模型就是图论的基础。

欧拉的做法是将「桥」和「连接桥的路径」建模为图中的「节点」和「边」,然后形式化节点和边的关系,这就构成了许多图形算法的基础。

如何打造数据驱动的知识型经济?这里有一份技术列表

在基于知识的新数字世界中,对数据进行编码和将数据与业务知识结合是取得进步并保持竞争力的关键。

最著名的图形算法可能是PageRank ——谷歌帝国的基础。PageRank将网络上的文档建模为图形,并使用它们之间的链接来得出特定查询的相关性。

从18世纪到今天,科学家们已经开发了许多图形算法,其主要类别包括路径查找、中心性、社区检测、相似性是图算法的主要类别,这些算法在数据分析中有很多应用。

从eBay到NASA,再到调查记者和独立数据科学家,图分析都有大量的应用,包括欺诈检测、网络分析、自然语言处理等。2019年,分析公司Gartner就预测过,「图分析将在未来几年内增长,因为人们需要在复杂的数据中提出复杂的问题。」

三 图数据库

前文提到,将数据转换成信息的关键是「连接」和「元数据」。图是利用连接的最佳方法,而图数据库则可以使表达和连接查询变得更容易。

这就是为什么图数据库非常适合那些需要利用数据连接(反欺诈、预测性建议)案例的原因。从操作应用到分析,从数据集成机器学习,图都有优势。

但图和图数据库之间并不一样。图分析可以在任何后端执行,它们仅需要读取图形形状的数据。而图形数据库是一种能够完全支持读和写的数据库,利用了图形数据模型、API和查询语言。

数据库其实已经存在很长时间了,但到2017年才收到广泛关注,当时AWS和微软分别使用Neptune和Cosmos DB将图数据库暴露给更广泛的受众。自那时以来,图数据库就成了数据管理中最热门的领域。

「到2022年,图形处理和图形DBMS的应用将以每年100%的速度增长,以不断加速数据准备并实现更复杂和适应性更强的数据科学。图形数据存储区可以跨数据孤岛有效地建模,探索和查询具有复杂相互关系的数据。」Gartner在《2019年十大数据和分析技术趋势》报告中表示。

知识图谱

连接数据孤岛是知识管理的前提,而知识图谱擅长于此。知识图谱是图的特定子类,也称为语义图。它们自带元数据、模式、全局标识符和推理能力,这使得它们成为捕捉和管理知识的理想选择。

很多人将知识图谱作为一项新技术,但实际上知识图谱已经存在了至少20年,其发明者正式万维网发明者蒂姆·伯纳斯·李(Tim Berners-Lee)。

2001年蒂姆·伯纳斯发表语义网宣言( Semantic Web manifesto),尽管其中提到的原则和技术一直有争议,但它仍然成为知识图谱复兴的幕后推手。

如何打造数据驱动的知识型经济?这里有一份技术列表

Gartner将知识图谱纳入2020年人工智能技术成熟度曲线报告,并将其作为处于高峰的新技术热点

谷歌的PageRank也在图及知识图谱的兴起中扮演重要角色。尽管PageRank取得了成功,但如果没有语义和元数据,网络上内容的抓取和分类同样是一个难解决的问题。因此,谷歌接受了语义技术,并在2012年创造了术语「知识图」。

schema.org的广泛采用标志着图技术和知识图谱迅速崛起的开始。知识图可以解决数据治理和数据集成等关键挑战。

最终,知识图谱可以作为数字载体,可以将知识获取和组织的理念与数字时代的数据管理实践统一起来。

五 图、AI和自然语言处理

如果你认为知识图谱是捕捉和管理知识的终极目标,那你就错了。知识图谱擅长以自上而下的方式明确地捕捉知识。这也是Gartner将知识图谱列入2020年人工智能成熟度曲线报告的原因。

在管理显性、先验知识方面,知识图谱比其他任何技术都要好,但是对于隐性、突发性及不断发展的知识而言,又如何处理?这就是机器学习效果很好的地方,但在这里,图形也可能会有所帮助。

如何打造数据驱动的知识型经济?这里有一份技术列表

图与机器学习有什么关系?实际上很多。这是双向的。机器学习可以帮助引导和填充知识图谱。图形中包含的信息可以提升机器学习方法的效率。

机器学习及其深度学习子领域,与图形非常匹配。在图上的机器学习仍然是一项新兴的技术,但却是一项充满希望的技术。亚马逊、阿里巴巴、苹果、Facebook和Twitter只在一些生产中使用这项技术。在顶级人工智能会议上发表的研究报告中,有超过25%与图有关。

最后,根据Facebook人工智能研究员Fabio Petroni的说法,图可能不是获取知识的最佳方式。「我们已经发明了表示知识的最佳方式——文本。随着自然语言处理(NLP)的最新进展,我们现在有了机器,可以检索上下文的片段,在此基础上进行推理,并解决知识密集型任务,而不需要使用知识库,只需要使用文本和理解文本即可。」




Powered by Froala Editor

产业云计算知识图谱机器学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。 查询语言必须要能表达所有关系代数所能表达的查询,这样才被称为关系完整的。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图论技术

图论是以“图”为研究对象的一个数学分支,是组合数学和离散数学的重要组成部分。图是用来对对象之间的成对关系建模的数学结构,由“顶点”(又称“节点”或“点”)以及连接这些顶点的“边”(又称“弧”或“线”)组成。值得注意的是,图的顶点集合不能为空,但边的集合可以为空。图可能是无向的,这意味着图中的边在连接顶点时无需区分方向。否则,称图是有向的。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
推荐文章
暂无评论
暂无评论~