活动 | 即使是AI界“网红” 知识图谱也曾经历40年的生不逢时



Knowing yourself is the beginning of all wisdom.

 

智者始于自知


——亚里士多德

 

当人工智能再次火热之后,

 

却因缺乏“知识”面临冷启动。

  

知识图谱的本质是知识关联, 

基于已有的经验和知识,

“告知”计算机,

并让它利用这些知识解决问题。

 

可以说, 

人工智能先有“人工”(知识和经验),

后“智能” 

也怪不得知识图谱成为了人工智能领域

当之无愧的“网红”

 

“网红“修炼史

 

实际上,从 1956 年人工智能这个概念提出开始,脑洞大开的学者们相继提出了三个研究学派,分别是:符号主义、连接主义和行为主义。初衷都是希望机器模拟人的思维来思考。


其中一大流派是符号主义,主要技术是AI知识工程中的知识表示理论。它研究的是如何将人类的知识用计算机可以理解的语言表达出来,以及如何让计算机在这些知识上进行推理。 

 

在这一派学者孜孜不倦的努力研究下,知识表示也在不停地换名字:

 

从60年代从语义网络兴起

到上世纪70年代的“专家系统(ExpertSystem)”

尤其是70年代中期以来,知识表示领域专家

认识到知识的获取乃是构建强大AI系统的关键所在,

利用哲学领域的本体论创建计算机模型并不断演进

……

1990年代的贝叶斯网络

到万维网之父Berners-Lee提出“语义网(SemanticWeb)”

再到他后来提出的“链接数据(LinkedData)”

……

都是“知识图谱”的前身。


BUT——生不逢时 

 

经历40多年的发展,走出实验室并不容易。

 

受限于:

 

  •  数据没有公开,即On the web;
  •  技术不成熟,需要知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合;
  •  数据标准问题,Machine-readable,很多数据格式不同或各家定义不同,导致机器不能识别;

 

解决这些问题,最后才是让数据产生互联。

 

更为重要的是,太超前的技术往往找不到大规模应用领域……

 

最常用的如Dublin Core系统,解决了电子资源的标准问题,并利用XML和RDF进行了技术实现,解决图书馆(图书)和医院(医药)繁复的编目问题,非常具有实用性。

 

直到2010年,发生了一件事情,

 

Google 收购了一家名为MetaWeb的公司。

这家公司的目标是创建世界的数据库,一个能够容纳世界全部信息的地方。




收购确确实实影响了如今搜索领域中很多重大的改进:


在曾经简单的「十行蓝色链接」之上附加了丰富的类似于卷宗档案一样的内容,涉及人物、地点、物品等等,一应俱全。

 

通用型知识图谱诞生

 

2012年谷歌做搜索正式发布被称为一大战略性意义的产品:知识图谱(Knowledge Graph)

 

这也是我们现在称作的基于互联网上的文本数据建立关系的“通用型知识图谱”。

 

举个栗子:如果你要查一首诗词,如果按照关键词,就只能查出诗词的内容,但是知识图谱技术却可以告诉你作者、年代、背景、释义。




这款产品打开了知识图谱的一大应用——搜索,知识图谱技术终于从实验室走出来并深入到真实业务中。

 

各个机构也开始着手打造各种知识库:




甚至,Linked Open Data这个组织开放出欧洲和美国的一部分做出了互联数据云。




当然,Open KG(中国开放知识图谱联盟)的目标也要做一个中国版本的开放数据云。

 

那么,为什么大家不遗余力的做这件事呢?

 

人类走过了农业社会、工业社会、信息社会,进入到用智能社会,主要区别于在于生产资料和生产工具的变化。

 

如今,劳动工具转向了基于数据、信息、知识、价值的智能工具,典型如AlphaGo,成功将连接主义学派的深度学习被大众重新认知;

 

但即使演进到AlphaGo Zero、AlphaZero,仍无法在规则知识缺位的情况下对弈。

 

这是因为:

 

人类的先验经验和知识:

理学的数学、物理学、生物学、心理学……

工学的计算机科学与技术……

文学的应用语言学……

 

所组成的知识图谱

 

将会是智能社会的重要生产资料。

 

事实型知识图谱

 

近年来知识图谱愈发受人关注不仅仅是因为这些互联网数据互链,而是在真实世界又发生了一件大事:

 

Platantir 建立了通过线下刷卡、银行转账、犯罪记录等数据建立了实体关系,我们称之为了“事实型知识图谱”。

 

基于此:

 

它最传奇的战绩是发现麦道夫“庞氏骗局”。美国证监会旗下某组织曾爆料称,他们使用Palantir的软件,整合了40年的记录及海量数据,在进行复杂的大数据分析之后,发现了纳斯达克前主席麦道夫(Bernie Madoff)的“庞氏骗局”。Palantir帮助多家银行追回了麦道夫隐藏起来的数十亿美元巨款。




还应用于情报分析,帮中情局找到了大量基地组织和塔利班高层,最后连本·拉登的藏身地都被他们挖了出来。。。




对了,其中一个创始人,就是《从0到1》这本轰动全球的作者。

 

随着Palantir公司财务数据指数型增长,针对各个行业的企业级知识图谱服务变成了网红。

  

从1到∞,行业知识图谱……

 

如今,在智能客服、金融、公安、航空、医疗等“知识密集型”领域被广泛应用。

 

智能客服:比如百分点为“青年之声”搭建的自动问答平台,对用户提出的问题进行智能分析和分类,建立内部体系,并通过深度学习对词语进行训练,为全国8000万团员提供专业解答。

 

金融领域:通过知识图谱能够查询到用户的二度、三度好友,建立关系网络,通过一定的指标规则来实现对用户的风险识别,为金控反欺诈预警提供业务支持。

 



医疗领域:利用知识图谱区分疾病扩散人群

影响传染病发传播的因素非常多,不仅包含传染病发作、收治、诊疗、传播、致死等防控数据,还涉及人口基本数据、经济发展情况、气候与自然地理数据,乃至火车站等人口密集地点的交通基础数据和流动人口数据,采集并整理这些数据门槛非常高,通过构建知识图谱将人群进行关联,就可以发现疾病扩散人群。

 

公安领域:预防犯罪分析

利用知识图谱搭建百分点异常聚集模型,可以随时掌握调查人员之间的通讯、位置、事件、社交关系等信息,验证犯罪线索,及时发现热点事件的发展、传播与关键点,提早做出感知和准确识别。




航空领域:突发事件决策支持

2014年法航公司发生的飞行员为期10天以上的大规模罢工事件中,多次航班因此取消。借助知识图谱,建立事件知识图谱、行程知识图谱、航班知识图谱,实时了解航空公司航班动态和航班号等信息,从而为航空公司决策做辅助。




行业业务中的先验经验和知识是万分宝贵的,在跨界应用过程中,也会逐步形成行业甚至世界范围内的数据标准。

 

可以预料到,人工智能的进一步发展一定会依赖于各行各业知识图谱的建设。

  

最后

 

行业知识图谱是AI进步的阶梯。


发布会预告:




本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。

入门
登录后评论
暂无评论
暂无评论~
返回顶部