智谱AI 徐菁作者

《人工智能之认知图谱》重磅发布(附报告全文下载)

【导读】近日,由清华大学人工智能研究院、北京智源人工智能研究院、清华—中国工程院知识智能联合研究中心、阿里集团—新零售智能引擎事业群编写的《人工智能之认知图谱》报告正式发布。报告显示,以知识图谱、认知推理、逻辑表达等技术为支撑的认知图谱是实现机器认知智能的使能器,不仅让机器理解数据的本质,还可以让机器解释现象的本质。

1956 年,人工智能概念提出以后,经过六十多年的发展,人工智能在计算能力、大数据和深度学习的支撑下取得显著成果。根据人工智能解决问题的不同阶段,人工智能发展历程可以分为:计算智能、感知智能、认知智能、意识智能(见图 1)。计算智能让机器能存会算;感知智能让机器能听会说、能看会认;认知智能解决机器能理解会思考的问题;意识智能是近期图灵奖获得者 Manuel Blum 夫妇提出的全新思想,核心理念是构造一个新型的可用数学建模、可计算的机器认知/意识模型。

图 1人工智能发展的几个阶段如何实现认知智能,清华大学唐杰教授提出了结合知识图谱、认知推理、逻辑表达等关键技术的认知图谱(Cognitive Graph)是一种有力的支撑手段,希望利用知识表示、推理和决策,包括人的认知来解决复杂问题。这个思路的基本思想是结合认知科学中的双通道理论,在人脑的认知系统中存在两个系统:System 1 和 System 2,如图 2 所示。System 1 是一个直觉系统,它可以通过人对相关信息的一个直觉匹配寻找答案,它是非常快速、简单的;而 System 2 是一个分析系统,它通过一定的推理、逻辑找到答案。

图 2 双通道理论框架
让机器具备认知智能,其核心就是让机器具备理解和解释能力。这种能力的实现与大规模、结构化的背景知识是密不可分的。结合认知心理学、脑科学和人类知识等,以知识图谱、认知推理、逻辑表达等技术为支撑的认知图谱是实现机器认知智能的使能器,利用结构化的实体、概念、关系等构成元素,不仅让机器理解数据的本质,还可以让机器解释现象的本质。

报告围绕认知图谱及其 3 个技术领域(知识图谱、认知推理、逻辑表达),从概念、发展历程、关键技术(如图 3 所示)、问题与挑战、未来研究方向等方面展开介绍,并进行了论文研究主题分析、经典论文解读,以及技术情报深入挖掘,旨在为读者了解认知图谱领域的基础和应用研究的代表性成果、以及研究动向和进展提供信息窗口。

图 3 认知图谱报告技术概览
报告借助 AMiner 科技情报大数据挖掘与服务系统平台,不仅深入分析了认知图谱领域的技术研究发展趋势和创新热点,以及中国的专利数据和国家自然科学基金项目支持情况,还从学者分布地图、学术水平分析、国际合作分析、学者流动情况等维度,对比分析了中国和全球其他国家学者在该领域的发展状况,并给出了相应的对策建议,旨在为中国的学科布局和科技人才队伍建设提供数据支撑和指导。以下选取代表性的分析维度进行展示说明。

技术研究发展趋势

Knowledge Base(知识库)、Semantic Web(语义Web)、Natural Language Processing(自然语言处理)近年来的研究热度居高不下。

图 4认知图谱领域的技术研究发展趋势
学者分布

认知图谱领域高水平学者主要集中在以美国为首的北美洲、以英国为首的欧洲和以中国为首的亚洲。中美两国高水平学者数量远高于其他国家,但两者之间仍有一定差距,中国需持续加强建设高水平人才队伍。

图 5 全球学者分布地图中国高水平学者主要分布在京津冀、长江三角洲和珠江三角洲,以及香港、台湾等东部地区。

图 6 中国学者分布地图学术水平

论文总被引频次最高的国家是美国,其次是英国和德国等欧洲国家,中国排名全球第 4。相比英国和德国,中国的学者数量和论文发表量较高,但是论文总被引频次偏低。

表 1论文总被引频次排名前10的国家 

论文总被引频次排名前 10 的全球机构中,仅有清华大学和中国科学院入榜。这两个机构的论文发表量和学者数量排名前列,但是论文总被引频次位居榜尾。

表 2 论文总被引频次排名前10的全球机构

国家合作

中国与美国合作的论文数量最多,其次是英国、新加坡、澳大利亚、加拿大。中美两国合作论文的数量约占中国与其他国家合作论文数量的 47.9%,远高于中国与其他国家合作的论文。

图 7 中国与其他国家的论文合作情况学者流动

2009年—2020年间,美国、加拿大、法国的学者流入数量大于流出数量,而中国、英国、德国、意大利、印度、日本、西班牙的学者流出数量大于流入数量。无论是学者流入还是学者流出,美国排名第一,其次是中国。

图 8 全球学者的流动情况
2009年—2020 年间,北京是学者流动性最高的城市。此外,北京、香港、上海、哈尔滨的学者流出数量高于流入数量,而武汉、南京、西安、杭州、广州、合肥的学者流入数量高于流出数量。

Image caption学者画像

报告利用 AMiner 平台的“学者画像”功能,展示了认知图谱相关领域国内外具有代表性的专家学者信息(如 Amit P. Sheth)。其中,“学者画像”不仅提供了学者的个人基本信息,还利用命名排歧等技术建立了较为完全的学者—论文映射关系,提供了学者学术评价、研究兴趣发展趋势、学者合作者关系网络、研究方向相似学者等信息。

图 10 AMiner平台学者画像示例更多内容欢迎下载报告全文进行阅读。

报告全文下载地址:https://static.aminer.cn/misc/pdf/CognitiveGraph.pdf
AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业认知图谱
21
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
这个数据库有意思啊