贾伟作者

清华人工智能研究院成立「知识智能研究中心」,发布四大知识平台

2019 年 1 月 21 日,清华大学人工智能研究院知识智能研究中心(以下简称知识中心)成立仪式暨知识计算开放平台发布会在清华大学 FIT 楼举行。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院常务副院长孙茂松教授主持成立仪式。

知识中心在成立仪式上发布了清华大学知识计算开放平台,内容涵盖语言知识、常识知识、世界知识和科技知识库,包括:(1)在我国著名机器翻译专家董振东先生毕三十年之功建立的语言和常识知识库《知网》(HowNet)基础上所研制的 OpenHowNet;(2)中英文跨语言百科知识图谱 XLORE;(3)科技知识挖掘平台 AMiner。董强先生、李涓子教授、唐杰教授、黄民烈副教授、刘知远副教授分别介绍了知识计算开放平台本次发布的相关资源及应用案例。成立仪式上,还发布了基于 AMiner 的《清华大学人工智能技术系列报告》(THUAITR)。

一、知识智能研究中心成立

 清华大学人工智能研究院成立于 2018 年 6 月,由清华大学计算机系教授、中国科学院院士张钹出任首任院长,清华大学交叉信息研究院院长、图灵奖获得者姚期智担任学术委员会主任。「知识中心」则是清华人工智能研究院成立的首个研究中心。

张钹院士在致辞中谈及成立「知识中心」的三个使命,简单来讲即:一个核心、两个融合。

张钹院士认为人工智能的研究大致可以分为两个阶段。第一个阶段为从人工智能研究出现到上世纪末,一般称为」传统人工智能时代」,这个阶段主要以知识为基础。第二阶段为从本世纪初到现在,以神经网络深度学习为基础,这一阶段的特点即人工智能技术在社会中的大量应用。然而,目前的人工智能方法仍然缺乏可信性和鲁棒性。张钹院士指出知识是人类智能的重要特征,我们现在已经进入后深度学习时代,让计算机拥有大规模、高质量的形式化知识,是实现安全可信人工智能的重要使命,知识表示、获取、推理与计算将是新一代人工智能研究面临的核心问题。因此,知识中心将紧密围绕人工智能原创性基础理论研究,探索支持鲁棒可解释人工智能的大规模知识的表示、获取、推理与计算的理论和方法,打造国际一流的知识智能创新高地。

另一方面,张钹院士指出,目前我国研究学者对知识表示、知识推理和建立知识库的重视还不够。在人工智能顶级国际会议 IJCAI 上,关于深度学习的论文只占全部论文的 1/3,其中 60% 的论文来自中国;而另外 2/ 3 的关于知识表示、知识推理等的论文中,则几乎没有来自中国的论文。张钹院士认为我们的研究不能只是集中在某一个热点上,科学研究必须多样化,因此」知识中心」将建设知识计算服务平台,平台将包含语言知识、常识知识、世界知识、认知知识的大规模知识图谱以及典型行业知识库;同时也将举办开放的、国际化的与知识智能相关的学术活动,以增进学术交流,普及知识智能技术,促进产、学合作。

知识中心将聘请清华大学李涓子教授为知识中心主任,「知网」创始人董振东为学术顾问。知识中心的学者将包括孙茂松、朱小燕、李涓子、唐杰、许斌、刘洋、黄民烈、刘知远等知名学者。

二、清华大学知识计算开放平台(THUKC)

知识智能研究中心成立之后,由知识中心主任李涓子教授主持,发布了 XLORE、OpenHowNet、AMiner、THUAITR 四个知识计算平台。

XLORE:中英文跨语言百科知识图谱

网址:https://xlore.org/

XLORE 是中英文知识规模平衡的大规模跨语言百科知识图谱。该图谱通过融合维基百科和百度百科,并对百科知识进行结构化和跨语言链接构建而成。该图谱以结构化形式描述客观世界中的概念、实例、属性及其丰富语义关系。XLORE 目前包含约 247 万概念、44.6 万属性/关系、1628 万实例和 260 万跨语言链接。XLORE 作为世界知识图谱,将为包括搜索引擎、智能问答等人工智能应用提供有力支撑。

XLORE 集成了多项创新研究成果:(1)利用基于链接因子图模型的知识链接方法,实现对不同语言知识资源之间的实体知识关联;(2)利用跨语言概念层次关系的验证保证生成跨语言本体中概念关系的质量,并进一步研究了跨语言知识图谱的概念层次剪枝和优化算法以规范知识分类体系;(3)利用因子图模型建立跨语言属性间的对应关系,减少知识图谱的冗余;(4)联合使用 DBpedia 分类树、维基分类体系、百度百科词条标签对未分类实体进行类别标注。相关成果发表在 WWW、IJCAI、ACL、EMNLP 等人工智能自然语言处理领域重要国际会议上。

与著名知识图谱 DBpedia 相比,XLORE 的中文实体数量是其的 3.6 倍,中英文跨语言链接增加 39%。XLORE 还提供多样化数据 API 服务,系统累计访问次数过亿次,访问来自 53 个不同国家或地区;2018 年 API 响应调用 160 万余次。XLORE 项目计划于 2019 年正式发布跨语言实体链接服务 XLINK。

在世界知识的获取、表示与计算方面,中心还研制发布了很多开源工具和评测数据集,如知识表示学习工具包 OpenKE(https://github.com/thunlp/OpenKE)、神经网络关系抽取工具包 OpenNRE(https://github.com/thunlp/OpenNRE)、Few shot learning 关系抽取数据集 FewRel(https://github.com/thunlp/FewRel)等,自发布以来获得学术界与产业界广泛使用。

OpenHowNet:基于义原的开放语言知识库

网址:https://hownet.thunlp.org/

HowNet 是由董振东先生、董强先生父子毕三十年之功建立的一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间、以及概念所具有的属性之间的关系为基本内容的语言和常识知识库。知网 HowNet 秉承还原论思想,认为词义概念可以用更小的语义单位来描述,这种语义单位被称为「义原」(Sememe),是最基本的、不易于再分割的意义的最小单位。在不断标注的过程中,HowNet 逐渐构建出了一套精细的义原体系(约 2000 个义原)。HowNet 基于该义原体系累计标注了数十万词汇/词义的语义信息,自 1999 年正式发布以来引起了中文信息处理领域极大的研究热情,在词汇相似度计算、文本分类信息检索等方面探索了 HowNet 的重要应用价值,建立了广泛而深远的学术影响力。

2017 年以来,清华大学研究团队系统探索 HowNet 知识库深度学习时代的应用价值,并在词汇语义表示、句子语义表示、词典扩展等任务上均得到了验证。研究发现,HowNet 通过统一的义原标注体系直接精准刻画语义信息,一方面能够突破词汇屏障,深入了解词汇背后丰富语义信息;另一方面每个义原含义明确固定,可被直接作为语义标签融入机器学习模型,使自然语言处理深度学习模型具有更好的鲁棒可解释性。相关成果均发表在 AAAI、IJCAI、ACL、EMNLP 等人工智能自然语言处理领域顶级国际会议上。

为了让 HowNet 知识库及其学术思想得到更广泛的应用,知识中心联合董氏父子共同开源 HowNet 知识库核心数据,研制了知识库的访问与计算工具包,并将在清华大学知识计算平台上持续地维护、更新和扩展。此外,董强等人创建的语知科技也以 HowNet 为核心,将其应用于各种自然语言理解任务。

AMiner:科技知识挖掘平台

网址:https://aminer.cn/

AMiner 作为科技情报网络大数据挖掘平台,包含超过 2 亿篇学术论文和专利以及 1.36 亿科研人员学术网络。该平台于 2006 年上线,已经累计吸引全球 220 个国家和地区的 800 多万 独立 IP 访问,数据下载量 230 万次,年度访问量超过 1000 万,成为学术搜索和社会网络挖掘 研究的重要数据和实验平台。

AMiner 项目团队与中国工程科技知识中心、微软学术搜索、ACM、IEEE、DBLP、美国艾伦研究所、英国南安普顿大学等机构建立了良好的合作关系,项目成果及核心技术应用 于中国工程院、科技部、国家自然科学基金委、华为腾讯阿里巴巴等国内外 20 多家企 事业单位,为各单位的专家系统建设及产品升级提供了重要数据及技术支撑。

AMiner 旨在为研究人员社交网络提供全面的搜索和数据挖掘服务,主要关注: 

(1) 通过从分布式 Web 中提取信息为每个研究人员创建基于语义的配置文件;

(2) 从多个来源整合学术数据 (例如,书目数据和研究人员简介);

(3) 准确搜索异构网络; 

(4) 从学术社交网络中分析和发现有价值的模式。

THUAITR:清华大学人工智能技术系列报告

网址:https://reports.aminer.cn/

THUAITR 以 AMiner 全球科技情报大数据挖掘服务平台为基础,聘请领域专家作为顾问,结合人工智能自动生成技术,以严谨、严肃、负责的态度制作发布的人工智能技术评论及人才分析。报告内容涵盖技术趋势、前沿预测、人才分布、实力对比、以及洞察情报等。

2018 年共发布 14 份技术报告(主题包括:自动驾驶 [基础版]、机器人、区块链、行为经济学、机器翻译、通信与人工智能自动驾驶自然语言处理计算机图形学、超级计算机、3D 打印、智能机器人、人脸识别人工智能芯片),累计阅读量超过 120 万人次。本次将新发布「知识图谱研究报告」和「数据挖掘研究报告」。

产业知识智能研究中心清华人工智能研究院清华大学
1
相关数据
语知科技机构

语知NLP是基于知网语言知识库独有的语义分析技术,满足用户对多语种自然语言语义分析需求的开放平台,用户能够基于平台对外提供的API接口实现搜索、推荐、舆情、挖掘等语义分析应用,也可以与我们深入合作定制有特色的语义分析解决方案。

http://www.yuzhinlp.com/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
推荐文章
暂无评论
暂无评论~