凌珑作者

HowNet知识系统共同发明人董强:THUKC语言与常识知识库——OpenHowNet

2019年1月21日,清华大学人工智能研究院在清华大学FIT楼举行了知识智能研究中心成立仪式暨知识计算平台发布会,清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,人工智能研究院院长张钹院士、常务副院长孙茂松教授出席了仪式并致辞。

中心隆重发布了董振东先生父子毕三十年之功建立的《知网》语言常识知识库,董强先生在发布会上也对《知网》发布做了重要阐释。

HowNet特点:

  • 首次开源知网(HowNet)核心数据

  • 在线检索知网词条,展示义原结构

  • 提供丰富的调用接口方便用户使用

HowNet发展情况:

OpenHowNet API

存放HowNet核心数据和THUNLP开发的OpenHowNet API,提供方便的HowNet信息查询、义原树展示、基于义原的词相似度计算等功能。

HowNet核心数据

数据文件(HowNet.txt)由223,767个以中英文词和词组所代表的概念构成,HowNet为每个概念标注了基于义原的定义以及词性、情感倾向、例句等信息。下图提供了HowNet中一个概念的例子:

接口说明

get(self,word,language=None)

功能说明:检索HowNet中词语标注的完整信息

参数说明:word表示待查词,language为en(英文)/ch(中文),默认双语同时查找word表示待查词,language为en(英文)/ch(中文), structured表示是否以结构化的方式返回,merge控制是否合并多义项,expanded_layer控制展开层数,默认全展开。

get_sememes_by_word(self,word,structured=False,lang='ch',merge=False,expanded_layer=-1)

功能说明:检索输入词的义原,可以选择是否合并多义,也可以选择是否以结构化的方式返回,还可以指定展开层数。

参数说明:word表示待查词,language为en(英文)/ch(中文), structured表示是否以结构化的方式返回,merge控制是否合并多义项,expanded_layer控制展开层数,默认全展开。

initialize_sememe_similarity_calculation(self)

功能说明:初始化基于义原的词语相似度计算(需要读取相关文件并有短暂延迟)

calculate_word_similarity(self,word0, word1)

功能说明:计算基于义原的词语相似度,调用前必须先调用上一个函数进行初始化

get_nearest_words_via_sememes(self,word,K=10)

功能说明:在使用基于义原的词语相似度度量下,计算和检索词最接近的K个词

参数说明:Word表示检索词,K表示K近邻算法取的Top-K

面向应用的研究:

  • 2012年开发出词语相关性计算器

  • 2012年开发出语义群计算器

  • 2014年推出了基于HowNet的英汉机器翻译系统

  • 2016年推出了基于HowNet的中文文本分析系统

  • 2016年推出了基于HowNet的英文文本分析系统

相关研究

基于义原的词表示学习

Improved Word Representation Learning with Sememes

词向量的学习是自然语言处理中一项非常重要而有意义的任务,这项研究探索将义原信息融入词表示学习模型中来提高词向量的效果,核心思想是利用中心词所标注的义原来更准确地捕捉到在当前上下文中,中心词所表现出来的语义。

具体而言,这项研究基于Skip-gram模型,同时学习词、义项和义原向量,采用注意力机制来检测中心词在不同上下文中的义项。在词相似度和词类比实验中,这项研究提出的模型实现了比其他词向量表示学习模型更好的性能。

这项研究表明通过采用注意力机制,义原信息可以更好地融入词向量中,提高词向量学习效果。

基于义原的语言模型

Language Modeling with Sparse Product of Sememe Experts

传统语言模型在编码输入序列后直接在词层面或字层面进行预测,而这项研究希望通过引入知网中“义原-词义-单词”的结构关系,层次化这样的预测过程,进而提高语言模型的性能和可解释性。这样的语言模型称为义原驱动的语言模型(SDLM)。

义原驱动的解码器以循环神经网络输出的上下文向量作为输入,输出预测下一个单词的概率,其结构包括以下三个层次化的模块:

  1. 给定循环神经网络最后生成的上下文向量,预测每个义原将在下个词中出现的概率;

  2. 使用上下文向量和A中的预测,给出每个词义出现的概率;

  3. 将B中的词义出现的概率边缘化得到每个单词的概率。

中文语言模型数据集上的实验结果证明了SDLM模型相比较传统语言模型和之前使用层次化解码器的语言模型在性能上的优势。

新词的义原推荐

1. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization

人工标注义原、构造义原数据集费时费力,并且会有较大的不一致性和噪声。这项研究工作首次提出利用词向量来为新词自动进行义原标注,采用了推荐系统中的协同过滤矩阵分解的方法,相应地提出了两个模型SPWE和SPSE。

在实验中,两个模型,以及两个模型的集成模型在义原预测任务上表现出较好的效果。这项研究将对现有义原标注的准确性和和一致性检验以及新词的义原标注有重要意义。

2. Incorporating Chinese Characters of Words for Lexical Sememe Prediction

现有的义原自动标注方法,都只利用了大规模文本信息(即外部信息),对于低频词的推荐效果很差。针对这个问题,这项研究提出了一个新颖的框架,充分利用词的内部汉字信息和外部上下文信息进行义原推荐,并提出了两种方法:

  1. 基于词-字过滤的方法以及基于字符和义原向量的方法对内部信息进行利用。基于词-字过滤的方法将词分为前中后,并统计每个字符对应的义原概率。

  2. 而基于字符和义原向量的方法预先学习字符向量,并使用矩阵分解的方法学习义原向量。在表示义原和词的距离时,使用距离义原向量最近的字来表示一个词。

实验结果表明本文中两种方法的集成模型在不同频率的词表上表现均比现有最好方法有显著提升,特别是在低频词上呈现出更加鲁棒的性能。

跨语言词的义原推荐

Cross-lingual Lexical Sememe Prediction

知网(HowNet)仅仅为中英双语词标注了义原,对于大多数其他语言,尤其是低资源语言,没有像知网这样的义原知识库,这在一定程度上阻碍了将义原用于这些语言的自然语言处理任务中去。通过机器学习的方法,将现有知网中的义原知识迁移到其他语言中,相比于从头构建其他语言义原知识库,无疑是一种省时省力的方法。

因此这项研究提出了跨语言词的义原推荐这一任务,并且设计了基于融合义原信息的双语词表示和协同过滤的框架,实现了较好的跨语言词义原推荐效果。

PPT具体内容:

(点击文末阅读原文即可下载)


演讲视频


清华大学知识智能研究中心发布会(上)





清华大学知识智能研究中心发布会(下)





AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论HowNet
3
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

Skip-gram技术

CBOW和skip-gram是word2vec的核心概念。CBOW模型是用词的前后几个词来预测这个词,skip-gram的输入是当前词的词向量,而输出是周围词的词向量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~