刘知远 作者AI TIME 论道来源鸽鸽、黄继彦编辑

清华大学刘知远:知识指导的自然语言处理

“语言是一块琥珀,许多珍贵和绝妙的思想一直安全地保存在里面。”

“语言是一块琥珀,许多珍贵和绝妙的思想一直安全地保存在里面。”从人类诞生伊始,自然语言就承载着世世代代的智慧,积聚了无穷无尽的知识。这片深蕴宝藏的沃土吸引了众多满怀好奇的AI研究者,投入其中耕耘、开垦、发掘和重构

近期由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上,清华大学副教授刘知远所作的学术报告《知识指导的自然语言处理》,于深度学习时代另辟蹊径,阐释了语言知识和世界知识对于自然语言处理的重要价值。

一、NLP研究需从语言自身特点出发


自然语言处理(Natural Language Processing, NLP),旨在让计算机掌握和运用人类语言。从词性标注命名实体识别、指代消解、到语义和句法的依存分析,NLP工作者们致力于从无结构的语音或文字序列中挖掘出结构化信息。恍如从一片混沌中寻找秩序,无论是语义还是句法结构的,都不简单。

语言作为一个符号系统,包含多种不同粒度的语言单元。譬如中文的汉字、词、短语、句子、文档、直到文档互联构成的万维网,由下而上,粒度不断加粗。

自然语言处理的很多任务,都涉及对不同层级的语言单元的语义相关度计算。例如信息检索就是给定一个query或者短语,找出哪些文档和该短语的语义最相关。由于语言的粒度大小不一,这就给计算增加了复杂度。

幸运的是,我们可以通过深度学习分布式表示,建立多粒度的语言关联。

深度学习是近十年内一场席卷AI界的技术革命,而深度学习自然语言处理领域获得巨大成功的一个重要原因就是分布式表示。从词汇、词义、短语、实体到文档,深度学习把不同粒度的语言单元映射到统一的低维向量分布式表示空间,实现统一的隐式表示,有助于不同语言单位语义信息的融合与计算。这给NLP任务提供统一的表示基础,避免对不同任务设计不同的相似度计算方法,也能更好地解决大规模长尾分布数据稀疏的问题。

针对深度学习的分布式表示,2015年到2017年刘知远的实验室开展了不少相关工作。具体包括:把汉字和词结合进行统一表示、英文词义和中文词义的表示、短语的表示、实体和文档的表示等等。

二、融入语言知识库HowNet

尽管如今深度学习卓有成效,但自然语言处理尚未得到彻底解决。2015年Science刊登的一篇NLP综述中提到,尽管机器学习深度学习已经成果丰硕,但要攻克真正的难题,包括语义、上下文、知识的建模,仍需更多研究和发现。

这就涉及语言的另一个特点:一词多义现象。日常交流中,我们把词或汉字视为最小的使用单位。然而,这些并非最小的语义单元,词的背后还会有更细粒度的词义层次,比如“苹果”这个词至少有水果、公司产品这两种解释。那么词义(sense)是最小单元么?可能也不是。

语义最小单元:义原

语言学家指出可以对词义进行无限细分,找到一套语义“原子”来描述语言中的所有概念。这套原子称为义原(sememes),即语义的最小单元。例如,“顶点”这个词可能有两个词义,每个词义用细粒度更小的义原来表示。如图,左边的词义是指某物的最高点,由四个义原的组合进行表示。


在人工标注义原方面,语言学家董振东先生辛劳数十年,手工标注了一个知识库HowNet,发布于1999年。经过几轮迭代,现囊括约2000个不同的义原,并利用这些义原标注了中英文各十几万个单词的词义。

然而深度学习时代,以word2vec为代表的大规模数据驱动的方法成为主流,传统语言学家标注的大规模知识库逐渐被推向历史的墙角,HowNet、WordNet知识库的引用明显下跌。

那么,数据驱动是最终的AI解决方案么?

直觉上并非如此。数据只是外在信息、是人类智慧的产物,却无法反映人类智能的深层结构,尤其是高层认知。我们能否教会计算机语言知识呢?

  • HowNet与Word2Vec的融合

2017年,刘知远等人尝试将HowNet融入当时深度学习自然语言处理中一个里程碑式的工作Word2Vec,取得了振奋人心的实验效果。

下图展示了义原指导的word embedding,该模型根据上下文来计算同一词语不同义原的注意力、得到不同词义的权重,从而进行消歧,进一步利用上下文学习该词义的表示。尽管利用了传统Word2Vec中skip-gram的方法,即由中心词Wt预测滑动窗口里上下文的词,然而中心词的embedding由标注好的义原的embedding组合而成。因此,这项研究将HowNet中word、sense和sememe三层结构融入word embedding中,综合利用了知识库和数据两方面的信息。

实验结果证明,融入HowNet的知识可以显著提升模型效果,尤其是涉及认知推理、类比推理等成分的任务。并且,我们能自动发现文本中带有歧义的词在具体语境下隶属于哪一个词义。不同于过去有监督或半监督的方法,该模型并未直接标注这些词所对应的词义,而是利用HowNet知识库来完成。由此可见,知识库对于文本理解能够提供一些有意义的信息。

受到这项工作的鼓舞,刘知远的团队将知识的运用从词语层面扩展到句子级别。过去深度学习是直接利用上文的语义预测下一个词,现在把word、sense和sememe的三层结构嵌入预测过程中。首先由上文预测下一个词对应的义原,然后由这些义原激活对应的sense,进而由sense激活对应的词。一方面,该方法引入知识,利用更少的数据训练相对更好的语言模型;另一方面,形成的语言模型具有更高的可解释性,能够清楚地表明哪些义原导致了最终的预测结果。

HowNet作为董振东先生一生非常重要的心血,已经开源出来供大家免费下载和使用,希望更多老师和同学认识到知识库的独特价值,并开展相关的工作。下面是义原知识相关的阅读列表。

三、世界知识:听懂弦外之音

除了语言上的知识,世界知识也是语言所承载的重要信息。

现实世界中有多种多样的实体以及它们之间各种不同的关系,比如莎士比亚创作了《罗密欧与朱丽叶》,这些世界知识可以构成知识图谱(knowledge graph)。在知识图谱中,每个节点可以看成一个实体,连接它们的边反映了这些实体之间的关系。图谱由若干三元组构成,每个三元组包括头实体、尾实体以及它们之间的关系。

由于知识图谱中的实体隶属不同的类别,而且具有不同的连接信息,因此我们可以基于knowledge attention这种机制,把低维向量的知识表示与文本的上下文表示结合起来,进行细粒度实体分类的工作。

另一个方向是两个不同知识图谱的融合问题,实为一个典型的entity alignment的问题,过去一般要设计一些特别复杂的算法,发现两个图谱之间各种各样蛛丝马迹的联系。现在实验室提出了一个简单的方法,把这两个异质图谱分别进行knowledge embedding,得到两个不同的空间,再利用这两个图谱里面具有一定连接的实体对、也就是构成的种子,把这两个图谱的空间结合在一起。工作发现,该方法能够更好地进行实体的对齐。

同时,知识也能指导我们进行信息检索,计算query和文档之间的相似度。除了考虑query和document中词的信息,我们可以把实体的信息、以及实体跟词之间的关联形成不同的矩阵,从而支持排序模型的训练。

最后,预训练语言模型的诞生,把深度学习从原来有监督的数据扩展到了大规模无监督数据。事实上,这些大规模文本中的每句话,都包含大量实体以及它们之间的关系。我们理解一句话,往往需要外部的世界知识的支持。

能否把外部知识库加入预训练语言模型呢?2019年,刘知远所在的团队提出ERNIE模型,使用知识表示算法(transE)将知识图谱中的实体表示为低维的向量,并利用一个全新的收集器(aggregator)结构,通过前馈网络将词相关的信息与实体相关的信息双向整合到一起,完成将结构化知识加入到语言表示模型的目的。

四、总结

本次报告主要从义原知识和世界知识两个方面,阐述了知识指导的自然语言处理相关的工作。未来自然语言处理的一个重要方向,就是融入人类各种各样的知识,从而深入地理解语言,读懂言外之意、听出弦外之音。针对面向自然语言处理的表示学习,刘知远等人也发表了一本专著,供大家免费下载研读。


刘知远清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇,Google Scholar统计引用超过6000次。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、中国计算机学会青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会秘书长,ACL、EMNLP、COLING、IJCNLP领域主席。

相关链接及参考文献:

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论自然语言处理刘知远清华大学
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

类比推理技术

在两种情况或事件之间感知和使用关系相似性的能力 - 是人类认知的一个基本方面。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

三层结构技术

三层体系结构是一种客户端 - 服务器软件体系结构模式,其中用户界面(表示层),功能处理逻辑(“业务规则”),计算机数据存储和数据访问被开发和维护为独立模块。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

指代消解技术

在计算语言学中,共参考分辨率是一个在话语中被充分研究的问题。为了得出对文本的正确解释,或者甚至估计各种提到的主题的相对重要性,代词和其他引用表达必须与正确的个体相关联。目的解决指代的算法通常首先查找与引用表达式兼容的最近的一个之前个体。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

推荐文章
暂无评论
暂无评论~