腾讯AI Lab开放文本理解系统TexSmart,让AI想得更深更广

腾讯AI Lab今天宣布开放自然语言理解系统TexSmart,用以对中文和英文两种语言的文本进行词法、句法和语义分析除了支持分词、词性标注命名实体识别(NER)、句法分析、语义角色标注等常见功能外,TexSmart还提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。文本理解技术广泛应用于搜索、个性化推荐、广告匹配、智能对话等场景,用来对自然语言文本进行结构化分析与处理。

一、TexSmart 特色

相比目前公开的自然语言处理工具[1-7],TexSmart系统具有以下特色。

⒈ 细粒度命名实体识别

TexSmart支持上千种实体类型,类型之间具有层级结构,而目前多数公开的文本理解工具只支持人、地点、机构等几种或者十几种(粗粒度的)实体类型。大规模细粒度的实体类型有望为下游的NLP应用提供更为丰富的语义信息。

图1和图2是TexSmart与现有开源文本理解工具在一个示例中文句子上的对比。

图1. TexSmart的细粒度命名实体识别与增强的语义理解功能(2020年4月)

图2. 传统工具的命名实体识别(NER)结果输入文本为:“上个月30号,南昌王先生在自己家里边看流浪地球边吃煲仔饭。”

可以看到,TexSmart识别了更多类型的实体(如电影、食物等),支持更细粒度的实体类型标注(如把"南昌"的类型从"地点"细化为"城市")。

TexSmart能够识别的实体类型包括人、地点、机构、产品、商标、作品、时间、数值、生物、食物、药品、病症、学科、语言、天体、器官、事件、活动等上千种。在常见的人、地点、机构等大类中,能够识别出常见的细粒度子类型,如演员、政治人物、运动员、国家、城市、公司、大学、金融机构等。

2. 增强的语义理解功能

除了细粒度命名实体识别之外,TexSmart还提供了两项增强的语义理解功能:语义联想和针对特定类型实体的深度语义表达。这两个功能是多数现有的开源文本理解系统所不具备的。

1)语义联想

语义联想的功能是,对句子中的实体,给出与其相关的一个实体列表。语义联想是增强理解实体语义的一种方式,它在工业界有着广泛的应用,比如搜索和推荐。在上述例子中,TexSmart可以从“流浪地球”这一部作品,联想到其它的影视剧如"战狼二"、"上海堡垒"等;从“煲仔饭”联想到其它的食物如"兰州拉面","热干面"等。

2)特定类型实体的深度语义表达:

针对时间、数量等特定类型的实体,TexSmart能够分析它们潜在的结构化表达,以便进一步推导出这些实体的精准语义。例如在图1的例子中,TexSmart对"上个月30号"给出的深度语义表达为JSON格式:{"value":[2020,3,30]}。深度语义理解对某些类型的NLP应用至关重要,比如在智能对话中,某用户于2020年4月20日向对话系统发出请求,”帮我预定一张后天下午四点去北京的机票”。智能对话系统不但需要知道"后天下午四点"是一个时间实体,还需要知道这个实体的语义是"2020年4月22日16点"。目前大多数公开的NLP工具不提供这样的深度语义表达功能,需要应用层自己去实现。

3. 为多维度应用需求而设计

学术界和工业界不同的应用场景对速度、精度和时效性的要求有所不同,而速度和精度通常是很难兼得的。TexSmart的目标是在一套系统中尽可能地考虑这三个方面的需求。

首先,TexSmart针对一项功能(比如词性标注命名实体识别)实现了多种不同速度和精度的算法与模型供上层应用按需选择,以便满足工业界和学术界不同场景下的多样化应用需求。

其次,TexSmart的构建利用了大规模的无结构化数据以及无监督或弱监督方法。一方面这些无结构化数据覆盖大量时效性很强的词和实体(比如上文中的"流浪地球",再比如新的疾病"新冠肺炎");另一方面无监督或弱监督方法的采用使得该系统可以以较低的代价进行更新,从而保证它具有较好的时效性。

图3. TexSmart的特色功能二、技术方案简介

对于分词、词性标注、句法分析等较为成熟的NLP任务,TexSmart实现了多种代表性的方法[8-11]。下面将简要地介绍其特色功能(图3)的技术实现。

1. 细粒度命名实体识别

现有的命名实体识别(NER)系统大多依赖于一个带有粗粒度实体类型标注的人工标注数据集来作为训练集。而TexSmart中的实体类型多达千种,人工标注一个带有全部类型标注的训练集是非常耗时的。为减少人工标注量,该模块采用了一种混合(hybrid)方法,它是如下三种方法的融合:

1)无监督的细粒度实体识别方法,基于两类数据:其一是从腾讯AI Lab所维护的知识图谱TopBase[12] 中所导出的实体名到类型的映射表;其二是采用文献[13, 14]中的无监督方法从大规模文本数据中所抽取到的词语上下位关系信息。

2)有监督的序列标注模型,基于一个经过人工标注的包含十几种粗粒度实体类型的数据集所训练而成。

3)腾讯AI Lab在国际大赛夺冠的实体链接方法[15]。

这三种方法的结果都会有一些错误和缺陷,实验证明三种方法结合起来能够达到更好的效果。

2. 语义联想

上下文相关的语义联想(context-aware semantic expansion,简称CASE)是腾讯 AI Lab 从工业应用中抽象出的一个新 NLP 任务[16]。该任务的难点在于缺乏有标注的训练数据。该模块采用了两种方法来构建语义联想模型。第一种方法结合词向量技术、分布相似度技术和模板匹配技术来产生一个语义相似度图[17, 18, 19],然后利用相似度图和上下文信息来产生相关的实体集合。另一种方法是基于大规模的无结构化数据构建一个规模相当的伪标注数据集,并训练一个充分考虑上下文的神经网络模型[16]。

3. 特定类型实体的深度语义表达

对于时间和数量两种实体,TexSmart可以推导出它们具体的语义表达(见图1右上角的示例)。一些NLP工具利用正则表达式或者有监督的序列标注方法来识别时间和数量实体。但是,这些方法很难推导出实体的结构化语义信息。为了克服这个问题,该模块的实现采用了比正则表达式表达能力更强的上下文无关文法(CFG)。基本流程是:先根据特定类型实体的自然语言表达格式来编写CFG的产生式,然后利用Earley算法[20]来把表示这种实体的自然语言文本解析为一棵语法树,最后通过遍历语法树来生成实体的深度语义表达。

TexSmart是腾讯公司级文本处理工具qqseg的功能加强版,也是内部公共技术服务(PTS)的组件之一,为自然语言处理相关的腾讯业务及产品提供广泛支持,日调用量数千亿次。目前 AI 在自然语言理解方面的能力和水平,跟人类相比还有较大差距,TexSmart系统也不例外,在解析某些句子的时候可能会出现不尽如人意的结果。实验室将继续探索,力求不断提高 AI 在自然语言理解上的能力。

该系统现已开放体验,API与工具包试用请加入QQ群(如下): 1095749969。

除了此次开放的TexSmart,腾讯 AI Lab 在NLP领域发布的系统或数据包括:

transmart.qq.com

ai.tencent.com/ailab/nlp/embedding.html

[1] https://stanfordnlp.github.io/CoreNLP/

[2] https://www.nltk.org/

[3] https://opennlp.apache.org/

[4] https://demo.allennlp.org

[5] https://ai.baidu.com/tech/nlp

[6] http://www.ltp-cloud.com/

[7] https://github.com/FudanNLP/fnlp

[8] John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data, ICML 2001.

[9] Alan Akbik,  Duncan Blythe, and Roland Vollgraf . Contextual String Embeddings for Sequence Labeling. COLING 2018.

[10] Nikita Kitaev and Dan Klein. Constituency Parsing with a Self-Attentive Encoder. ACL 2018.

[11] Peng Shi and Jimmy Lin. Simple BERT Models for Relation Extraction and Semantic Role Labeling. Arxiv 2019.

[12] https://www.infoq.cn/article/kYjJqkao020DcHDMJINI

[13] Marti A. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. ACL 1992.

[14] Fan Zhang, Shuming Shi, Jing Liu, Shuqi Sun, Chin-Yew Lin. Nonlinear Evidence Fusion and Propagation for Hyponymy Relation Mining. ACL 2011.

[15] https://mp.weixin.qq.com/s/9XXZc4eVzJY7DCpB4Y2MWQ

[16] Jialong Han, Aixin Sun, Haisong Zhang, Chenliang Li, and Shuming Shi. CASE: Context-Aware Semantic Expansion. AAAI 2020.

[17] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[18] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[19] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[20] Jay Earley. An Efficient Context-Free Parsing Algorithm. Communications of the ACM, 13(2), 94-102, 1970.

产业AITexSmart文本理解腾讯AI Lab
3
相关数据
Jimmy Lin人物

滑铁卢大学教授,David R. Cheriton计算机科学系David R. Cheriton主席。研究兴趣:构建帮助用户处理大数据的工具,研究方向处于信息检索、自然语言处理和数据库的交叉领域,专注于大规模分布式算法和数据分析基础架构。曾在Twitter、cloudera工作。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

联想机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

推荐文章
暂无评论
暂无评论~