王文广作者

当知识图谱遇上文本智能处理,会擦出怎样的火花?

目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点,而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上,三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得,内容略有删减。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

人们一些模糊词义的表达,比如:以前没有钱买华为,现在没有钱买华为。”这两句“没有钱”的意思很不一样,我们人理解这样的句子很容易,但对于计算机来说理解便很困难。

同一句话在不同场景下含义也很不一样,比如说从青岛开高速出来在车上谈“G20”是指高速有没有堵车,如果是北京或者是杭州谈G20有可能是高铁的票,在一些环境下G20也可能是20国集团峰会,这些表达的意思非常需要语境和背景知识的理解。计算机做文字阅读理解面临的挑战主要包括三个方面:

(1)缺乏常识体系

因为没有丰富的知识体系难以对文字背后的含义进行深入理解和推导

(2)缺乏领域的专家经验

人类的业务、法务、财务专家因为有行业知识,所以阅读文字后与知识对比后可以形成专业的见解

(3)模糊、歧义、抽象会增加困难

语言中模糊不清的现象比比皆是,需结合语境去理解

知识图谱是其中一个为解决问题提出来的方法——我们可以把人类的各种知识以知识图谱的形式沉淀下来,让计算机利用这个知识图谱理解更加复杂的含义。

知识图谱基本概念

知识图谱本身是从语义网发展出来的,也是谷歌提出来的概念,知识图谱的构建也是现在AI领域里面的非常大的难点,这是因为不仅涉及到AI领域各方面的技术,还包括人类各种领域的知识所形成的专家系统

构建高质量的不断演化知识图谱也是AI领域的难点之一,因为知识图谱本身研究的意义就是可以为语言提供更多的背景知识,让计算机更好的读写文字。基本现状像谷歌、百度、搜狗都有大量的通用知识图谱,还有垂直领域的医疗或者是金融领域的知识图谱的广泛应用也很多,如何结合业务场景使用好知识图谱是落地的根本要素。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

知识图谱本质上是一种语义网络,将客观的经验沉淀在巨大的网络中,结点代表实体(entity)或者概念(concept),边(edge)代表实体/概念之间的语义关系,成熟的图数据库如neo4j,Dgraph,JanusGraph等可以用来存储知识图谱

知识图谱更加广泛的被认知的是一个三元组的表示形式。就是有三个值,第一个表示第一个实体,第二个值表示第二个实体,中间值是两者之间的关系。三元组本身基于三元组的语义网发展起来,有RDF的检索语言,还有基于RDF的存储的开源的方式,都是很方便使用方式。

深度学习的发展促使知识的表示从三元组迈向稠密向量表示,从Word2Vec到对三元组的表示学习,稠密向量,实体等本身可以用Word2Vec等进行表示学习,例如 Vector(山东省) - Vector(威海市) = Vector(广东省) - Vector(佛山市) ,对于三元组的表示学习,有各类深度学习算法,如TransE、TransH、TransR、TransG、KBGAN、等。

知识图谱上的应用非常多,比如推荐系统可以用上知识图谱来实现更加智能的推荐,除此之外,知识问答、文档审核等也是知识图谱常见的应用场景。

通用型知识图谱和行业型知识图谱

一般来讲会把知识图谱分成通用和行业的知识图谱,通用型的就是刚刚提过像谷歌,构建知识图谱就是一个面向全领域,没有一些特别的偏好,国内有百度或者是搜狗知识图谱,还有一些是开放式的像wikidata 以及中文openKG等。

行业垂直型知识图谱是面向某一特定领域,如金融、法律、财会、教育等,以专家知识为主,通过结合业务场景,基于行业数据构建,打造“语义层面的行业知识库”,通常也更加专业。

比如向百度或者是搜狗搜一些人名地名会以卡片的形式展现出来,这个是知识图谱的现实的应用。金融领域会用知识图谱分析借贷关系或者是企业的信贷状况等,这是非常强的应用场景。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

目前达观达观构建一些企业信息法律类的知识图谱用来帮助我们的文档智能审阅系统更好的审核合同或者是专业文本,像财报或者是上交所的公告等。

如何构建知识图谱

知识图谱有这么多好处,我们怎么去构建一个知识图谱简单来说,构建知识图谱其实是一个系统性的工程,不是单一的算法能够完成。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

如果要构造一个完整的知识图谱则是非常复杂的系统工程,会涉及到schema(本体)的构造,然后会有一些知识抽取或者是关系抽取的概念语言。其次,需要对知识推理(关系推理)的结果进行质量评估。此外,需要对知识抽取的监督算法进行样本标注,或者对自动标注的样本进行效果确认。

另外对于知识图谱来说非常重要的一点是反馈机制,我们怎么样利用反馈系统不断地让知识图谱进行进化?这个在构建知识图谱的过程当中非常需要考虑的问题。此外,工程上详细的logging和报表系统以在需要的时候进行分析和纠正。

分层次的领域模式(Schema)非常重要

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

schema的构造是层级的方式,专业领域是先按照专家经验构造出一个知识图谱的schema,然后在实践过程当中不断完善,像通用的谷歌或者是百度他们自上而下利用类算法抽取知识图谱,然后归类到已经有的schema,如果归类不到就想方设法生成新的schema的模式匹配它。

在这里面知识图谱构建过程当中,除了schema之外就是往图谱里填内容,这个过程就是知识抽取,本身是包括了实体抽取和关系抽取,还有属性抽取这几个概念,在实践过程当中,其实不完全是像在论文里面看到的各种抽取,有可能是从结构化数据库里面按照某一种专业的规则直接转化,因为很多的知识其实已经存储在各个企业里面关系数据库里面。这种情况下可能是用了简单的规则就转化成知识图谱的一部分的内容。

另外一部分是半结构数据,维基百科很多的标签是已经存在在里面的,还有国家企业信息公示网的各种实体公司名或者是企业法人都是以半结构化存在,这个用模板匹配就可以完成了。

这里面简单的就总结了刚刚提到的点,在不同的背景下可能选择不同的知识抽取的算法可以更好的去帮助我们构建一个完整的知识图谱

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

这是一个像BiLSTM-CRF用于命名实体识别常用的办法,帮助我们识别非结构化文本,比如说书籍或者是合同或者是新闻里面的实体。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

Bi-LSTM双向网络分别从前往后和从后往前进行序列信号的记忆和传递是常见做法,CRF等经典方法结果可控性好,在序列标注时,在顶层用CRF对Bi-LSTM的结果进行二次操作可得到更好的结果。

除了刚刚提到的知识抽取之外,其实抽取完之后在不同的地方表现方法和表达方式不一样,在不同来源的知识里面如何融合成一个相同的?这个是我们需要考虑的点,这里有几个例子:比如说苏东坡在不同的地方会被提到,而且有不同的名字,可能是历书里面有东坡学士这样的说法,还有苏轼的叫法。

另外这些不仅仅存在中国,因为多元跨国之间的交流也导致很大的问题,比如说后面的例子是美国总统特朗普,中文的官方名称是特朗普,大家还有称他为川普,还有其他的语言西班牙或者是土耳其语。在多元的环境下如何进行知识图谱?其实对知识图谱构建是非常大的挑战。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

这是一个网络上的例子,来自于几个不同的影视剧或者是小说,里面的部分人是同一个人,但是不同的小说可能有不同的名字或是不同影视剧里面的主角,这样如果做成一个知识图谱如何归结好?利用各种影视剧小说里面的内容进行推理,其实是多元知识融合里面非常通俗易懂的例子。这个是人工整理,人有专业的知识非常好做,但是耗费了大量的人力,不能把各种知识都做很好的融合,所以我们需要发掘更多算法去实现这个目标。

除了刚刚提到的抽取和融合之外,对于知识图谱的存储其实也是非常大的挑战。大一点的通用的知识图谱都是几十亿甚至上百亿的节点,可能百亿千亿级别的关系,如何做好存储系统是极其需要考虑的点,下图总结目前常见的几种存储类型,像RDF和ApacheJena以三元组的形式表现的,NoSQL也可以存储,但是如果量大会很吃力,开源的Neo4j是单机的,DGraph正在发展,按照官方的说法支持千亿级别的,但是现在还没有达到,但亿级别是完全没有问题的。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

下图一个JanusGraph,有如下几个特点:

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

十亿以上的节点和边

C* 或 Hbase等

与Spark无缝集成

支持使用ElasticSearch进行高效检索

最终一致性

支持Gremlin语言进行在线分析

开源

除了以上这些点,如果构建好了知识图谱,要对知识进行推理和评估,知识推理本身可以补充知识图谱的内容,或者是进行完善或者是较验。对于知识图谱大部分还是需要人工的参与。

Path Ranking Algorithm(PRA)算法和DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning,这两个是知识推理的前沿进展,有兴趣可以去看一下。

总之,从合适的业务场景出发是成功构建和使用行业知识图谱的关键。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

知识图谱行业应用

知识图谱的作用是衔接企业的数据和业务需求。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

对于企业来说,是把原有的分散的数据变成集中化的管理。可能是遇到比较大的集团企业他的传统的数据是分散的,不同的部门和公司之间,这部分的知识是没有被更好的利用起来。如何利用好这些数据?更好的支持业务,让整个业务更高效的运行?其实是整个企业在做知识图谱需要考虑的一个点。

对于我们来说他的难点就是在于因为本身的数据非常的分散,不同的数据结构表示不一样,存在不同的地方有不同的表达方式,如何做好这部分融合的工作其实是很大的难点。

知识图谱的应用场景可以是简单的利用,即直接用知识图谱的分析,下图比是早的阿里巴巴的分析图,当时发生了一个事件马云把支付宝私有化,当时他们画了一个阿里巴巴的股权结构图,像这种股权分析在金融领域里面是非常直接的知识图谱的应用。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

除此之外,信贷分析也是经典的应用场景,直接用知识图谱或者是知识推理进行分析,生成相应的报告或者得出一些结论,这个是最直接的应用场景。

第二是利用知识图谱做一些舆情分析热点分析,把知识图谱和其他的结合起来使用。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

达观擅长的VOC用户评论分析,会涉及到用户评论归类到哪一个实体里面,比如说一个企业会抓他的所有的评论和微博数据,会归纳到具体的品牌和产品上,甚至是归到产品的某些类别中。比如说手机,有不同的品牌,每个品牌下面有不同的型号,每个型号下有不同的版本,手机本身有不同的零件——屏幕或者是相机之类。每个评论过来之后其实针对的是某一个具体手机的型号,在这个型号里面有可能是针对整机进行评价,有可能是针对整机里面的部件。那么我们需要做的更好的分析就是可以利用像手机这种类似的知识图谱对它进行更深入的分析。

招聘也是达观目前在做的,有企业在用,可以对候选人和职位构建出图谱进行分析,更好的理解这个职位需要招什么人?也可以更好的了解候选人适合哪一个职位。

此外,基于知识图谱实现更加智能的搜索。基于知识图谱的检索最早用在搜索引擎上面,搜索利用这些之后可以更好的理解用户的意图,达到更好的效果。

推荐系统也可以用知识图谱,这个是达观在做的,达观的推荐系统在业界比较领先,知识图谱可以针对不同的场景或者是不同的类型还有不同的领域推荐。推荐中最重要的一点是冷启动问题,如果完全没有数据的系统或者是刚构建的系统,想达到好的推荐效果比较难,利用知识图谱里面的内容能更好的在冷启动的环境下达到更好的效果。如何利用深度学习知识图谱用在推荐系统上,也是达观数据在研究的内容。

构建知识图谱之上的问答系统是最直接的,知识问答是你需要了解用户问的问题是什么意思?然后给他一个最直接的答案。知识问答除了像各种搜索引擎,这个里面的例子有几个,一个是问范冰冰的男友是谁,百度就直接给出一个卡片。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

前面就是一些通用场景下的应用场景,下面讲讲达观数据知识图谱的的一些应用。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

这个场景是合同审阅,自动化的帮企业审阅各种合同文本和公告,合同需要符合合同法规定的,以及企业内部的法务部门对合同有一些要求,以及本身合同是一个非常规范的文本,不允许有错别字等。

达观文档智能审阅系统能利用知识图谱里面包括对法律文本的语义化的图谱应用,自动完成审阅。以及对企业信息可以从工商信息网的信息里面可以做一些较验。

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

推荐系统刚刚提到过,推荐系统里面应用到知识图谱,这个是简单的例子,比如说达观数据人工智能公司,是属于人工智能的一个领域,如果一个用户对人工智能感兴趣,对达观相关的信息就感兴趣,比如说达观的融资信息,这个对人工智能来说是一个比较有用的新闻,可以判断这个领域是不是繁荣?估值是不是上涨了还是下降了?

当<mark data-type=technologies data-id=6e896233-3f15-47a4-9b2e-479d7cc5478b>知识图谱</mark>遇上文本智能处理,会擦出怎样的火花?

上图是达观用深度学习的方式把知识图谱的三元组表示应用到协同过滤和推荐相关的领域。

总结

前面简单的介绍了整个知识图谱的相关的内容,最后做一些总结。

1.构建知识图谱本身是非常系统性的工程,包括计算机的方方面面还有实践过程,以及企业真实应用场景中包括对企业的不断的沟通,不同部门之间整合的过程

2.整个知识图谱的构建没有"银弹",没有一个统一或者是完美的方法搞定一个事情,在做事情的过程当中需要因时因地制宜的实现

3.知识图谱的构建能有效提升文本智能处理的效果

4.知识图谱可能是走向认知智能的关键要素

5.知识图谱需要结合应用场景做分析落地,落地之后还要不断的优化总结来提升整个效果

关于嘉宾

王文广达观数据副总裁,在人工智能领域和系统架构设计上有十余年工作经验,浙江大学计算机硕士。曾担任金融AI公司Kavout首席架构师,将人工智能(AI)和自然语言处理(NLP)技术应用于金融、证券、量化交易等领域,效果得到美国大型基金公司认可。

曾负责盛大创新院搜索、推荐、广告等多个项目的架构设计工作,所设计和开发的系统具备海量数据的快速处理和高度智能的挖掘能力,多次获得嘉奖。早期在百度负责MP3搜索、语音识别与搜索和音频指纹等系统的核心研发。

达观数据
达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业,获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”,也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。

入门推荐系统命名实体识别文本智能处理王文广知识图谱
2
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
达观数据机构

达观数据成立于2015年,是中国领先的文本智能处理企业,利用先进的文字语义自动分析技术,为企业、政府等各大机构提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工实现业务流程自动化,大幅度提高运营效率。 达观数据为企业提供完善的文本挖掘、知识图谱、搜索引擎和个性化推荐等大数据服务,是国内唯一一家将自动语义分析技术应用于企业数据化运营的人工智能公司。

http://www.datagrand.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~