刘一仝,刘铭作者

结合贪心搜索和蒙特卡洛随机游走的面向DBpedia的实体链接方法

摘要

互联网中存在着大量的命名实体,实体链接技术因而发挥了越来越大的作用。实体链接可以通过将名称指称与外部知识的特定实体对应起来,来帮助用户理解名称指称的含义。然而,一个名称指称可能对应多个可能的实体。经常共现的多个名称指称彼此相关是一个显而易见的事实,因此可以将这些名称指称一起考虑来获得最佳的对应关系,这种方法也被称作集体实体链接(collective entity linking),并且通常被应用在基于图的实体链接任务上。但是,传统的集体实体链接方法要么会因为图规模巨大导致耗费过长的时间,要么会因为图的简化导致链接精度较低。为了同时提升准确率和效率,本文提出一种全新的集体实体链接方法。首先,将任意两个相关实体连接起来以构建实体图;之后在构建的图上,利用一个基于概率的目标函数来保证链接结果的准确性。基于此目标函数,我们将实体链接任务转化为一个寻找具有最高PageRank值的节点的搜索过程,并利用贪心搜索和调整过的蒙特卡洛随机游走方法来解决此任务。实验结果表明,我们的方法比传统的实体链接方法具有更好的效果。

注:此文章的内容节选自TOIS 2017的论文“DBpedia-Based Entity Linking via Greedy Search and Adjusted Monte Carlo Random Walk”和KAIS 2018的论文“Collective entity linking: a random walk-based perspective”。

简介

由于互联网技术的快速进步,网络上出现了大量的名称指称。大多数名称指称是人名、地名、产品名、机构名等等。在不考虑上下文的情况下,一个名称指称可能会有多个解释。许多互联网技术-比如信息检索数据挖掘[13,21]-性能提升的关键就是获得一个名称指称的实际含义。获取一个名称指称的含义的通常方法是将这个指称链接到外部资源(如维基百科)的一个实体上。例如,有这样一句话“史蒂夫·乔布斯是苹果有限公司的创始人。”,其中的名称指称“史蒂夫·乔布斯”可以被链接到维基百科的页面http://en.wikipedia.org/wiki/Steve_Jobs上。这种链接可以帮助用户了解句子中的“史蒂夫·乔布斯”是谁。不幸的是,就好比词语具有歧义一样,一个名称指称可以链接到多个实体上。例如不考虑上下文,“史蒂夫·乔布斯”可能会与其他很多人有关联,甚至可能是一部电影或一本书。正由于此,在寻找与名称指称匹配的最佳实体时,本文提出的方法会同时考虑出现在同一上下文中的所有名称指称。这种方法也被称为集体实体链接,并且与其他实体链接方法相比,集体实体链接具有更好的精度[8,9,18]。以刚刚的例句为例,在这句话中“史蒂夫·乔布斯”和“苹果有限公司”是一对共现的名称指称。在维基百科中,“史蒂夫·乔布斯”会被链接到3个实体中,其中一个是人,另一个是电影,最后一个是一本书。“苹果有限公司”仅仅会链接到一个跟公司相关的实体。如果我们将两个名称指称同时考虑,在“史蒂夫·乔布斯”链接到的3个实体中,只有与人相关的那一个具有一个URL可以重定向到公司命名实体“苹果有限公司”。因此可以很容易地确定,在刚刚那句话中,史蒂夫·乔布斯是一个人。几乎所有的集体实体链接方法都将共现指称所对应实体间使用一条路径连接起来。这样可以形成一个反映不同指称所对应的实体之间的关系的实体图。通过实体图,可以清晰刻画指称与实体之间的关系。但是由于实体图的巨大尺寸,传统的集体实体链接方法非常耗时,使得传统集体实体链接方法无法被应用到现实应用中[14]。在这种背景下,本文提出了一个具有高准确度和低运行时间的集体实体链接算法。具体贡献如下:

(1)为了获得高准确度,本算法构建了一个可以全面覆盖实体之间关系的实体图。并且,本文设计了一个基于概率的损失函数来为名称指称寻找最佳实体。实验结果表明,基于此实体图的链接结果与精确结果十分接近。

(2)通过概率损失函数来寻找全局最优解非常耗时。因此,我们将实体链接问题转化为图搜索问题,通过贪心搜索寻找局部最优解来缩短运行时间。为了给每一个名称指称寻找一个命名实体,通过PageRank算法为图中的每一个节点赋权,并且将贪心搜索的过程转化为寻找具有最高PageRank值的节点的过程。

(3)由于我们的实体图具有一些特殊的性质,比如没有悬节点(dangle node)、没有沉没圆(sink circle)、没有个性化向量(personalized vector),无法使用传统的方法为实体图中的节点计算PageRank值。基于此,我们提出了一个调整过的蒙特卡洛随机游走方法来计算图中每个节点的PageRank值。实验结果表明,通过贪心搜索和调整过的蒙特卡洛随机游走方法,我们的算法比传统的集体实体链接方法运行更快。

模型描述

在介绍我们的链接算法之前,需要弄清几个在后面篇章中会经常出现的概念。

(1)候选实体:一个候选实体可能是一个名称指称在外部知识库中可能链接到的实体。例如“史蒂夫·乔布斯”可能会链接到维基百科中的三个候选实体。使用编辑距离来选择一个名称指称的候选实体集。

(2)中间实体(或者实体图中的中间节点):一条路径中可以连接两个相关候选实体的实体叫做中间实体(或中间节点)。

在我们的算法中,需要用一条路径来连接相关候选,从而形成一个实体图。维基百科不具有明确的链接结构。基于此,我们选择DBpedia作为链接的外部知识库。选择DBpedia的原因主要有以下两点:其一是维基百科是一种与Freebase和YAGO类似的百科全书,其包含的实体项每天都在增加。其二是DBpedia和维基百科具有相同的实体,唯一的不同是维基百科中的一个实体使用一个网页来表示,而DBpedia使用一个节点来表示。总而言之,DBpedia是维基百科的结构化表示。如果两个实体在DBpedia中使用一条弧相连,那么这两个实体就是相关的。例如“史蒂夫·乔布斯”和“苹果商店”两个候选实体(一个的链接是http://dbpedia.org/page/Steve_Jobs,另一个的链接是http://dbpedia.org/page/Apple_Store),显然他们之间是相关的,但是在DBpedia中并没有直接相连,他们只能使用一条通过“苹果有限公司”或“蒂姆库克”的路径相连。一条路径是(史蒂夫乔布斯、苹果有限公司、苹果商店),另一条路径是(史蒂夫乔布斯、蒂姆库克、苹果商店)。像“苹果有限公司”和“蒂姆库克”这种能形成一条路径来连接两个候选实体的实体就是中间实体。本文关注于实体链接,因此假定我们的链接算法是在文章中的实体都能被正确识别和标准化的假设下运行的。例如,将“史蒂夫.保罗.乔布斯”,“史蒂夫.P.乔布斯”,“乔布斯”等等统一为“史蒂夫·乔布斯”。事实上,对于一篇文章中毗邻的两个实体指称,它们的链接实体也可能是相关的。这意味着,我们不需要同时处理一篇文本中的所有实体指称,只需使用滑动的窗口来分割文本,并且将处于同一窗口中的名称指称放入一个标签为“NM”的集合中。在NM中的名称指称会被同时处理。窗口的大小被设置为50,这个数值是文献[12]提出的一个有意义的句子的平均长度。

图1是一个实体图的例子。它通过下面的句子构建而来:“人们总是谈论苹果发布的成功产品,例如iPhone。事实上,以麦金托什机为例,乔布斯也会发布不成功的产品。”(“People only talk about the successful products released by Apple, such as iPhone. In fact, taking Macintosh as example, Jobs also produced many unsuccessful products.”)这句话里有四个名称指称(通过预处理过程提取出四个名称指称,在预处理过程中,一些常见的指称不会被提取出来,比如“人们”和“产品”),已加粗标示。每一个名称指称都具有一个候选实体集,为了简化图的表示,我们使c_en**代表一个候选实体,并且使in_en**代表一个中间实体(或者一个中间节点),表1列出了名称指称的实际意义和对应的候选实体。在图1中,一个椭圆包含了一个名称指称的全部候选实体。例如,c_en11, c_en12, c_en13都是m1的候选实体。两个在DBpedia中直接相连的实体,在图中用一条边直接连接。每一条边均有一个标记集。此集合包含通过这条边的所有路径能连接的所有候选实体。例如边(in_en3,in_en4)的标记集为{c_en13,c_en21,c_en42}。这些候选实体所对应的结点可以被穿过(in_en3,in_en4)的路径连接在一起。此标记集合可以用来计算图中边的权值。

表1. 图1中所有结点的真实含义

图1. 依据文中句子所构建的图模型

既然四个名称指称(i.e. m1, m2, m3, m4)在上下文中共现,那么可以假设这四个名称指称是相关的。本文使用一个联合概率分布来函数来计算将每一个候选实体分别分配给每个指称的联合概率。

(m1=c_en1i,m2=c_en2j,m3=c_en3k,m4=c_en4h)即代表一种分配,这种分配将c_en1i分配给m1,c_en2j分配给m2,c_en3k 分配给m3,c_en4h分配给m4。

在式(1)中,一个名称指称的分配会影响其他分配。寻找最优的分配等同于在所有的联合概率中寻找一个具有最大值的分配。在图1中利用这种暴力搜索方法需要扫描3*3*2*4种组合。也就是说一旦名称指称集合十分巨大,暴力搜索方法会非常耗时。正是由于此原因,我们使用贪心搜索来获得最佳分配的近似解。

通过贪心搜索,式(1)可以被改写成下式:

基于式(2)的搜索过程如下:

步1:在NM={m1,m2,m3,m4}中寻找一个名称指称的具有最大概率的分配。这一步符合式(2)中的

步2:假设c_ent1k1是步1找到的候选实体,把它当作名称指称mt1的最佳分配。

步3:当c_ent1k1被分配给mt1时,在NM-{mt1}中找到一个名称指称具有最大概率的分配,这一步对应式(2)中的

步4:假设c_ent2k2是步3找到的一个候选实体,把它当成名称指称mt2的最佳分配。

步5:重复步1到步4直到找到NM-{mt1,mt2}中包含的名称指称的分配。

式(1)和式(2)可以很容易扩展到包含任意指称数目的情况上。现在的问题是怎样计算式(1)和式(2)中的概率。给定NM中的指称mt1,让c_ent1k1代表它的一个候选实体。既然NM中的指称是共现的,如果c_ent1k1与其他的很多候选实体相关,分配给(mt1=c_ent1k1)的概率就应该很大。如果很多条路径都通过某个候选实体,则可以说这个候选实体和许多其他的候选实体相关,在这种情况下,这个候选实体可以被认为是一个名称指称的最佳分配的可能性应该是很大的。如果一个节点被很多条路径通过,那他的PageRank值就应该很高。因此,我们可以使用PageRank值来衡量把这个候选实体分配给一个名称指称的概率。使用PageRank来计算分配概率的另一个原因是,一个节点的PageRank值可以传递到其他节点。图2展示了图1中每个节点的PageRank值。

注:限于篇幅原因,具体的PageRank值计算方法可参见TOIS 2017的论文“DBpedia-Based Entity Linking via Greedy Search and Adjusted Monte Carlo Random Walk”,此处不做过多介绍。

图2. 图1中各节点的PageRank

当将某个候选实体被分配给某个名称指称后,该指称对应的其他候选实体即可以从图中予以移除。当然,移除候选实体后会影响整个实体图的结构。一旦一个候选实体被移除,这个候选实体即需要从图中每一条边的标记集合中移除。例如,在图2中,当c_en12被移除时,c_en12也会从所有的标记集合中移除。当一条边的标记集合为空时,这条边也从实体图中移除。图3是从图2中移除了c_en12和c_en13后的实体图。根据图3中的PageRank值,c_en32是m2的最佳分配。

不断重复以上过程n次(n代表NM中的名称指称数),可以找到NM中所有的名称指称的链接实体。图3和图4是在成功找到m2和m4的最佳分配过程中形成的图。通过图3,c_en42分配给m4。通过图4,c_en22分配给m2。

图3.  将与m3无关的候选实体移除后图中各节点PageRank

图4. 将与m4无关的候选实体移除后图中各节点PageRank

实验分析

以下实验将我们的链接算法和不同的基线算法在准确度和运行时间上做比较。基线算法包含实体对实体(entity to entity)的方法,例如Spotlight [3],BEL [23],LIMES [15],Swoosh [1]和AIDA-Light [16];基于机器学习的方法,例如SHINE [19],DNNEL [5],LISTSVM [10]和GEML [22];基于集体实体链接的方法,例如EMLC [6],AGDISTIS [20],LGD2W [17],AIDA [7],ELPH [4],GSEL [2],和FHCEL [11]。在表2和表3中,把本文提出的算法称为(ELGA)。所有的基线算法都在都在一个具有2.4G Hz CPU和16G内存的电脑上运行。

表2. 不同算法的链接结果F1值 (*代表显著性检测,其中***代表显著性检测达到0.01水平,**代表达到0.05水平,*代表达到0.1水平)

表3. 不同算法对单个名称指称处理的平均时间

通过观察表2和表3,可以很容易看出实体对实体的方法比其他方法运行速度要快很多。事实上,实体对实体方法就是为线上使用特别设计的。为了减少运行时间,这类方法引入了一些限制。例如,LIMES需要相似度满足三角不等式,Swoosh需要相似度满足偏序。由于这些限制,实体对实体方法可以大幅度缩减运行时间。以AIDA-Light为例,它只需要1秒钟就可以处理1个名称指称。而另一方面,因为它们从不考虑实体之间的关系,而且一些限制在实际应用中过于严格,所以它们的准确度非常低。正是由于此原因,它们的F1值也很低。相反的,基于集体链接的方法在所有测试集上都具有较高准确度。这是由于基于集体链接的方法构建了一个可以捕获实体之间关系的图,并且在图中不具有额外的限制。因此,具有很高的准确度。然而,基于集体链接的方法需要为图中的节点赋权(EMLC和AGDISTIS),或分析图的结构 (ELPH,GSEL和FHCEL),或将实体之间的关系整合到一个目标函数中(LGD2W和AIDA)。这些过程都是耗时的。EMLC和AIDA试图通过减少图的规模来减少运行时间,FHCEL使用爬山优化算法来解决NP问题,然而这些方法都会降低准确度。基于机器学习的方法取得的效果介于实体对实体方法和基于集体链接的方法之间。原因是基于机器学习的方法收集名称指称的上下文作为训练语料,训练了一个分类器来区分候选实体。此方法可以最大程度地应用名称指称上下文中的有用信息。例如名称指称的位置、名称指称的长度以及名称指称的词性等。基于此,基于机器学习的方法比实体对实体的方法具有更高的准确度,但是同样由于基于机器学习的方法没有考虑实体之间的关系,它的准确度要比基于集体链接的方法低。至于训练时间,既然基于机器学习的方法有一个训练过程并且这个过程是很耗时的,它的运行时间比实体对实体的方法要长。和基于集体链接的方法比较,基于机器学习的方法的训练过程只对一个实体进行。因此它们的运行时间比基于集体链接的方法的运行时间要短。在基于机器学习的方法中有一个例外,那就是DNNEL。这个方法将名称指称的稀疏上下文向量通过神经网络转化为稠密的向量,此向量可以在一定程度上反映实体之间的关系。但是这种转换是非常费时的,因此虽然DNNEL耗时很长,但它拥有和基于集体链接的方法类似的准确度。我们的算法(ELGA)也是一种基于集体链接的算法,并且它通过用路径连接所有相关的候选实体来构建了一个相对完整的实体图。基于实体图我们提出了一个基于概率的目标函数,这个目标函数考虑了实体之间的关系以保证获取精确的链接结果。除此之外,如表2所示,我们的链接算法在三个测试集上的显著性测试结果都达到了0.01水平。这意味着我们的链接算法比其它基线算法表现得更加出色。关于运行时间,由于我们的算法采用贪心策略和调整过的蒙特卡洛随机游走来加快速度,使得算法比其他的基于集体链接的算法的运行时间更短,它甚至短于一些基于机器学习的方法的运行时间,与实体对实体的方法接近。

后期展望

虽然我们的算法采用了贪心算法和被调整过的蒙特卡洛随机游走来缩短运行时间,但是此算法仍然无法在线上运行。为了使它具有更高的效率,我们打算将实体图分割成几个部分,而仅对某一部分更新PageRank值来进一步缩短运行时间。除此之外,我们的算法需要重构实体图并且多次运行PageRank算法,这个重计算过程也是十分耗时的。为解决此问题,我们打算分析实体图的结构并且找到很少变化的部分,然后保持很少变化部分节点的PageRank值,只重新计算其他部分的节点。

参考文献

[1] Omar Benjelloun, Hector Garcia-Molina, David Menestrina, Qi Su, Steven Euijong Whang, and Jennifer Widom. 2009. Swoosh: A generic approach to entity resolution. Int. J.VLDB 18, 1(2009), 255–276.

[2] Diego Ceccarelli, Claudio Lucchese, Salvatore Orlando, Raffaele Perego, and Salvatore Trani. 2013. Learning relatedness measures for entity linking. In Proceedings of the 22nd ACM International Conference on Information and Knowledge Management. ACM, 139–148

[3] Joachim Daiber, Max Jakob, Chris Hokamp, and Pablo N. Mendes. 2009. Improving efficiency and accuracy in multilingual entity extraction. In Proceedings of the 9th International Conference on Semantic Systems. ACM, Graz, Austria, 121–124

[4] Ben Hachey, Will Radford, and James R. Curran. 2011. Graph-based named entity linking with Wikipedia. In Proceedings of the 12th International Conference on Web Information System Engineering. ACM, 213–226.

[5] Xianpei Han and Le Sun. 2011. A generative entity-mention model for linking entities with knowledge base. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. ACL, 945–954.

[6] Xianpei Han, Le Sun, and Jun Zhao. 2011. Collective entity linking in web text: A graph-based method. In Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 765–774.

[7] Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino, Hagen Furstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, and Gerhard Weikum. 2011. Robust disambiguation of named entities in text. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. ACL, 782–792.

[8] Ben Hachey, Will Radford, Joel Nothman, Matthew Honnibal, and James R. Curran. 2013. Evaluating entity linking with wikipedia. Artif. Intell. 194(2013), 130–150.

[9] Zhengyan He, Shujie Liu, Yang Song, Mu Li, Ming Zhou, and Houfeng Wang. 2013. Efficient collective entity linking with stacking. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. ACL, 426– 435.

[10] Zhengyan He, Shujie Liu, Mu Li, Ming Zhou, Longkai Zhang, and Houfeng Wang. 2013. Learning entity representation for entity disambiguation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. ACL, 30–34

[11] Sayali Kulkarni, Amit Singh, Ganesh Ramakrishnan, and Soumen Chakrabarti. 2009. Collective annotation of wikipedia entities in web text. In Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 457–465.

[12] Yuhua Li, David McLean, Zuhair A. Bandar, James D. OShea, and Keeley Crockett. 2006. Sentence similarity based on semantic nets and corpus statistics. IEEE Trans. Knowl. Data Eng. 18, 8(2006), 1138–1150.

[13] Edgar Meij, Krisztian Balog, and Daan Odijk. 2013. Entity linking and retrieval. In Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1127–1127.

[14] Galileo Mark Namata, Stanley Kok, and Lise Getoor. 2011. Collective graph identification. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 87–95.

[15] Axel-Cyrille Ngonga Ngomo and Sören Auer. 2011. LIMES: A time-efficient approach for large-scale link discovery on the web of data. In Proceedings of the 22nd International Joint Conference on Artificial Intelligence. AAAI, 2312–2317.

[16] Johannes Hoffart, Martin Theobald, and Gerhard Weikum. 2014. AIDA-light: High-throughput named-entity disambiguation. In Proceedings of the Workshop on Linked Data on the Web Co-Located with the 23rd International World Wide Web Conference. Vol. 1184.

[17] Lev Ratinov, Dan Roth, Doug Downey, and Mike Anderson. 2011. Local and global algorithms for disambiguation to wikipedia. In Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1374–1384.

[18] Prithviraj Sen. 2012. Collective context-aware topic models for entity disambiguation. In Proceedings of the 21st International Conference on World Wide Web. ACM, 729–738.

[19] Wei Shen, Jiawei Han, and Jianyong Wang. 2014. A probabilistic model for linking named entities in web text with heterogeneous information networks. In Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data. ACM, 1199–1210.

[20] Ricardo Usbeck, Axel-Cyrille Ngonga Ngomo, Michael Röder, Daniel Gerber, Sandro Athaide Coelho, Sören Auer, and Andreas Both. 2014. AGDISTIS-agnostic disambiguation of named entities using linked open data. In Proceedings of the 21st European Conference on Artificial Intelligence. AAAI, 1113–1114.

[21] Wei Shen, Jianyong Wang, and Jiawei Han. 2015. Entity linking with a knowledge base: issues, techniques, and solutions. IEEE Trans. Knowl. Data Eng. 27, 2(2015), 443–460.

[22] Zhicheng Zheng, Fangtao Li, Minlie Huang, and Xiaoyan Zhu. 2010. Learning to link entities with knowledge base. In Proceedings of the 2010 Annual Conference of the North American Chapter of the ACL. ACL, Los Angeles, 483–491.

[23] Zhe Zuo, Gjergji Kasneci, Toni Grütze, and Felix Naumann. 2014. BEL: Bagging for entity linking. In Proceedings of 25th International Conference on Computational Linguistics. 2075–2086.

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论文本识别
5
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

李沐人物

李沐,2008年毕业于上海交通大学计算机系,大学期间,曾在微软亚洲研究院担任实习生。2017年博士毕业后,李沐加入亚马逊任AI主任科学家。

沈为人物

上海大学通信与信息工程学院副教授,约翰霍普金斯大学计算机科学系访问学者。研究兴趣:计算机科学、模式识别和机器学习。

韩家炜人物

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。

相关技术
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

装袋算法技术

Bagging算法 (英语:Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一种团体学习算法。最初由Leo Breiman于1994年提出。Bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。 给定一个大小为n的训练集 D,Bagging算法从中均匀、有放回地(即使用自助抽样法)选出m个大小为 n'的子集 D_{i},作为新的训练集。在这 m个训练集上使用分类、回归等算法,则可得到 m个模型,再通过取平均值、取多数票等方法,即可得到Bagging的结果。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图搜索技术

在计算机科学中,图遍历(也称为图搜索)是指在图中访问(检查/或更新)每个顶点的过程。这样的遍历是按访问顶点的顺序进行分类的。比如,树遍历就是图遍历的一个特例。 与树遍历不同,图遍历可能需要多次访问某些顶点,因为在转换到一个已经被探索的顶点之前,它并不一定是已知的。随着图形变得越来越密集,这种冗余变得更加普遍,导致计算时间增加;随着图形变得越来越稀疏,相反的情况也成立。 因此,通常需要记住哪些顶点已经被算法探索过了,这样就可以尽可能少地重新访问顶点(或者在最坏的情况下,防止遍历无限延续)。这可以通过将图中的每个顶点与在遍历期间的“颜色”或“访问”状态相关联来完成,然后在算法访问每个顶点时检查和更新。如果顶点已经被访问过,它就被忽略了,路径就不再被继续了;否则,算法会检查/更新顶点,并继续它当前的路径。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

佩奇(网页)排名算法技术

佩奇排名,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

贪心算法技术

贪心法,又称贪心算法、贪婪算法、或称贪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

暂无评论
暂无评论~