李冬梅作者AI前线 来源唐杰采访嘉宾

知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将解决哪些其他技术无法解决的问题呢?它又面临着哪些新的挑战?

知识图谱的发展脉络

作为人工智能的一个重要研究领域,其研究和发展可以追溯到第一个人工智能浪潮。1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL,并随后在第五届国际人工智能会议上正式提出知识工程的概念,目标是将知识融入计算机系统用以解决只有领域专家才能解决的复杂问题。1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念,核心理念是用知识表示互联网,建立常识知识,但一直苦于规模小、应用场景不清楚而发展缓慢,因此,2012 年以前,学术界和工业界普遍认为知识图谱技术处于初级发展阶段。

直到 2012 年,这一状况才有了改变。这一年,谷歌发布了 570 亿实体的大规模知识图谱,其宣传语是“Things, not Strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物,多组研究者也曾独立地提出过相似的理论。“Things, not Strings”理论脱胎于众多著名认知心理学家提出的 Semantic Networks 理论,最为著名的有 Sowa 等人在 1984 年提出的 ConceptNet。在符号主义的思潮中,许多早期知识图谱将关系局限为几种特殊的基本关系,如“拥有属性”、“导致”、“属于”等,并定义一系列在图谱上推理的规则,期望通过逻辑推理实现智能。

然而,早期知识图谱的思路遇到了许多实际的困难,比如结构化知识信息的大量缺失,推理规则的无法穷举问题等。当然,这些问题也并非来自知识图谱,而是符号主义本身的特性。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示是长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。

2012 年发布的谷歌知识图谱将常识知识图谱构建应用于实际系统(Freebase 是谷歌知识图谱的前身,它整合了包括许多私人维基在内的大量网络资源,后来被谷歌收购)。自谷歌第一版知识图谱推出以来,它在学术界和工业界掀起了一股热潮,随之而来的是各类知识图谱如雨后春笋般涌现。

  • DBpedia,它从维基百科中抽取结构化知识在进行本体的构建,通过结构化,用户可以使用 SPARQL 语言进行查询;   
  • YAGO 也是开源知识图谱,被应用于 IBM Waston 问答系统;   
  • NELL 则是卡耐基梅隆大学 Tom Mitchell 教授带领开展的知识自动学习—NELL 项目开启了一个机器学习实现知识图谱构建的浪潮,目标是持续不断地从网络上获取资源并进行事实发现、规则总结等,里面涉及到命名实体识别、同名消岐、规则归纳等关键技术;   
  • ArnetMiner 是面向清华大学知识工程实验室构建的面向科技领域的知识图谱,项目实现了高精度学者画像、同名消歧、智能推荐、趋势分析等关键技术。该工作获得了 ACM SIGKDD 的 Test-of-Time Award(时间检验论文奖),这也是华人团队首次在该领域获得此国际奖项。

知识图谱的下一步是认知图谱

深度学习时代的知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,在知识图谱上“推理”也转入黑盒模型预测的范式。Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入 知识图谱 的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体、关系、尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。

知识图谱的一个重要特点就是可解释性和发现新知识的能力,这是目前深度学习方法很难做到的。知识图谱把领域知识或常识整理成结构化的形式,然后在此基础上进行推理,类似于人脑的功能。比如评审专家的推荐,使用深度学习的方法进行训练,专家的查找过程是个黑盒操作,无法追溯推荐的理由。使用知识图谱建立的高精度的专家画像,及专家关系网络能够为专家推荐提供可解释性,比如评审专家的学科相似度、评审人和专家的关系等等。

知识图谱同样存在不足。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。

近年得益于自然语言处理的极大进步,BERT 等预训练模型带来的文本理解和检索能力使得我们可以在原始文本上进行理解和推理,例如 Chen 等人的 DrQA 就是使用神经网络直接从文本中抽取问题答案,掀起开放领域问题的新热潮。另一方面,我们必须保持知识图谱的图结构带来的可解释性和精准稳定的推理能力。例如,知识图谱很难构建百分百正确的、超大规模的知识图谱,因此,针对这些不足,认知图谱应运而生。

本质上,认知图谱的改进思路是减少图谱构建时的信息损失,将信息处理压力转移给检索和自然语言理解算法,同时保留图结构进行可解释关系推理。认知图谱主要有三方面创新,分别对应人类认知智能的三个方面:

1.(长期记忆)直接存储带索引的文本数据,使用信息检索算法代替知识图谱的显式边来访问相关知识;

2.(系统一推理)图谱依据查询动态、多步构建,实体节点通过相关实体识别模型产生;

3.(系统二推理)图中节点产生的同时拥有上下文信息的隐表示,可通过图神经网络等模型进行可解释的关系推理。

事实上,认知图谱正是由人类认知过程所启发,“快速将注意力定位到相关实体”和“分析句子语意进行推断”是两种不同的思维过程。在认知学里,著名的“双过程理论(dual process theory)”认为,人的认知分为两个系统,系统一(System 1)是基于直觉的、无知觉的思考系统,其运作依赖于经验和关联;而系统二(System 2)则是人类特有的逻辑推理能力,此系统利用工作记忆(working memory)中的知识进行慢速但是可靠的逻辑推理,系统二是显式的,需要意识控制的,是人类高级智能的体现。

认知图谱首先由清华大学阿里巴巴在 2018 年的中国计算机大会上提出,后来 Ding 等人将其应用于多跳开领域阅读理解问答中。传统方法中,开领域问答往往依靠大规模的知识图谱,而阅读理解问答一般面向单段,此时阅读理解的 NLP 模型,例如 BERT,可以直接处理。然而,这样的方法在多跳(推理)问答中存在“短视检索”的问题,即在几跳(几步推理)的文本和问题回答中,真正的答案可能和问题相关性较低,很难被直接检索到,这导致了效果不佳。认知图谱问答提出一种新颖的迭代 框架:算法使用两个系统来维护一张认知图谱,系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。

基于认知图谱技术,北京智谱华章科技有限公司(以下简称:智谱·AI)还研发了支持知识推理的科技情报挖掘系统。团队将认知图谱技术作为知识图谱的补齐任务,针对由现实世界中的实体和关系组成的知识图谱,提出了 CogKR 框架,基于认知科学中的双过程理论,通过构建认知图来完成在已知头实体和关系类型情况下推理尾实体的任务。比起基于嵌入的方法,该方法多跳推理的能力更强,并且具有更好的可解释性。比起过去的基于路径的多跳推理方法,该方法能够利用更加复杂的子图结构进行推理,而不会局限在单条路径,因此有更好的准确性。

数据和算法在知识图谱中扮演的角色?

知识图谱中,数据扮演着底部基石的作用。据智谱·AI 的创始人唐杰教授介绍,知识图谱是源于数据的,是从数据中抽取结构化信息,数据的好坏直接关系到知识图谱构建的效率和质量。比如从结构化的数据中构建知识图谱会比从非结构化的数据中构建效率和准确率要高,数据越复杂,噪音越大,构建成本也就越高。智谱·AI 的“智慧人才”项目包含了大量科研人才、政府工作数据集,这些数据通过多个渠道来获取,包括通过和相关机构合作或购买版权的形式获取的内部数据,如 Digital Science、中国工程院等等;其次是通过爬虫的形式获取网络中的开放数据,比如国家和地方政府的网站,学者个人主页等等;此外智谱·AI 还使用了信息抽取的方法从论文、专利等科研文献中抽取相关的内容。这些不同数据源的异构数据在获取以后会通过数据融合算法进行融合与关联,为知识图谱构建提供基础。

知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,因此算法,尤其是深度学习算法在知识图谱中占据着举足轻重的地位。例如,Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入知识图谱的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体,关系,尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。然而,简单用词向量表示实体本身,忽略了他们的独特的符号特征:例如美国网红“James Charles”和 20 世纪著名时尚设计师“Charles James”的词向量平均结果相同,可是其知识图谱上的相关属性必然有很大差别。后来更多的目光转向大型知识图谱自身的嵌入训练,其中最为优雅有效的开创性工作是 Bordes 等人的 TransE。算法的目的是为知识图谱中每个关系或实体学习一个 d 维向量表示,对于知识图谱中任意的三元组事实 (h,r,t),算法要求它们的向量表示满足 h+r≈t。

针对知识建模,智谱·AI 也提出了一整套知识图谱构建的流程和算法:首先,是提出多维关系依赖的概率图标注模型,可以描述实例间的序列依赖关系,以及实例间层次依赖和二维依赖关系,将语义标注错误率降低 40-56%;针对开放互联网数据噪音大、冗余的特点,提出一阶逻辑概率因子图模型,提高了标注准确率,这个模型也获得了 ICDM 的竞赛冠军。其次,是提出多策略动态选择的语义集成方法 RiMOM,根据不同集成任务动态选择集成策略,实现全局集成风险最小化;提出基于随机场的概率实体排歧模型,根据对象表示的语义聚集性及其之间的拓扑关系提升了排歧性能。6 年获得国际语义集成 OAEI 评测的第一名。

值得一提的是,唐杰教授的团队还从理论上证明已有的多种网络表示学习方法(DeepWalk、LINE 等)都可以归一化到矩阵分解理论框架下,提出了网络表示学习的新思路。基于该理论,提出一种全新的基于矩阵分解的知识网络表示学习算法 NetMF,在多个公开数据集上,算法明显优于已有方法。此外,智谱·AI 也将该方法应用异构知识融合,利用链接相似度对跨语言知识图谱进行统一建模。

工业级知识图谱的技术难点

和未来应用场景

目前,知识图谱在工业界的应用已经非常广泛,半自动化的知识图谱构建方法目前也已经基本达到了实际应用的水平。工业级的知识图谱要能够满足具体的业务需求,那么,在具体的落地应用中,又面临着哪些技术难点?

对此问题,唐杰教授表示,工业级知识图谱的应用,难点首先是知识的精准抽取与融合,多源异构数据的融合在实际应用场景中要复杂得多,而且数据质量也很难保证。可以根据各应用领域的特征有针对性的建立抽取及融合模型,也可以结合一些预训练模型进行分析。

其次是需要一个更加高效和友好的交互系统,辅助知识图谱的构建和校验,比如结合主动学习、对抗学习及小样本学习等方法,尽量减少人工的干预;利用日常工作中使用的系统,隐式的收集标注知识等等。在应用方面,目前知识推理的研究还是一个重要的难点,为此,智谱·AI 也探索了使用双系统理论进行认知推理,此外结合图神经网络及认知符号的推理方法也是一个很好的研究思路。

唐杰教授认为,目前知识图谱的应用主要还是集中在文本分析方面,将文本数据扩展到图像、语音等不同模态,多模态知识图谱的表示、获取和推理是目前值得关注的方向,学术界和工业界也都有了一些探索性的研究。尽管存在诸多技术难点,但随着深度学习的发展和算法的不断迭代,知识图谱已普遍应用在了知识融合、语义搜索和推荐、问答和对话系统中,未来将会在决策推理、深度关联挖掘等场景中发挥重要作用。

智谱·AI 首席顾问兼战略规划院名誉院长张钹院士,曾经指出知识图谱与公司的未来发展的关系:公司要办好的前提首先是发展方向正确,要将知识驱动与模型驱动相结合,走第三代人工智能之路。其次,要找到知识真正的应用场景。知识就是力量,我们要做知识的生产者,知识图谱知识库就是财富的转换源泉。因为智谱·AI 是依托清华大学计算机系在知识图谱和智能计算方面的长期积累,是通过学校技术成果转化、在知识智能方向创立的第一家公司。张钹院士曾表示,在科技成果转化出来的公司中,最看重智谱·AI,也寄语智谱·AI:技术成果转化具有重要意义。但作为公司,还有很长的路要走,希望智谱·AI 能够像在学校里面做研究一样专注把每件事做好,创造真正的价值。

知识图谱的构建已走到下半场

知识图谱的构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建是早期知识图谱构建的主要方法,手工构建的优点首先是准确率较高,其次是人类便于理解,缺点是效率低、成本高,构建出的图谱规模有限。

自动或半自动的构建方法,可以不同程度的提高构建效率,降低成本,目前很多方法已经能够实现亿级知识图谱的构建,这也得益于结构化和半结构化数据的积累。半自动化的知识图谱构建方法在将来一段时间内仍然会是主流,尤其对医疗、安全和金融等领域,数据质量要求较高,需要通过人工审核保证准确性。

唐杰教授看来,认为知识图谱的构建研究已经走到下半场,知识图谱的应用还没有走到下半场,比如知识推理。目前已经有相当规模的工业级知识图谱已经落地,尤其是在金融、电商、医疗、社交、文娱、教育等领域。比如企查查、天眼查等企业知识图谱、Facebook、腾讯等社交知识图谱美团的美食知识图谱等。

智谱·AI 也在科技情报领域构建了亿级科技知识图谱,包括技术、学者、论文、机构等实体、关系及属性信息,通过网络挖掘算法实现专家人才发现、技术洞察与趋势分析等应用。此外,公司还和阿里合作构建了千亿级的电商知识图谱,目前也已经应用于手机淘宝的推荐,将知识图谱自动构建准确率从 55% 提升到 88%,全面支撑手机淘宝搜索和推荐。

嘉宾介绍

唐杰清华大学计算机系教授、副系主任。研究兴趣领域包括:人工智能数据挖掘知识图谱和社交网络。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业知识图谱
2
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

迭代 技术

模型的权重在训练期间的一次更新。迭代包含计算参数在单个批量数据上的梯度损失。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

集成方法技术

在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。

DENDRAL技术

Dendral是20世纪60年代的人工智能(AI)项目,以及它生产的计算机软件专家系统。其主要目的是研究科学中的假设形成和发现。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

一阶逻辑技术

一阶逻辑是使用于数学、哲学、语言学及计算机科学中的一种形式系统。 过去一百多年,一阶逻辑出现过许多种名称,包括:一阶断言演算、低阶断言演算、量化理论或断言逻辑。一阶逻辑和命题逻辑的不同之处在于,一阶逻辑有使用量化变数。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

美团机构

美团的使命是“帮大家吃得更好,生活更好”。作为中国领先的生活服务电子商务平台,公司拥有美团、大众点评、美团外卖、美团打车、摩拜单车等消费者熟知的App,服务涵盖餐饮、外卖、打车、 共享单车、酒店旅游、电影、休闲娱乐等200多个品类,业务覆盖全国2800个县区市。

www.meituan.com
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

企查查机构

企查查科技有限公司于2014年03月12日成立。法定代表人陈德强,公司经营范围包括:计算机软件开发、计算机信息技术服务;通信系统自动化软硬件的开发,并提供技术咨询、技术服务;计算机软硬件的销售及维护;软件设计及技术转让,并提供相关技术服务;企业管理咨询;市场调查;企业征信业务;企业信用评估;信用管理咨询等。

http://www.greatld.com/
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

知识图谱补全技术

知识图谱补全(Knowledge Graph Completion)的目的是预测出知识图谱中事实三元组 (主体, 关系, 客体)缺失的部分,从而使知识图谱变得更加完整。

推荐文章
暂无评论
暂无评论~