Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度学习自然语言处理来源杨学俊校对:黄继彦 编辑:

NeurIPS 2019 | 17篇论文,详解图的机器学习趋势

可高深,也可接地气。

本文来自德国Fraunhofer协会IAIS研究所的研究科学家Michael Galkin,他的研究课题主要是把知识图结合到对话AI中。

必须承认,图的机器学习(Machine Learning on Graphs)已经成为各大AI顶会的热门话题,NeurIPS 当然也不会例外。 

在NeurIPS 2019上,仅主会场就有 100多个与图相关的论文;另外,至少有三个workshop的主题与图有关:
  • Graph Representation Learning (大约有100多篇论文);
  • Knowledge Representation & Reasoning Meets Machine Learning (KR2ML)(也有50篇吧);
  • Conversational AI
我们希望在接下来的这篇文章里,能够尽可能完整地讨论基于图的机器学习的研究趋势,当然显然不会包括所有。目录如下:
  • Hyperbolic Graph Embeddings 双曲图嵌入
  • Logics & Knowledge Graph Embeddings 逻辑和知识图嵌入
  • Markov Logic Networks Strike Back 马尔科夫逻辑网络卷土重来
  • Conversational AI & Graphs 对话 AI 和图
  • Pre-training and Understanding Graph Neural Nets 神经网络的预训练和理解
  • Conclusions 结论

一、双曲图嵌入


传统的嵌入算法都是在“平坦”的欧氏空间中学习嵌入向量,为了让向量有更高的表示能力,就会选择尽量高的维数(50维到200维),向量之间的距离也是根据欧氏几何来计算。

相比之下,双曲算法中用到的是庞加莱(Poincare)球面和双曲空间。在嵌入向量的使用场景里,可以把庞加莱球面看作一个连续的树结构,树的根节点在球的中心,枝干和叶子更靠近球面一些(如上面的动图)。

这样一来,双曲嵌入表征层级结构的能力就要比欧氏空间嵌入的能力高得多,同时需要的维数却更少。

不过,双曲网络的训练和优化依然是相当难的。NeurIPS2018中有几篇论文对双曲神经网络的构建做了深入的理论分析,今年在NeurIPS2019上我们终于看到了双曲几何和图结构结合的应用。
      

论文 1:Hyperbolic Graph Convolutional Neural Networks

双曲图卷积神经网络

论文地址:

https://papers.nips.cc/paper/8733-hyperbolic-graph-convolutional-neural-networks.pdf

开源地址:

https://github.com/HazyResearch/hgcn

论文 2:Hyperbolic Graph Neural Networks

双曲神经网络

论文地址:

https://papers.nips.cc/paper/9033-hyperbolic-graph-neural-networks.pdf

开源地址:

https://github.com/facebookresearch/hgnn

论文 1 和论文 2 两者的思想是相似的,都希望把双曲空间的好处和神经网络的表达能力结合起来,只不过具体的模型设计有所区别。前一篇论文主要研究了节点分类和连接预测任务,相比于欧氏空间中的方法大大降低了错误率,在Gromov双曲性分数较低(图和树结构的相似度)的数据集上表现尤其好。后一篇论文关注的重点是图分类任务。

论文 3:Multi-relational Poincaré Graph Embeddings

多关系庞加莱图嵌入

论文地址:

https://papers.nips.cc/paper/8696-multi-relational-poincare-graph-embeddings.pdf

论文 3 在它们的多关系庞加莱模型(MuRP)的知识图嵌入中用上了双曲几何。直觉上,正确的三元组客体应该落在主体附近的某个超球面中,相关的这些决策边界是由学习到的参数描绘的。作者用来优化模型的是黎曼几何SGD(大量数学警告)。在两个标准的评测数据集 WN18RR 和 FB15k-237 上,MuRP 的效果比对比模型更好,因为它“更具备双曲几何”而且也更适用于树结构(如果能像上面的论文一样计算一下Gromov双曲性分数就更好了)。更有趣的是,MuRP只需要40维,得到的准确率就和欧氏空间模型用100维甚至200维向量的结果差不多!明显可以看到,双曲空间的模型可以节省空间维度和存储容量,同时还不需要有任何精度的牺牲。
我们还有一个双曲知识图嵌入比赛,获奖方法名为 RotationH,论文见https://grlearning.github.io/papers/101.pdf,其实和上面的双曲图卷积神经网络论文的作者是同一个人。这个模型使用了双曲空间的旋转(思路上和RotatE https://arxiv.org/abs/1902.10197 模型相似,不过RotatE是复数空间的模型),也使用了可学习的曲率。RotationH 在WN18RR上刷新了最好成绩,而且在低维的设定下也有很好的表现,比如,32维的RotationH就能得到和500维RotatE差不多的表现。
如果你碰巧在大学学习了sinh(双曲正弦)、庞加莱球面、洛伦兹双曲面之类的高等几何知识但是从来都不知道在哪能用上的话,你的机会来了,做双曲几何+神经网络吧。

二、逻辑和知识图嵌入

如果你平时就有关注arXiv或者AI会议论文的话,你肯定已经发现,每年都会有一些越来越复杂的知识图嵌入模型,每次都会把最佳表现的记录刷新那么一点点。

那么,知识图的表达能力有没有理论上限呢,或者有没有人研究过模型本身能对哪些建模、对哪些不能建模呢?看到这篇文章的你可太幸运了,下面这些答案送给你。
交换群:弱鸡;阿贝尔群:大佬

论文4:Group Representation Theory for Knowledge Graph Embedding

知识图嵌入群论

链接:

https://grlearning.github.io/papers/15.pdf

论文 4 从群论的角度来研究KG嵌入。结果表明,在复空间中可以对阿贝尔群进行建模,且证明了RotatE(在复空间中进行旋转)可以表示任何有限阿贝尔群。

有没有被“群论”、“阿贝尔群”这些数学名词吓到?不过没关系,这篇文章里有对相关的群论知识做简要介绍。

不过这个工作在如何将这个工作拓展到1-N或N-N的关系上,还有很大的gap。作者提出一个假设,即或许我们可以用四元数域H来代替复数空间C……

论文5:Quaternion Knowledge Graph Embeddings

四元数知识图嵌入

链接:

https://papers.nips.cc/paper/8541-quaternion-knowledge-graph-embeddings.pdf

……在这次NeurIPS' 19上,这个问题被 Zhang et al. 解决了。他们提出了QuatE,一个四元数KG嵌入模型。

什么是四元数?这个需要说清楚。简单来说,复数有一个实部,一个虚部,例如a+ib;而四元数,有三个虚部,例如 a+ib+jc+kd。相比复数会多出两个自由度,且在计算上更为稳定。

QuatE将关系建模为4维空间(hypercomplex space)上的旋转,从而将complEx 和 RotatE统一起来。在RotatE中,你有一个旋转平面;而在QuatE中,你会有两个。此外,对称、反对称和逆的功能都保留了下来。与RotatE相比,QuatE在 FB15k-237上训练所需的自由参数减少了 80%。

我上面并没有从群的角度来分析这篇文章,不过若感兴趣,你可以尝试去读原文:
       四元数域的旋转

论文 6:Quantum Embedding of Knowledge for Reasoning

推理的知识量子嵌入

链接:

https://papers.nips.cc/paper/8797-quantum-embedding-of-knowledge-for-reasoning.pdf

论文 6 提出了 Embed2Reason(E2R)的模型,这是一种受量子逻辑启发的量子KG嵌入方法。该方法可以嵌入类(概念)、关系和实例。

不要激动,这里面没有量子计算。量子逻辑理论(QL)最初是由伯克霍夫和冯诺依曼于1936年提出,用于描述亚原子过程。E2R的作者把它借用过来保存KG的逻辑结构。

在QL中(因此也是E2R中),所有一元、二元以及复合谓词实际上都是某些复杂向量空间的子空间,因此,实体及其按某种关系的组合都落在了特定的子空间内。本来,分布定律a AND(b OR c)=(a AND b)OR(a AND c)在QL中是不起作用的。但作者用了一个巧妙的技巧绕开了这个问题。

作者在论文中还介绍了如何使用QL对来自描述逻辑(DL)的术语(例如包含、否定和量词)进行建模!

实验结果非常有趣:在FB15K上,E2R产生的Hits @ 1高达96.4%(因此H@10也能达到);不过在WN18上效果不佳。

事实证明,E2R会将正确的事实排在首位或排在top10以下,这就是为什么在所有实验中H @ 1等于H @ 10的原因。

补充一点,作者使用LUBM作为演绎推理基准,该演绎推理包含了具有类及其层次结构的本体。实际上,这也是我关注的焦点之一,因为标准基准数据集FB15K(-237)和WN18(RR)仅包含实例和关系,而没有任何类归因。显然,大型知识图谱具有数千种类型,处理该信息可以潜在地改善链接预测和推理性能。我还是很高兴看到有越来越多的方法(如E2R)提倡将符号信息包含在嵌入中。

论文 7:Logical Expressiveness of Graph Neural Networks

神经网络逻辑表达

链接:

https://grlearning.github.io/papers/92.pdf

让我们继续来考察神经网络逻辑表达。

论文 7 中对哪些GNN架构能够捕获哪个逻辑级别进行了大量的研究。目前为止,这个研究还仅限于一阶逻辑的两变量片段FOC_2,因为FOC_2连接到用于检查图同构的Weisfeiler-Lehman(WL)测试上。

作者证明,聚合组合神经网络(AC-GNN)的表达方式对应于描述逻辑ALCQ,它是FOC_2的子集。

作者还进一步证明,如果我们添加一个独处成分,将GNN转换为聚合组合读出GNN(ACR-GNN),则FOC_2中的每个公式都可以由ACR-GNN分类器捕获。

这个工作怎么说呢?简直是不能再棒了!

论文 8:Embedding Symbolic Knowledge into Deep Networks

知识符号嵌入深层网络

链接:

https://papers.nips.cc/paper/8676-embedding-symbolic-knowledge-into-deep-networks.pdf

论文 8 提出了模型LENSR,这是一个具有语义正则化逻辑嵌入网络,它可以通过图卷积网(GCN)将逻辑规则嵌入到d-DNNF(决策确定性否定范式)当中。

在这篇文章中,作者专注于命题逻辑(与上述论文中更具表现力的描述逻辑相反),并且表明将AND和OR的两个正则化组件添加到损失函数就足够了,而不用嵌入此类规则。

这个框架可以应用在视觉关系预测任务中,当给定一张图片,你需要去预测两个objects之间的正确关系。在这篇文章中,Top-5的精确性直接将原有84.3#的SOTA提升到92.77%。
Source: Xie et al

三、马尔科夫逻辑网络卷土重来

马尔科夫逻辑网络(Markov Logic Network)的目标是把一阶逻辑规则和概率图模型结合起来。然而,直接使用马尔科夫逻辑网络不仅有拓展性问题,推理过程的计算复杂度也过高。

近几年来,用神经网络改进马尔科夫逻辑网络的做法越来越多,今年我们能看到很多有潜力的网络架构,它们把符号规则和概率模型结合到了一起。

论文9:Probabilistic Logic Neural Networks for Reasoning

推理概率逻辑神经网络

链接:

https://papers.nips.cc/paper/8987-probabilistic-logic-neural-networks-for-reasoning.pdf

论文 9 提出了 pLogicNet,这个模型是用来做知识图推理的,而且知识图嵌入和逻辑规则相结合。模型通过变差EM算法训练(实际上,这几年用EM做训练&模型优化的论文也有增加的趋势,这事可以之后单独开一篇文章细说)。

论文的重点是,用一个马尔科夫逻辑网络定义知识图中的三元组上的联合分布(当然了,这种做法要对未观察到的三元组做一些限制,因为枚举出所有实体和关系上的所有三元组是做不到的),并给逻辑规则设定一个权重;你可以再自己选择一个预训练知识图嵌入(可以选TransE或者ComplEx,实际上随便选一个都行)。

在推理步骤中只能怪,模型会根据规则和知识图嵌入找到缺失的三元组,然后在学习步骤中,规则的权重会根据已见到的、已推理的三元组进行更新。pLogicNet 在标准的连接预测测试中展现出了强有力的表现。我很好奇如果你在模型里选用了 GNN 之类的很厉害的知识图嵌入会发生什么。

论文 10:Neural Markov Logic Networks

神经马尔科夫逻辑网络

链接:

https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_18.pdf

论文 10 介绍了一个神经马尔科夫逻辑网络的超类,它不需要显式的一阶逻辑规则,但它带有一个神经势能函数,可以在向量空间中编码固有的规则。作者还用最大最小熵方法来优化模型,这招很聪明(但是很少见到有人用)。但缺点就是拓展性不好,作者只在很小的数据集上做了实验,然后他表示后续研究要解决的一大挑战就是拓展性问题。  论文11:Can Graph Neural Networks Help Logic Reasoning?

神经网络能帮助逻辑推理吗?

链接:

https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_22.pdf

最后,论文 11 研究了GNN和马尔科夫逻辑网络在逻辑推理、概率推理方面的表现孰强孰弱。作者们的分析表明,原始的GNN嵌入就有能力编码知识图中的隐含信息,但是无法建模谓词之间的依赖关系,也就是无法处理马尔科夫逻辑网络的后向参数化。为了解决这个问题,作者们设计了ExpressGNN架构,其中有额外的几层可调节的嵌入,作用是对知识图中的实体做层次化的编码。 

四、对话 AI 和图

好了,硬核的机器学习算法讲得差不多了,下面我们看点轻松的,比如NLP应用。和NeurIPS正会一起开的workshop里有很多有趣的对话AI+图的论文。

论文12:Multi-domain Dialogue State Tracking as Dynamic Knowledge Graph Enhanced Question Answering

动态知识图增强问答的多领域对话状态跟踪

链接:

http://alborz-geramifard.com/workshops/neurips19-Conversational-AI/Papers/51.pdf

这篇论文提出了一个通过问答追踪对话进度(Dialogue State Tracking via Question Answering (DSTQA))的模型,用来在MultiWOZ环境中实现任务导向的对话系统,更具体地,就是通过对话帮助用户完成某个任务,任务一共分为5个大类、30个模版和超过4500个值。它基于的是问答(Question Answering )这个大的框架,系统问的每个问题都要先有一个预设模版和一组预设的值,用户通过回答问题确认或者更改模版中的预设值。

有个相关的假说提出,同一段对话中的多个模版、多组值之间并不是完全独立的,比如,你刚刚订好五星级酒店的房间,然后你紧接着问附近有什么餐馆,那很有可能你想找的餐馆也是中高档的。论文中设计的整个架构流程很繁琐,我们就只讲讲他们的核心创新点吧:
  • 首先,作者们把对话状态建模为一个根据对话内容逐渐扩充的动态知识图。图中的节点由大类、模版和值构成,建立节点之间关系的过程也利用了上面那个假说,就是因为不同的模版之间有一些值可以是相同的、部分重叠或者是有关联的。
  • 其次,用一个图注意力网络(Graph Attention Net)学习为图中的节点分配权重,网络的输出也会被送入一个门机制,用来决定要在问题文本中表现出图的多大的一部分。
  • 作者们也使用了角色嵌入,这样模型可以由系统的话语和用户的话语共同训练。
  • 最后,作者们同时使用了CharCNN和ELMO嵌入来做对话文本内容的编码。
DSTQA 在 MultiWOZ 2.0 和 MultiWOZ 2.0 上都刷新了最好成绩,在 WOZ 2.0 上也和当前的最好方法不相上下。根据作者们的误差分析,主要的丢分点来自于真实值的标注有一些不准确的 —— 大规模众包数据集中就是经常会发生这种情况,没什么办法,摊手。

论文 13:Neural Assistant: Joint Action Prediction, Response Generation, and Latent Knowledge Reasoning

神经助手: 结合行动预测、反应生成和潜在知识推理

链接:

http://alborz-geramifard.com/workshops/neurips19-Conversational-AI/Papers/32.pdf

论文13 介绍了一个神经网络助理模型,这个对话系统架构不仅能考虑到对话历史,也能利用到知识库中的事实信息。系统架构可以看作是Transformer架构的拓展,它会编码对话历史中的文本;知识库中的内容是简单的单词三元组比如(餐馆A,价格,便宜)(没有 Wikidata 那种花哨的知识图模式),这些三元组也会被Transformer编码。最后,解码器会同时处理历史文本编码和知识图编码,用来生成输出语句,以及决定是否要进行下一步动作。

之前的论文中有很多人在所有的知识库三元组上计算softmax(只要知识库稍微大一点,这种做法就非常低效),这篇论文就没这么做,他们根据知识库中的实体是否在真实值回答中出现的情况做弱监督学习

他们的架构在 MultiWOZ 设置下比原本的Transformer架构得到更好的表现,预测动作以及实体出现的F1分数超过90%。不过,他们的进一步分析显示出,知识库中的条目超过一万条之后准确率就会开始快速下降。所以,嗯,如果你有心思把整个Wikidata的70亿条三元组都搬过来的话,目前还是不行的。

论文 14:A Comprehensive Exploration on WikiSQL with Table-Aware Word Contextualization

WikiSQL的表感知的词汇文化综合探索

链接:

https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_8.pdf

当你设计面向任务的系统的时候,往往有很多内容是无法长期留在内存里的,你需要把它们存在外部存储中,然后需要的时候去检索。如果是图数据,你可以用SPARQL或者Cypher建立图数据库来操作;或者用经典的SQL数据库也行。对于后一种情况,最近出现了很多新任务(https://medium.com/@mgalkin/knowledge-graphs-nlp-emnlp-2019-part-i-e4e69fd7957c),其中WikiSQL 是第一批引起了学术研究人员兴趣的。

如今,只经过了不到两年的时间,我们就已经可以说这个数据集已经基本被解决了,基于神经网络的方法也获得了超过人类的表现。这篇论文中提出了语义解析模型 SQLova ,它通过BERT编码问题和表头、用基于注意力的编码器生成SQL查询(比如 SELECT 命令、WHERE 条件、聚合函数等等),然后还能对生成的查询语句进行排序和评价。

作者们在论文中指出,不使用语义解析、只使用BERT的暴力编码的话,效果要差得多,所以语言模型还是不能乱用。模型的测试准确率达到了90%(顺便说一句,还有一个叫  X-SQL 的模型拿到了接近92%的准确率,https://arxiv.org/pdf/1908.08113.pdf),而人类的准确率只有88%;根据错误分析来看,系统表现的最大瓶颈基本就是数据标注错误了(和上面那个MulitWOZ的例子类似)。

除此之外我还有几篇NLP相关的论文想推荐给大家:
  • Relational Graph Representation Learning for Open-Domain Question Answering
    • 用于开放领域问答的关系图表征学习
    • https://grlearning.github.io/papers/123.pdf
    • 这篇论文提出了一个带有注意力的关系GNN,能够解决基于普通文本的以及把WebQuestionsSP外挂数据集作为知识图的问答任务。
  • Populating Web Scale Knowledge Graphs using Distantly Supervised Relation Extraction and Validation
    • 通过远距离有监督关系提取和验证,制作大规模网络知识图
    • https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_11.pdf
    • 这篇论文解决了如何同时提取文本中的关系并立即通过预训练的知识图嵌入对候选的知识图做实事检查。这个方法可以拓展到包含百万级三元组的知识图上(比如 Common Crawl — DBpedia 语料库有超过六百万个三元组)。
  • Incorporating rules into end-to-end dialog systems
    • 在端到端对话系统中集成规则
    • http://alborz-geramifard.com/workshops/neurips19-Conversational-AI/Papers/43.pdf
    • 作者们研究了如何把规则集成到端到端的对话系统以及上下文中,目的是让生成的文本更多样化,比如,如果用户已经要求查询某个数据了,系统就不会重新和用户打招呼、重新让用户选任务模版。其中表现最好的一种配置会把对话上下文和规则编码到一起。他们的方法通用性很好,可以和各种生成回答的网络架构共同使用。

五、神经网络的预训练和理解

在这一节,我会介绍一些从更通用的角度研究GNN的论文,包括一些研究GNN模型的可解释性的论文。

论文 15:Pre-training Graph Neural Networks

预训练神经网络

链接:

https://arxiv.org/abs/1905.12265
这篇论文挺火的,这是提出并解释预训练神经网络框架的首批论文之一。我们都很熟悉预训练语言模型了,就是先在海量文本上预训练一个语言模型,然后在某个具体任务上做精细调节。从思路上来说,预训练神经网络和预训练语言模型很像,问题重点在于这种做法在图上能不能行得通。简单的答案就是:可以!不过使用它的时候还是要小心谨慎。

对于用预训练模型在节点级别(比如节点分类)和图级别(比如图分类)捕捉结构和领域知识,作者们都在论文中提出了有价值的见解,那就是,对于在节点级别学习结构属性来说,内容预测任务的重点是在负采样的帮助下根据嵌入预测一个节点周边的节点(仿佛很像word2vec的训练对不对),其中通过掩蔽的方式,随机遮住一些节点/边的属性,然后让网络预测它们。

作者们也说明了为什么聚合-合并-读出的GNN结构(Aggregate-Combine-Readout GNN)的网络更适合这类任务,是因为它们支持用一个置换不变的池化函数获取一个图的全部表征。实验表明,只使用图级别的有监督预训练时,向下游任务迁移会造成表现下降,所以需要同时结合节点级别和图级别的表征。把特征这样组合之后能在40种不同的预测任务中带来6%到11%的ROC-AUC提升。

所以,这代表图上的迁移学习时代已经正式来到我们面前了吗?会有更多优秀的研究人员为预训练GNN模型编写优秀的库,让大家都可以更方便地使用预训练GNN吗?

论文 16:Graph Transformer Networks

变形图网

链接:

https://papers.nips.cc/paper/9367-graph-transformer-networks.pdf

这篇论文为异质图设计了图Transformer(Graph Transformer)架构。异质图是指,图中含有多种类型的节点和边。图Transformer网络(GTN)中通过1x1卷积来获取元路径(边组成的链)的表征。接着,他们思路的关键在于,在此基础上再生成一系列任意长度的新的元路径(元-元路径?),长度可以由Transformer层的数量指定,这些元路径理论上可以为下游任务编码更多有有价值的信号。作者们的实验中,GTN凭借和图注意力网络(Graph Attention Nets)相近的参数数量刷新了节点任务分类的最好成绩。  

论文 17:GNNExplainer: Generating Explanations for Graph Neural Networks

GNNExplainer: 神经网络解释转化

链接:

https://papers.nips.cc/paper/9123-gnnexplainer-generating-explanations-for-graph-neural-networks.pdf

这里要介绍的最后一篇论文瞄准的是“神经网络的可解释性”这个重要任务,论文中提出了用来解释神经网络的输出的GNN Explainer,这是一个模型无关的框架,它能为任意任务上的、任意一个基于图的模型的预测结果做出解释。比如说,你在用图注意力网络做节点分类/图分类任务,然后你想看看你的问题的可解释的结果,那你直接用GNN Explainer就好了。

他们的设计思路是,GNN Explainer会让模型预测和结合图、节点特征形成的子图结构之间的共同信息最大化(当然了,生成子图的过程需要一些优化技巧,毕竟检测所有可能的子图是办不到的)。这个框架给出的解释的形式是,它会返回一个带有最重要的通路和特征的子图,这就很容易被人类解读了。论文里有一些很清晰的示例图(如下方)。很棒的论文,鼓掌!

结论

在图上做机器学习是完全可行的!而且不管是CV、NLP、强化学习都能做。按照NeurIPS这样的规模,我们可以期待看到更多有趣的评审意见和给人启发的见解。顺便,我觉得有不少NeurIPS的workshop论文都可以在明年的ICLR2020再次看到。
THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论NeurIPS 2019
6
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

命题逻辑技术

在逻辑和数学里,命题演算(或称句子演算)是一个形式系统,有着可以由以逻辑运算符结合原子命题来构成代表“命题”的公式,以及允许某些公式建构成“定理”的一套形式“证明规则”。

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及,通常来自文本或XML文档。该任务与信息提取(IE)的任务非常相似,但是IE另外需要去除重复关系(消歧),并且通常指的是提取许多不同的关系。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

演绎推理技术

演绎推理(英语:Deductive Reasoning)在传统的亚里士多德逻辑中是“结论,可从叫做‘前提’的已知事实,‘必然地’得出的推理”。如果前提为真,则结论必然为真。这区别于溯因推理和归纳推理:它们的前提可以预测出高概率的结论,但是不确保结论为真。 “演绎推理”还可以定义为结论在普遍性上不大于前提的推理,或“结论在确定性上,同前提一样”的推理。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

决策边界技术

在具有两类的统计分类问题中,决策边界或决策曲面是一个超曲面,它将底层的向量空间分成两组,每组一个。分类器会将决策边界一侧的所有点分为属于一个类,而另一侧属于另一个类。也即二元分类或多类别分类问题中,模型学到的类别之间的分界线。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

描述逻辑技术

描述逻辑(description logic)是一種用于知识表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。 描述逻辑方法多数被用到涉及知识分类的应用领域,如数字图书馆和面向万维网的信息处理。 描述逻辑是当前语义网发展中本体的理论基础。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

一阶逻辑技术

一阶逻辑是使用于数学、哲学、语言学及计算机科学中的一种形式系统。 过去一百多年,一阶逻辑出现过许多种名称,包括:一阶断言演算、低阶断言演算、量化理论或断言逻辑。一阶逻辑和命题逻辑的不同之处在于,一阶逻辑有使用量化变数。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

图分类技术

图分类是许多不同领域中实际应用的问题。为了解决这个问题,通常会计算某些图形统计数据(即图形特征),它们有助于区分不同类别的图形。在计算这些特征时,大多数现有方法会对全图进行处理。

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记(表示为节点)的任务。

暂无评论
暂无评论~