Joshua作者Haojin Yang编辑

AAAI 2019 提前看:卷积神经网络继续进步

卷积神经网络(CNN)近年来已经取得了很大的成功,但研究者仍在进一步推进研究前沿,提出新的思路和方法。在本文中,技术分析师 Joshua Chou 将解读三篇有关卷积神经网络的 AAAI 2019 论文。其中第一篇提出了一种 dropout 改进方法,第二篇和第三篇则是图卷积网络方面的研究。

分析师简介:Joshua 已于 2018 年取得多伦多大学应用科学硕士(MASc)学位。他的研究重心是格形码(lattice codes)、低密度奇偶校验(LDPC)码以及编码理论的其它方面。他也对凸优化随机过程感兴趣。Joshua 目前在高通工作,是一位机器学习工程师,专注对推理的优化。

前言

我在本文中介绍了选出的三篇 AAAI 2019 论文。所有这三篇论文都是众所周知的卷积神经网络的变体。第一篇论文是 Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network,利用了一个简单的观察来提升 CNN 的表现。第二篇论文 Graph Convolutional Networks for Text Classification 研究了 CNN 的一种扩展——图卷积神经网络(GCNN)。GCNN 是直接操作图,是基于近邻节点和它们的属性推导节点的嵌入向量。第三篇论文 Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification 讨论了贝叶斯框架下的 GCNN。也就是说,因为现实生活应用中使用的图有时候源自有噪声的数据或建模假设,所以图自身含有不确定性。因此,第三篇论文是通过向 GCNN 中引入概率和统计学来解决这种不确定性。下面我们开始详细解读。

  • Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

  • 地址:http://home.ustc.edu.cn/~saihui/papers/aaai2019_weighted.pdf

引言

近年来卷积神经网络(CNN)实现了很大的发展,这已经显著提升了很多不同应用的性能表现。深度 CNN 的成功原因很大程度上是其多个非线性隐藏层的结构,其中包含数以百万计的参数,因此能够学习输入和输出之间的复杂关系。

这项工作由 Hou 和 Wang 完成,受到了以下观察的启发。在一个 CNN 的卷积层的堆栈内,所有的通道都是由之前的层生成的,并会在下一层中得到平等的对待。这就带来了一个想法:这样的「分布」可能不是最优的,因为事实可能证明某些特征比其它特征更有用。当特征仍然可追溯时,对于更高层(更浅)来说尤其如此。Zhang et al. 2016 更进一步表明了这一点,他们表明,对于每张输入图像,更高层中仅有少量通道被激活,同时其它通道中的神经元响应接近于零。

由此,作者提出了一种根据激活的相对幅度来选择通道的方法,并可以进一步作为一种建模通道之间的依赖关系的特殊方法。他们这项工作的主要贡献是为 CNN 中卷积层的正则化提出了加权式通道丢弃(Weighted Channel Dropout/WCD)方法。

加权式通道丢弃

基本思想和一些注解

WCD 背后的主要思想如下:

  • 首先,对前一层输出的通道进行评级,并为每个通道分配一个分数。这个分数是使用全局平均池化(GAP)操作得到的。

  • 其次,会生成一个二元掩码来指示每个通道是否被选中,分数相对更高的通道有更高的概率得到保留。

  • 最后,使用一个额外的随机数生成器来进一步为下一层过滤通道。这可以被视为上述步骤中选择性 dropout 之上的随机选择 dropout。

相对而言,常规 dropout 是以随机方式掩蔽通道。下面的图 1 给出了传统 dropout 流程的示意图。

图 1:dropout 示意图

还有几点值得一提:

  • WCD 不依赖任何参数,仅用一些(少量)的计算成本就可被添加到训练阶段的网络中。

  • 因为 WCD 仅能加入训练阶段,所以不影响推理。

方法

如前所述,WCD 的目标是为 CNN 中的卷积层堆栈提供正则化。这篇论文的标注方式如下。令 X = [x_1, x_2, ..., x_N] 表示层 I 的输出,X^ = [x^_1, x^_2, ..., x^_N^] 表示下一层的输入。N 和 N^ 表示通道的数量,x_i 和 x^_i 表示第 i 个通道。这篇论文考虑了以下情况。

此外,假设 N^ = N 成立。

第一步:通道评级

这一步涉及到为每个通道分配一个分数。这是使用 GAP 完成的。对于每个通道 i,它的分数可使用(2)式计算得到。

其中 W 和 H 分别是所有通道共享的宽度和高度。

第二步:通道选择

要决定一个通道是否被选中,方法是构建一个二元掩码。其中 mask_i 要么为 1,要么为 0,分别表示选择或不选择通道 i。为了构建这个掩码,首先要计算出一个概率 p_i 并将其分配给每个通道使用,以确定 mask_i。保留通道的概率 p_i 使用(3)式计算。

因为 P(mask_i = 1) = p_i,所以我们得出结论:有更高分数的通道更可能得到保留。

可以观察到,上述基于分数向量构建掩码向量的过程是加权式随机选择(WRS)的一种特例。由此可以实现这一步骤。算法 1 展示了 WRS 算法。更多信息请参阅 Efraimidis and Spirakis, 2006。

对于分数为 score_i 的每个通道 x_i,生成介于 0 和 1 之间的一个随机数 r_i,从而得到一个键值 key_i。接下来,选择其中 M 个最大的键值并将对应的 mask_i 设置为 1。

第三步:随机数生成器

这一步可被视为一个可选步骤,因为这更面向于更小的数据集。这是为了应对以下情况。在某个预训练模型的更高的卷积层,通道之间的差异大于更深卷积层中的情况。也就是说,仅有少量通道被分配了较大的激活值,其它激活值很小。如果网络仅根据这些层中的分数选择通道,那么有可能对于每张图像,被选择的通道序列在每次前向通过时都一样。因此,通过添加随机数生成器,即使 mask_i 已被设置为 1,对应的 x_i 仍有可能不被选择。

总体方法

新提出的方法可总结为图 2 的形式。

图 2:加权式通道 dropout 示意图

应用和评估 WCD

实验和设置

理论上,WCD 可以插入任意 CNN 中任意的两个连续层之间。作者提出将 WCD 用于正则化卷积层的堆栈。作者进行了一些实验,将 WCD 整合进了 VGGNet (Simonyan and Zisserman 2014)、ResNet (He et al. 2016) 和 Inception (Szegedy et al. 2016) 等著名的网络中。

所有的模型都是使用 Caffe(Jia et al. 2014)在 Titan-X GPU 上实现。WCD 被添加到了训练阶段的网络中,原有的层保持不变。正如前面提到的,在早期卷积层中的通道更容易辨别和更好理解,因此作者在每个网络的更高、更浅层之后部署了 WCD。

实验使用了以下数据集:

  • CUB-200-2011(Wah et al. 2011):一个使用广泛的细粒度数据集,收集了 200 种鸟类的图像。每一类有大约 30 张图像可供训练。

  • Stanford Cars(Krause et al. 2013):一个专注于汽车分类的数据集,包含品牌、型号和年份

  • Caltech-256:一组目标类别数据集的集合,通过从谷歌图片搜索下载样本,然后人工去除不符合该类别的图像而得到。

图 3 展示了一些用作网络输入的数据集中的样本图像。

图 3:(a) CUB-200-2011、(b) Stanford Cars 和 (c) Caltech-256 中的图像示例

结果

下面展示了被测网络(VGGNet、ResNet 和 Inception)的表现。此外,其中加入了基准表现(没有集成 WCD)以便比较。

可以看到,整合了 WCD 的模型总是优于基准。但是,这并不意味着整合了 WCD 的网络的表现接近当前最佳,比如 RA-CNN(Fu, Zheng, and Mei 2017)和 MA-CNN(Zheng et al. 2017)。这是因为 WCD 是一种相当通用的方法,可用于在小数据集上微调 CNN 时缓解过拟合问题,其可以整合进这些已有的模型中。

下面展示了在 Caltech-256 数据集上的结果。

前两行是在一个更大的测试集上得到的基准水平以及使用了 WCD 时的表现,而后两行是在一个包含 20 张图像的精简测试集(与训练集不重叠)上得到的基准水平以及使用了 WCD 时的表现。可以看到,WCD 在 Caltech-256 上也表现良好,能帮助实现优于基础模型的表现。

进一步讨论

现在读者可能会问:除了额外的计算,在使用 WCD 时还需要什么权衡?答案是 WCD 在收敛之前会造成更高的训练(样本中)误差。换句话说,使用 WCD 时的收敛速度更慢。作者提供了使用 VGGNet-16 作为基础模型在 CUB-200-2011 上的结果。图 4 展示了其表现

图 4:WCD 对网络训练的影响,这是使用 VGGNet-16 作为基础模型在 CUB-200-2011 上的结果

如图中描述的那样,使用 WCD 时的训练误差曲线下降更慢,同时所得到的测试误差更低。这个实验发现支持这一说法:WCD 可以降低训练阶段中的过拟合

总结

在这篇论文中,作者提出了一种修改版的 dropout 作为一种 CNN 正则化方法。他们提出的方法 WCD 可用于卷积层的堆栈。这是一种轻量级的组件,仅需在训练阶段引入可忽略的少量计算成本,就能将其整合进任意已有模型中。

我认为这篇论文的有趣之处在于其采用了一个非常简单的观察,即更高 (更浅) 的卷积层通常更可解释;另一个观察是之前一层所生成的当前所有通道都会在下一层中得到平等对待。作者利用了这两个观察来取得更优的表现。

随着深度学习的持续提升,现在更优的表现往往是通过实现更复杂的算法或使用更多资源而「挤」出来的。看到有人使用这些简单的观察来低成本地提升表现,着实让人眼前一亮。这种类型的改进可能在机制上并不困难,但也确实需要一些运气和灵感才能想出来。因此,我认为这是一个值得讨论的有趣主题。

  • Graph Convolutional Networks for Text Classification

  • 地址:https://arxiv.org/pdf/1809.05679.pdf

引言

神经网络(Graph Neural Networks/GNN)近年来越来越受欢迎。一些作者已经总结出了一些成熟的神经网络模型,比如一个用于处理结构化图的卷积神经网络(CNN)。Kipf 和 Welling 在 2017 年提出了图卷积网络(GCN),其在一些基准图数据集上取得了当前最佳的分类结果。

简而言之,GCN 是直接操作图的多层神经网络,并可基于近邻节点及它们的属性推导节点的嵌入向量。这是一种很有趣的网络模型,正在快速发展,因此我的目标是帮助读者进一步理解如何使用 GCN 以及讨论它们在文本分类中的一些应用。

方法

术语和表示方法

GCN 本质上是操作图的 CNN。我们首先来看看一些所需的符号和术语。

  • 图表示为 G=(V, E),其中 V 和 E 分别是节点和边的集合。假设每个节点都与自己相连。

  • 邻接矩阵 A 定义为一个 |V| x |V| 的方形矩阵,用于表示 V。A 中的元素表示顶点对是否是邻接的,还是不在图中。(|V| 是节点的数量,后面将用 n 表示。)

  • X 是一个特征矩阵,其维度为 R^(n x m),其中 n = |V| 是节点的数量,m 是特征的数量。

  • D 是度矩阵(degree matrix)。这是一个 n x n 的对角矩阵,其中元素 D_ii 表示每个节点的度。

GCN 操作的是这些信息,因此可以使用一层卷积自然地获取有关每个节点的直接近邻节点的信息。这篇论文的重点不是 GCN 的底层机制,而是如何构建要输入 GCN 的适当输入。

为文本 GCN构建图

现在我们进入这篇论文的核心。异构文本图既包含词节点,也含有文档节点。节点之间的边可分为两大类。

文档中的词出现

这是连接词节点和文档节点的边。词-文档边的权重是词-文档的词频-逆文档频率(TF-IDF)。词频是指词在文档中出现的次数,逆文档频率(IDF)是指包含该词的文档数量的对数尺度的逆向分数。

在计算 TF-IDF 时需要注意几点。在总结文本时,难点是寻找显著突出的 token。直观地看,人们可能会认为最常出现的 token 最重要。但是,很多文档中最常出现的词往往不能提供较多重要信息,比如 the、to、with、have(而不只是我们关注的词)。显著的 token 往往在多个不同文档中有较低的数量,而在某个文档中数量较大。TF-IDF 分数可以使用下列公式进行计算。

在这里 t 表示词,d 表示单个文本,D 为文本的集合。对此公式的理解如下:

它的第一部分 tf(t,d) 是用来计算每个词在单个文本中出现的次数。公式第二部分的详细表达如下,

上式中分子 D 表达文本集合,它也可被表示为 D=d_1, d_2, ... ,d_n,这里 n 是集合 (corpus) 中文本的数量。

分母的部分| {d ∈ D : t ∈ d} |表示词 t 出现在多少文本 d 中 (d ∈ D 限制 d 要属于文本集合 D 中). 这里需要指出的是,无论词 t 在某一个文本里出现了多少次,都只会被记录一次,因为我们只是要统计它是否出现过。分母加 1 的部分是为了避免分母为 0。

词共现

这是连接一个词节点与另一个词节点的边。连接两个词节点的边的权重使用逐点互信息(PMI)计算。PMI 度量非常类似信息论中的互信息,可以很好地直观理解。

以英语中文本分类或与文本相关的语言处理为例,这往往涉及到寻找简单的短语或寻找总是出现在一起(共现/ co-occurrence)的 token 对。可以直观地认为,如果两个 token 出现在一起的频率高于「随机」情况,则它们就是共现的。PMI 是一种描述这一情况的数学方法。因此,语言模型可能为任意的 token 序列分配一个概率 P(x_1, x_2, ..., x_k),其中更常见的序列有更高的概率。比如 P(「Los Angeles」) 是英语中「Los」和「Angeles」出现在一起的概率。语言模型可能包含不同长度的序列。

现在考虑一个能够读取「词袋(bag of words)」的 unigram(长度仅为 1 的序列)模型,P(「Los」) x P(「Angeles」) 是「Los Angeles」在这个(随机)unigram 模型中出现在一起的概率。然后可用下式计算 PMI。

PMI 为正表示词存在共现,也就是会出现在一起;PMI 为负则说明词没有出现在一起。

进一步解读 GCN

构建图之后,将其输入 Kipf and Welling (2017) 描述的 Text GCN 中。我们介绍的这篇论文关注的重点不是 GCN 的工作方式,而是要输入 Text GCN 中立即使用的图的构建。但是,我认为为了更好地理解这篇论文的结果,仍然需要对 GCN 进行一些介绍。我将在这里稍做停顿,稍微深度地讨论一下 GCN 以及它们实际计算的内容。有关 GCN 的更多细节可参考 Kipf 和 Welling 的另一篇论文:https://openreview.net/pdf?id=SJU4ayYgl

近似图卷积和逐层信息传播

GCN 的核心可写成下列等式:

式(3)。GCN 的逐层传播规则。

l+1 表示 l 层之后一层。在 l=0 层,H 矩阵是输入的图矩阵 G。W 是权重,A 和 D 分别是邻接矩阵和度矩阵。激活函数 σ 可根据情况选择,比如 ReLU 函数。

因此,每当信息运动到下一层时,网络都会通过等式(3)传递所有信息。取自 Kipf 和 Welling 的论文的下图 2 展示了这一过程。

图 2:用于半监督学习的多层图卷积网络(GCN)的示意图,其中有 C 个输入通道,输出层中有 F 个特征图。

从图 2 中可以看到,输入层由输入特征图的「堆栈」构成(注意图中的层叠)。图的数量与特征的数量一样多,其中每个图都是又一个堆叠了所有属性的矩阵。GCN 的输出是特征图。

下图 3 是一个可视化 GCN 的简单示例。

图 3:GCN 结构的简单可视化

图 3 展示了一个简单的 GCN,其中有两个卷积层,带有 dropout 正则化和 ReLU 激活函数,输出位置是一个 softmax 分类器。

现在我们已经更清楚地理解了 GCN,下面会介绍实验结果。但在我们了解结果之前,我想简单谈谈我的一点看法。作者没有提到如何组织图的结构,即如何在邻接矩阵中为节点排序。我提到这一点的原因是节点可以代表文档、文本和单个词。我们马上就能看出,不同的节点类型似乎会带来额外的分析度。但是,给定一个邻接矩阵 A,以不同的节点顺序构建一个新的邻接矩阵 A',则 A 和 A' 是同构的。

因此,这让我相信(3)式中的输入图是旋转不变的(作者没有提到这一点,但我相信是这个情况)。其更新规则并不在意邻接矩阵,因为 1)它们与任意其它邻接矩阵是同构的,2)它们由度矩阵归一化,3)存在一个参数可训练的权重矩阵 W。直观地看,我认为 W 会「学习输入图的旋转」,并由此得到相同的结果。

测试 Text GCN

实验

作者评估了 Text GCN 执行文本分类的能力。

作者用于比较的基准水平是当前最佳的文本分类和嵌入方法,比如 CNN、LSTM、Bi-LSTM、 PV-DM、fastText、SWEM 以及使用多种过滤器的不同 GCN。

实验中使用的数据集是 20-Newsgroups(20-NG)、Ohsumed 语料库、Reuters 21578 的 R52 和 R8、Movie Review(MR)。每个数据集的数据统计情况和详细描述请参阅下面的表格和链接。

  • 20NG - http://qwone.com/˜jason/20Newsgroups/

  • Ohsumed 语料库 - http://disi.unitn.it/moschitti/corpora.htm

  • R52 和 R8 - https://www.cs.umb.edu/˜smimarog/textmining/datasets/

  • MR - http://www.cs.cornell.edu/people/pabo/movie-review-data/

实验设置如下。第一个卷积层的嵌入大小为 200,窗口大小为 20。窗口大小用于 TF-IDF 的计算。回忆一下,词频率是词出现在文档中的次数。在使用窗口的情况下,文档是根据窗口大小部分地读取。如果一个词出现在给定的窗口中,则计数增加。学习率设置为 0.02、dropout 率设置为 0.5,保留 10% 的训练集作为验证集。

结果

实验结果见下表:

可以看到,除了一个数据集外,Text GCN 的准确度在其它所有数据集上都优于其它模型。作者文中并没有提供相应的解释,为何 Text GCN 在 MR 数据集上性能有所落后,我觉得可以从数据集的统计数字略窥倪端,MR 文本平均篇幅较短,可能因此导致其生成的图包含过少的信息量,影响了图网络的整体性能。

此外,通过改变窗口大小,作者也能得到不同水平的表现。因此,窗口大小可以被视为一个超参数,我们可以根据验证测试结果对其进行调整。图 4 给出了其表现上的差异。

图 4:不同窗口大小的准确度,(a)R8 数据集,(b)MR 数据集

根据实验结果,我们可以看到新提出的 Text GCN 实现了很好的文本分类结果。

总结

在这篇论文中,作者提出了一种全新的文本分类方法,即文本图卷积网络(Text GCN)。Text GCN 能获取全局词共现信息以及使用有限标注的文档来执行所需任务。Text GCN 在多个基准数据集上都优于多种当前最佳方法,表现出色。

我认为这篇论文能帮助读者了解越来越流行的图卷积神经网络,这也是我介绍这篇论文的原因。卷积神经网络已经出现了一些时日了,现在已经相当成熟,现在也正得到不断的扩展和改进。我认为即使最少量的改进也值得关注。

  • Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification

  • 地址:https://arxiv.org/pdf/1811.11103.pdf

引言

我要介绍的第三篇论文基于图卷积神经网络(我们将使用该论文的表示方法,将其写成 GCNN)。如上一篇论文介绍的那样,GCNN 已被用于解决节点和图的分类问题,并且相当成功。但是,当前的实现将不确定性整合进图结构的能力有限,也就是说,GCNN 虽然理解图的节点和边,因为这是其中关系的基本真值描述,但应用中使用的图本身往往源自有噪声的数据或建模假设,得到的图有更高的熵。

当我们处理不确定性时,我们自然会想到概率。而当我们想到概率时,我们会想到贝叶斯法则。将贝叶斯框架整合进 GCNN 是这篇论文的重心。这篇论文针对的是某些随机图参数和节点标签的联合后验的推断。作者提出了贝叶斯 GCNN 框架,并开发了一种迭代式的学习流程来到达最终图。

方法

表示方法和术语

这篇论文的表示方法和术语类似于前一篇论文(也有些许不同),这里我们简要介绍一下。我们观察到的图为 G_obs = (V, E),由 N 个节点的集合 V 与边集合 E 构成。对于每个节点 i,都有一些相关的度量数据(或导出特征),表示为 x_i。对于节点的某个子集 L ⊂ V, 存在度量标签 Y_L = {y_i : i ∈ L}。在分类任务中,标签 y_i 可以意味着类别;在回归任务中,y_i 可以是实数值。这篇论文的任务目标是使用特征 x 和观察到的图结构 G_obs 来估计无标签节点的标签。

GCNN 执行这一任务的方式是在神经网络架构中执行图卷积运算。收集到的特征向量将作为矩阵 X 的行,即 GCNN 的层。在每个卷积层,前向传播都根据等式(1)和(2)定义。

等式 (1) 和 (2)。GCNN 的逐层传播规则。

等式(1)和(2)是和前一篇论文一致的公式,只有一点不同——没有度矩阵与 A_G 相乘。但是,解读仍然是一样的。一个 L 层网络的最后一层输出表示为 Z = H^(L)。神经网络权重的训练通过反向传播执行,目标是最小化被观察的标签 Y 和网络预测 Z 之间的误差度量。

考虑以下设定。

  • 训练输入 X = {x_1, x_2, ... x_n}

  • 对应于输入的输出 Y = {y_1, y_2, ..., y_n}

  • 网络试图学习的函数 y = f(x)

  • 存储在权重矩阵 W 中的权重

在这里,权重被建模为贝叶斯方法中的随机变量,并且有基于它们的一个先验分布。因为这些权重是随机变量,输出 f(x) 也是一个随机变量。在这一框架下,新输入 x 的输出可被视为给定 x、X、Y 并整合了 W 的后验分布。这可以表示为下面的等式(3)。

p(y|x, W) 这一项可被视为一个似然;在分类任务中,可通过将 softmax 函数应用于神经网络的输出,使用类别分布来建模这一项。

现在,我们将后验计算表示为等式(5),等式(5)的目标是计算节点标签的后验概率

其中 W 是一个随机变量,表示贝叶斯 GCNN 在图 G 上的权重,λ 表示特征化一系列随机图的参数。在下一节,我们将会看到贝叶斯 GCNN 执行半监督节点分类任务的方式。

实验结果

实验设置和数据集

下面我们来看使用贝叶斯框架的 GCNN 在半监督节点分类上的表现。这个实验测试的是贝叶斯 GCNN 预测未知文档标签的能力。这类似于上面的论文 Graph Convolutional Networks for Text Classification 中讨论的文本分类。使用的数据集包括引用数据集(Sen, Namata, and others 2008),比如 Cora、CiteSeer 和 Pubmed。在这些数据集中,每个节点表示一个文档,并且有与其相关的稀疏词袋特征向量。每当一个文档引用另一个文档时,就会形成边。忽略引用的方向,并构建一个带有一个对称邻接矩阵的无向图。表 1 给出了这些数据集的统计情况。


表 1:实验中使用的数据集的总结概括

作者将他们的工作与最早的 GCNN(Kipf and Welling 2017)ChebyNet(Defferrard, Bresson, and Vandergheynst 2016)和图注意网络(GAT)(Velickovic et al. 2018)进行了比较。此外,其超参数设置和 Kipf and Welling 的 GCNN 一样。具体来说,这个 GCNN 有两层,其中隐藏单元数为 16,学习率为 0.01,L2 正则化参数为 0.0005,dropout 率为每层 50%。除了之前的研究(Kipf and Welling 2017)探索过的每类别 20 个标签的训练设置之外,作者还在限制更严格的数据场景(每类别仅有 10 或 5 个标签可用)中测试了这些算法的表现。

将数据集划分为训练集和测试集的方式有两种,第一种是源自(Yang, Cohen, and Salakhutdinov 2016)的固定式数据分割。第二种划分类型是随机的,其中每一轮的训练集和测试集都是随机创建的。这能为模型表现提供更为稳健的比较,因为特定的数据划分方式会在训练标签有限的情况中产生显著的影响。

结果

下列表 2、3、4 展示了实验的结果。

表 2:在 Cora 数据集上的预测准确度(预测正确的标签所占百分比)

表 3:在 Citeseer 数据集上的预测准确度

表 4:在 Pubmed 数据集上的预测准确度

可以看到,GCNN 几乎在所有实验中都优于其它网络。值得注意的是,当不确定性较高时(即标签的数量较少时),更是如此。这一点非常直观,因为当数据和标签更少时,贝叶斯 GCNN 在计算没有标签的节点的最大后验(MAP)估计以及选择最优近似上有优势。另一方面,其它设置依赖「基本真值」标签提供有关节点和标签的信息,在没有标签时不会提供任何信息。当然,计算节点的潜在标签的概率需要额外的计算成本,也就是说,对于有 L 个标签的每个不确定的节点,网络必须计算出每个标签的 L 个概率以决定每个不确定节点应该与哪个标签关联。

但是,可以预见,随着给定标签数量的增长(图中「基本真值」更多),其它框架将开始优于贝叶斯 GCNN。此外,随着给定标签数量的增长,贝叶斯 GCNN 不仅会失去优势,而且由于计算缺失的标签的概率需要额外的计算成本,还会具有较大的劣势。

可以看到,另一个影响结果的因素是图复杂度(graph complexity)。在 Pubmed 数据集上尤其如此。在使用 Pubmed 数据集时,原始的 GCNN 显著优于贝叶斯 GCNN。Pubmed 数据集比 Cora 和 CiteSeer 数据集大很多,这会得到更加复杂的图。我相信这是由于以下直观原因。边的数量比节点数量多很多的图是「连接很紧密的」的图。在「基本真值」设定中,具有标签的节点意味着给定的节点-标签关系是绝对确定的。因为边的数量远多于节点的数量,所以每个节点的绝对信息都会被传播给网络中的更多节点,从而得到「信息更丰富」的图。我认为这就是贝叶斯 GCNN 在这种情况下优势不再的原因。

总结

在这篇论文中,作者提出了贝叶斯图卷积神经网络,提供了一种通过参数随机图模型整合不确定图信息的方法。随着 GCNN 的继续普及,我认为值得研究 GCNN 的潜在改进空间。这篇论文本质上是通过引入概率来度量不确定性,添加了一个非常自然的层来求解涉及不确定性的问题。

结语

我选择评阅的这三篇 AAAI 2019 论文全都与卷积神经网络这一主题有关。卷积神经网络近年来已经取得了非常大的成功,并且已经发展出了取决于当前任务的复杂配置。我会简单总结一下我在阅读这些论文时想到的要点。一般来说,我会谈到当前的状态,什么信息是可用的,我们可以利用这个额外信息吗,我们要怎么做以及已经做了什么?

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

  • dropout 是一种神经网络中使用的常用的正则化技术。其中被丢弃的权重是完全由随机选择选出的。

  • 在更高层(浅层),特征仍然是可追踪的,可以被解释。特定的特征比其它特征更有用,这能推出以下断言:我们可以引入一个度量来量化特征的重要性以及影响 dropout 选择。

  • 上述要点就引出了这篇论文的主要贡献。其作者提出了一种量化特征的重要性的方法,并且表明通过利用这一信息并将其整合进 dropout 中,卷积神经网络的表现可以得到提升。

Graph Convolutional Networks for Text Classification

  • Kipf 和 Welling 引入了图卷积网络,能高性能地解决分类问题。GCN 是一种直接操作图的多层神经网络,并能基于近邻节点和它们的属性推导节点的嵌入向量。

  • 要得到有效的 GCN,输入图必须要好。这就涉及到这篇论文的贡献了。作者提出了一种基于文档中词出现和词共现来构建图的方法;并将该图用作 GCN 的输入。

  • 文档中的词出现会影响连接词节点和文档节点的边的构建。词-文档边的权重是这组词-文档的词频-逆文档频率(TF-IDF)。

  • 词共现会影响连接一个词节点与另一个词节点的边的构建。连接两个词节点的边的权重使用逐点互信息(PMI)计算。

  • 结果表明,通过使用一层卷积获取有关每个节点的直接近邻的信息,GCN 在分类问题有应用的潜力。这个信息编码在构造的图中。

Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification

  • 这篇论文同样研究的是图卷积神经网络(GCNN),但额外考虑了有时候现实生活中使用的图源自有噪声的数据或建模假设,这意味着这些图是「不确定的」。为了建模不确定性,我们自然会想到概率和统计,这也导向了这篇论文的主要重点。

  • 这篇论文将贝叶斯框架引入了 GCNN 来解决不确定性问题。通常而言,GCNN 是使用基本真值信息或完全不使用信息构建的,而贝叶斯 GCNN 则会计算有关图的不完整或缺失信息的后验概率,并将其用作可靠的信息。

  • 在多项实验中的结果表明贝叶斯 GCNN 优于其它网络。这是因为贝叶斯 GCNN 在计算没有标签的节点的最大后验(MAP)估计以及选择最优近似来构建输入图上有优势。当存在大量无标签节点时(缺失或不完整信息),这样的优势最为显著。

  • 可以推断出,「不确定节点」的数量和图复杂度对贝叶斯 GCNN 的表现有贡献。在某些情况中,原始 GCNN 优于贝叶斯 GCNN。此外,这个框架的表现水平和计算成本之间存在权衡,在使用贝叶斯 GCNN 时需要考虑到这一点。

希望我讨论这三篇论文的思路是清晰的。我选择关注 GCNN 的原因之一是我们可以看到深度学习和传统分析技术(这里是基于图的分析和概率分析)之间的隔离情况正在逐渐消失。这将为不同的领域带来进一步的合作,并有望在未来创造更激动人心的成果。

AAAI 提前看
AAAI 提前看

多年前导师在电梯里跟我说:“AAAI只有6页,也是顶会,让我们一起把这个idea投AAAI吧!6页的话,一个idea可以发两篇哦!” 多年后,随着AI/ML的火热,AAAI圈子如此兴盛繁荣,奇思妙想应接不暇,但是我还是没看到导师说的那篇论文。

理论卷积神经网络AAAI 2019
6
相关数据
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Dropout技术

神经网络训练中防止过拟合的一种技术

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

随机过程技术

在概率论概念中,随机过程是随机变量的集合。若一随机系统的样本点是随机函数,则称此函数为样本函数,这一随机系统全部样本函数的集合是一个随机过程。实际应用中,样本函数的一般定义在时间域或者空间域。随机过程的实例如股票和汇率的波动、语音信号、视频信号、体温的变化,反对法随机运动如布朗运动、随机徘徊等等。

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

fastText技术

Facebook开发的文本处理工具,是一个用于高效学习单词表示和句子分类的库。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~