Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

TKDE21 | 网络社团发现新综述:从统计建模到深度学习

美国物理学会院士 Barabasi 教授在其 2012 年发表于 Nature Physics 的文章中指出:「21 世纪将是网络理论的世纪,它正在形成的理论和算法框架将成为许多研究与应用领域的新的驱动力。」

大量研究显示,复杂网络普遍具有一些显著的统计特性,比如小世界效应、无标度分布、网络弹性等。尤其是,Girvan 和 Newman 发现了复杂网络的另一个重要统计特性——社团结构,即网络通常会由一些稠密相连的结点簇组成。自此,学术界掀起了对复杂网络社团结构的研究热潮。


本文是来自天津大学图机器学习数据挖掘团队,联合莫纳什大学、麦考瑞大学,以及圣路易斯华盛顿大学 AI 权威 Weixiong Zhang 教授、UIC 数据挖掘权威 Philip S. Yu 教授等对网络社团发现领域的最新综述,首次以「从统计建模到深度学习」的新视角,为现代网络数据社团发现领域描绘出一幅宏伟而全面的蓝图。


论文链接:https://ieeexplore.ieee.org/document/9511798

1. 内容简介

社团检测(community detection)是网络分析的基本任务,旨在将网络划分为多个子结构以帮助揭示其潜在功能,被广泛用于推荐、异常检测、恐怖组织识别等领域。经典的社团检测方法通常利用概率图模型,采用各种先验知识来推断社团结构。随着网络方法试图解决的问题以及要分析的网络数据变得越来越复杂,研究者们提出了新的社团检测方法,特别是利用深度学习将网络数据转换为低维表征的方法。尽管这些方法促进了社团检测的发展,但目前仍然缺乏对社团检测理论和方法基础的系统回顾。因此,我们提出了一个统一架构来概述社团检测领域的最新发展。我们首先全面回顾了现有的社团检测方法,并介绍了一种新的分类法,该分类法将现有方法分为两类:概率图模型深度学习。其次,我们讨论了两类方法的主要思想,并针对不同方法进行了详细概述。此外,我们还发布了一些社团检测领域常用的基准数据集,重点介绍了社团检测在各种网络分析任务中的应用。最后,我们讨论了社团检测面临的挑战,并对未来可能的研究方向提出了建议。 

图 1. 社团检测方法的分类细目 

2. 基于概率图模型社团检测方法

基于概率图模型的方法通常采用启发式或元启发式的方法(网络建模)来检测网络社团。依据概率图模型的类型,我们将社团检测方法细分为三类:有向图模型、无向图模型以及整合有向图和无向图的混合图模型。

2.1 有向图模型

有向图模型主要基于隐变量(样本中未观察到的变量),利用结点或块结构的相似性来生成网络中的边。依据网络建模方法的不同,有向图模型可以分为三类:随机块模型、主题模型矩阵分解。它们具有扎实的理论基础和较好的性能,得到了广泛应用。

2.1.1 随机块模型

随机块模型(SBM)是一种有效的网络块结构生成模型,其首次将统计建模应用到社团检测。SBM 使用结点隶属似然函数将网络中的结点概率性地分配给不同的社团(块结构),通过推理似然函数来迭代推断结点隶属关系,推导出网络中的隐藏社团。虽然已经提出了多种 SBM 变体,但它们的核心生成过程是类似的。生成过程可以分为两步:1)迭代地为网络中的每个结点分配一个社团;2)计算或更新连接两个结点的边的概率。

表 1. 基于 SBM 的社团检测方法 

2.1.2 主题模型

主题模型(如 LDA)是一种能够有效建模文本中隐藏主题的统计模型,通过使用潜在变量对主题进行建模。基于 LDA 的社团检测方法可以分为两类:一类将网络结构建模为文档;另一类对网络属性进行建模以检测社团。将网络结构建模为文档的方法首先假设网络中的每个结点可能属于多个社团,并将社团视为“主题”,将结点视为“文档”;其次,选择几个社团作为初始社团,根据网络拓扑结构对社团进行迭代更新,得到最终的社团划分;使用网络属性的方法主要利用社交网络的属性,例如用户兴趣,来发现社团。

2.1.3 矩阵分解

非负矩阵分解(NMF)既能使处理的数据的维度得到非线性的约减,还能使分解后的所有分量均为非负值。基于 NMF 的方法首先得到网络中结点高质量和低维的特征,然后基于这些新特征对结点进行聚类,从而发现高质量的社团结构。我们将基于 NMF 的方法分为五大类:基本 NMF、重叠 NMF、属性 NMF、动态 NMF 以及半监督 NMF。

表 2. 基于 NMF 的社团检测方法 

2.2 无向图模型

无向图模型基于场结构(如马尔可夫随机场 MRF),使用一元和二元势能的约束(如相邻结点间社团标签的一致性)来发现社团。基于无向图模型的方法可以分为三类:拓扑 MRF、拓扑和属性结合的 MRF 以及 MRF 和神经网络(GNN)整合的方法。

表 3. 基于 MRF 的社团检测方法 

2.3 有向图和无向图整合的模型

混合图模型通常将有向图和无向图模型转换为统一的因子图(factor graph)来进行社团检测。虽然这些方法在一定程度上提升了社团检测的性能,但它们采用变分推断马尔可夫链蒙特卡罗(MCMC)采样对模型进行优化,这不可避免地带来过高的计算复杂度。深度学习能够有效的对高维网络数据进行优化,逐渐被应用于社团检测

3. 基于深度学习社团检测方法

基于深度学习的方法旨在学习一种面向社团的网络表征来识别社团结构。它们利用一些学习策略将网络数据从原始输入空间映射到低维特征空间来推导网络表征,具有低计算复杂度、高并行化等优点。依据学习策略的不同,基于深度学习的方法主要分为四类:基于自动编码器的方法、基于生成对抗网络的方法、基于图卷积网络的方法以及图卷积网络和无向图模型整合的方法。

3.1 基于自动编码器的方法

自动编码器(AE)是一种简单但重要的神经网络模型,通过使用编码器和解码器以无监督的方式(最小化原始输入和重构数据之间的误差)学习最佳的网络表征。依据使用的 AE 类型,社团检测方法可以分为四类:堆叠 AE、稀疏 AE、降噪 AE 及变分 AE。

表 4. 基于 AE 的社团检测方法 

3.2 基于生成对抗网络的方法

生成对抗网络( GAN )具有强大的网络数据分析能力,其通常是无监督的,生成的新数据理论上与真实数据拥有相同的分布。基于 GAN 的方法主要采用对抗学习的思想,通过生成器和判别器之间的对抗博弈来检测社团。

3.3 基于图卷积网络的方法

图卷积神经网络(GCN)通过聚合结点的邻域信息来从全局上捕获用于社团检测的结点表征。基于 GCN 的方法分为两类:监督 / 半监督 GCN 以及无监督 GCN。

3.4 图卷积和无向图模型整合的方法

图卷积和无向图模型整合的方法通过利用这两类模型的优势来检测社团。考虑到 GCN 本质上是通过局部特征平滑来构建结点表征,但其没有考虑社团属性,使得结点表征不是以社团为中心的;无向图模型通常定义全局目标来描述社团,但其没有考虑结点信息,并且需要大量计算来学习模型参数。因此,GCN 和无向图模型是互补的,可以将二者结合起来以更好的进行社团检测

4. 社团检测的应用

我们首先讨论了社团检测常用的数据集,接着介绍了社团检测的应用。

4.1 数据集

我们收集整理了两类用于社团检测的数据集,包括:人工合成数据集(如 Girvan-Newman),以及真实数据集(如社交网络、引用网络以及合作者网络等)。

表 5. 真实数据集  

4.2 实际应用

社团检测已被广泛应用于各种各样的领域和任务,例如:

1)在线社交网络:Facebook、Twitter 和微信等在线社交网络揭示了在线用户之间相似的兴趣。基于在线社会行为的社团检测能够有效推断用户之间的关系及用户偏好,被用于垃圾邮件发送者检测、危机响应等任务。
2)神经科学神经科学是研究神经系统和大脑的学科。随着大脑映射和神经成像技术的最新发展,大脑也开始被建模为网络。基于大脑网络的社团检测能够帮助识别大脑中起作用或存在病理的功能部分。
3)图像理解:基于社团检测的图像理解通过引入社团来生成更好的图像语义描述。
4)推荐:推荐通常是根据用户购买或浏览历史记录中的信息来建立用户兴趣档案,进而向用户推荐类似物品来解决用户信息过载问题。引入社团概念的社团发现通过有效检测结点之间的关系来产生高质量的推荐结果。
5)链接预测:链接预测通过分析观察到的网络结构和外部信息来处理缺失的连接并预测未来可能的连接。引入社团概念的链接预测通过设计社团特定的相似度矩阵来分析预测结点间链接的概率。

5. 未来研究方向

虽然概率图模型深度学习促进了社团检测领域的发展,但目前仍然存在一些有待解决的问题:

    1)更大规模的网络:随着网络数据规模的迅速增加,更大规模的网络逐渐成为不同科学领域的标准。这些网络通常具有数百万或数十亿的结点和边,以及更复杂的结构模式。大多数现有的社团检测方法可能需要大量的训练实例或模型参数,或是通过网络缩减或近似的方式来处理这些网络,但是不可避免的会丢失一些重要的网络信息并影响建模精度。因此,如何针对更大规模的网络,设计一个在准确性和效率方面都超过当前基准的框架是亟需解决的问题。
    2)社团的可解释性:大多数现有的社团检测方法通常利用结果中排名靠前的词或短语来解释社团,但是由于词的数量少以及词之间的关系不明确,这些方法通常不能很直观的理解社团语义。因此,如何充分利用网络信息为社团提供更好的语义解释也是未来的研究方向之一。
    3)自适应的社团模型选择:自适应模型旨在根据不同网络的特性(如异构或动态)或不同任务的特定要求(如最高准确度或最低时间复杂度)选择最合适的算法来检测社团。虽然现有方法在一定程度上可以从一种网络或任务扩展到另一种网络或任务(不可避免地会影响模型的准确性和稳定性),但是很少有方法考虑模型的自适应。因此,如何在保持模型的准确性和稳定性的情况下,设计一个可以自适应特定任务或网络的统一架构,是具有挑战但非常值得的。
    4)更复杂的网络结构:真实世界中的网络可能是异构的、动态的、分层的或者不完全的。因此,如何设计新的社团检测方法,更好的提升模型在不同类型网络上的社团检测,也是重要的研究方向。
    5)概率图模型深度学习的整合:虽然目前已经提出了一些将概率图模型深度学习相结合的方法,但其仍然是一个新兴的研究区域。现实世界中的网络社团模式通常是多样的,如异质性或随机性的社团结构,如何利用概率图模型深度学习的优势,设计新的鲁棒方法,更准确地检测网络中的社团结构。此外,如何设计新的整合算法,以促进概率图模型以及深度学习在其他领域的应用,如推荐或医学诊断等,也是重要研究方向之一。

6. 总结

我们提出了一个统一架构来综述现有的社团检测方法。我们首先介绍了社团检测问题,并引入了一个新的分类法,从学习的角度将现有方法分为两类:概率图模型深度学习。其次,我们对这两类方法进行了详细的分析和比较。我们还介绍了社团检测在各个任务和领域的广泛应用,并讨论了社团检测未来可能的研究方向。
理论深度学习概率图模型社团检测天津大学
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

变分推断技术

see Variational Bayesian methods (approximation)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

时间复杂度技术

在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。例如,如果一个算法对于任何大小为 n (必须比 n0 大)的输入,它至多需要 5n3 + 3n 的时间运行完毕,那么它的渐近时间复杂度是 O(n3)。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

非负矩阵分解技术

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

马尔可夫随机场技术

具有马尔可夫性质的随机场。 随机场:当给每一个位置(site)按照某种分布随机赋予相空间(phase space)的一个值之后,其全体就叫做随机场

似然函数技术

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“ 似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

马尔可夫链技术

马尔可夫链,又称离散时间马尔可夫链,因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

社团检测技术

社团检测通常是指将网络中联系紧密的部分找出来,这些部分就称之为社团,那么也可以认为社团内部联系稠密,而社团之间联系稀疏 。显而易见,其中有一个非常重要的点是稠密是如何定义的。不管现在想到的定义是什么,但都包含顶点,边,度,或许还有路径这些字眼,它们有一个共同的特征–网络的结构。所以,社团检测侧重于找到网络中联系紧密的部分,而经常忽略节点的属性(attributes)。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~