Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陈卫作者

如何从计算视角研究网络传播影响力最大化问题?

编者按:在 2020 IEEE Fellow 评选中,微软亚洲研究院高级研究员陈卫因在社交网络影响力最大化算法研究方面的贡献成功入选。在这篇文章中,陈卫为我们细致地梳理了计算机科学视角中的影响力最大化问题,包括影响力传播的建模、算法优化、多种变体问题以及现实应用。你也可以在陈卫刚刚出版的新书《大数据网络传播模型和算法》中深入了解他对这一研究领域进行的详尽概总结和论述。文末有福利哦~

假设你要在中关村区域开一个餐馆,你准备了100张免费餐券打算发给顾客。怎样利用这100张免费餐券获得最大化的新店推广效果呢?你希望这100位顾客在用餐后,不仅自己会喜欢这个餐馆,还会向更多人推荐,为餐馆引来更多的客流。那么这100张免费餐券,应该赠送给谁呢?
插图由陈奕陶创作那些对餐馆的目标消费者具有影响力、能带来巨大传播效应的社交网络意见领袖(key opinion leader)将是非常好的选择。你可以通过社交网络用户行为分析,或者借助一些营销分析平台的相关服务,一定程度上筛选出100位合适的推广用户,与他们进行沟通合作,为你的餐馆完成一次病毒式营销(viral marketing),来成功打入竞争激烈的餐饮市场。

这仅仅是社交网络影响力最大化问题在现实世界中的广泛应用的一隅。

任何社会性动物在个体与个体、群体与个体之间都存在着相互影响关系。人类作为具有复杂交流手段的高级社会性动物,人际和社会影响力在我们的社会生活中更是无处不在。小到听一首歌曲、看一部电影、读一部新书、选一个餐馆,大到买一处房产、选择职业方向、选择生活城市、确定我们的政治观点等,我们的各种选择和决定常常受我们的家人、同事、朋友以及更广泛的大众倾向的影响。

深入认识影响力的产生和传播模式有助于我们理解人类群体和个体的行为,从而能够对人们的行为作出预测,为政府、机构、企业等各部门的决策提供可靠的依据和建议。比如企业在做新产品推广时,可以利用对用户影响力及其传播的了解选择有影响力的用户和传播渠道帮助产品推广,公益机构可以通过影响力传播推动公益事业的发展,比如增强全民健康意识,推动扶助贫困地区等。影响力传播建模和影响力最大化的研究就是基于这一背景,利用数学、算法和博弈论等工具对影响力传播及其优化问题进行的研究。

广义的影响力传播研究可以涉及社会学、心理学、经济学、复杂网络、计算机科学等多个方面,而各方面研究的侧重点有所不同。在此我们重点介绍由计算机科学出发对影响力传播的研究,包括影响力传播建模、影响力传播优化和影响力传播学习推断等方面。

计算视角下的社交网络
影响力最大化问题

回顾文章开头的社交网络营销传播的例子,计算机科学中研究的社交网络影响力最大化问题就是将这些案例抽象整理后得到的一个网络优化问题。

它最初由 Kempe、Kleinberg 和 Tardos 在2003年的数据挖掘会议 KDD 上给出了完整的优化形式刻画及一系列的研究结果[1]。它的基本形式一般如下表述:首先,我们将一个社交网络建模为一个有向图 G=(V,E),其中 V 表示结点集合,E 表示有向边的集合。图 G 中的每个结点(vertex 或 node)代表社交网络中的一个个体或一个用户,而 G 中的每一条边代表它所连结的两个个体的影响关系。边是带方向的,从结点 u 指向结点 v 的有向边 (u,v) 表示个体 u 可以对个体 v 施加影响。施加影响力的强弱由模型给出的参数决定。比如在最基本也是研究最广泛的独立级联模型(independent cascade model)中,每个有向边 (u,v) 上带了一个影响概率参数 p(u,v),表示 u 影响 v 的成功概率。独立级联模型的动态传播发生在离散时刻点 t=0,1,2,…:在0时刻,若干结点被选为种子结点(seed node)并被激活,这就相当于前面例子中被选中给予免费餐券的顾客;在时刻 t≥1,如果一个结点 u 在时刻 t-1 被激活,那么 u 会沿着每一条出边 (u,v) 尝试一次激活 v(如果 v 还没有被激活),而其成功激活 v 的概率就是该有向边的影响概率 p(u,v)。每条边最多尝试一次影响力传播,且不同尝试之间相互独立。如果一个结点被激活,就一直保持活跃状态。这个传播过程直到某一时刻没有新的结点被激活为止。

这样的随机传播模型(stochastic diffusion model)中很重要的一个度量参数就是影响力扩展度(influence spread),被定义为给定种子集合 S 时传播最终激活结点个数的期望值,记为 σ(S)。在餐馆的例子中,S 为选定的100个接受免费餐券的“种子”顾客集合,σ(S) 就代表由于这些种子顾客在社交网络中的影响力传播所带来的餐馆顾客数,即客流的期望值。影响力最大化问题就是在给定的预算条件 k 下,选择网络中的 k 个结点,使得这 k 个结点的影响力扩展度最大。在餐馆的例子中,就是要找到100个种子顾客使其带来的客流量最大。

上面给出了影响力最大化的基本定义以及在社交网络病毒式营销中的例子。影响力最大化当然还有很多变种,其应用也包括更广泛的领域。下面我们先简要介绍一下解决影响力最大化问题涉及的一些主要技术。

影响力最大化问题涉及哪些技术?

首先,影响力最大化是个典型的随机优化问题:输入包括有向图 G 及其上决定动态传播的参数,要求找到一个集合使得传播的随机动态过程的影响力扩展度最大。对于独立级联模型等基本的传播模型,容易论证影响力最大化属于优化问题中常见的难解问题,被称为 NP-难(NP-hard)的问题,就是说无法找到有效的算法得到问题的最优解。那么解决影响力最大化问题,现在主要依靠寻求近似解的方法,也即设计问题的近似算法。这就需要用到近似算法设计中一个十分重要的技术——次模函数最大化(submodular function maximization)及其贪心算法(greedy algorithm)。

在独立级联模型以及很多类似的传播模型中,我们能够论证影响力扩展度函数 σ(S) 满足如下的次模性质:对于任何一个种子集合 S 和包含 S 的一个更大的种子集合T(S⊂T),如果在 T 之外再找一个种子 u,则总能满足 u 在 T 之上的边际影响力总小于或等于 u 在 S 之上的边际影响力,即 σ(T∪{u})-σ(T)≤σ(S∪{u})-σ(S)。次模性表达了在经济学中常会提到的边际效用递减的性质:一个个体在更大群体之上的边际效用或边际影响力,小于该个体在较小群体之上的边际效用或边际影响力。这种边际效用递减的特性在网络传播中也可以直观理解,虽然并不是所有的传播模型都满足次模性。当传播过程满足次模性和另外一个简单的单调性(种子集合越大,影响力扩展度越大)时,我们就可以使用经典的贪心算法:如果要找到 k 个种子结点,那么我们进行 k 轮,每轮找到一个种子结点,满足第 i 轮找到的种子结点 u_i 是在前面 i-1 轮找到的种子集合 {u_1,…,u_(i-1)} 之上的边际影响力最大的结点。这样的贪心算法找到的种子集合 {u_1,…,u_k} 可以保证是所能找到的最优解的 1-1/e≈0.63 近似,意思是 {u_1,…,u_k} 的影响力扩展度至少是最优解的影响力扩展度的63%。

大多数的影响力最大化研究都基于上面的次模函数最大化和贪心算法。但这只是一个基础框架,要解决影响力最大化问题,还需要在深度和广度方面都进行很大的拓展,所以从2003年的第一篇经典论文至今,影响力最大化的研究一直在深度和广度方面不断拓展,至今仍很活跃。下面我们介绍几个主要的研究方向和成果。

首先,将上面的贪心算法运用到影响力最大化,要面对的第一个问题是计算一个给定集合 S 的影响力扩展度 σ(S)。由于影响力传播是随机动态过程,要得到影响力扩展度的精确解并不容易。事实上,笔者与合作者指出这一计算即使在基本的独立级联模型上也属于一类难解问题[2]。绕过这一难解性的最初方法是直接模拟模型的传播过程很多次,得到每次的传播结果后再取平均数作为近似。这一随机模拟近似过程被称作蒙特卡洛模拟(Monte Carlo simulation)。但是蒙特卡洛模拟要达到合理的效果需要对贪心算法中涉及到的每一个种子集合各自做上万次模拟。这导致整体贪心算法的效率十分低下,在上万个结点的图中也要跑几天才能完成。针对这一问题,一系列研究提出了解决可扩展的影响力最大化(scalable influence maximization)的各种方法。到目前为止,基于反向影响力采样思想[3]的算法能够同时满足理论保证并在实际的大规模网络中高效地实现,其一系列改进和优化算法已经成为实现可扩展影响力最大化的主流算法。

影响力最大化问题的多种形式

社交网络病毒式营销是一种影响力最大化的基本形式,但针对网络传播的不同场景,还可以定义不同形式的影响力最大化问题,从而扩展它的应用领域。

比如,仍然是餐馆推广的例子,如果同时还有另外一家或多家餐馆也在网络上作推广,那么这在网络传播中就形成了竞争性传播的例子。餐馆就需要考虑在其它竞争性实体也在网络中传播时,如何合理选择种子顾客以增加自己餐馆的影响力。这就是竞争环境下的影响力最大化问题。我们可以给出一个竞争环境下的传播模型,如竞争性独立级联模型,并研究该模型下的竞争性影响力最大化问题,设计对应的高效算法(参见[4]中的4.2节)。

在竞争性传播中,竞争的一方追求的并不一定是扩大自己的影响力,也可能是希望限制对方的传播。比如当有不利于餐馆经营的谣言在网上开始传播,餐馆会希望尽快找到一些网络上的种子结点发布和传播正面的辟谣的信息,以阻断谣言的传播。这就可以用影响力阻断最大化的模型来研究实现[5]。限制谣言的传播有很重要的现实意义。比如在新冠肺炎疫情的传播过程中,社交网络中不断混杂着各种谣言的传播,容易造成大众的过度恐慌情绪等负面的社会影响。网络平台就需要及时发布正确信息,并找到合适的传播渠道使得正面信息的传播能及时阻断谣言的传播。

网络中的多实体传播除了竞争性传播,也可以是互补互助的影响力传播。比如餐馆店主又开了一个咖啡厅,他可以将咖啡厅和餐馆的优惠相结合,使得咖啡厅的顾客也更想光顾他的餐馆。那么关于咖啡厅和餐馆的优惠信息的传播,就是互补互助的信息传播,这也可以用互补互助影响力传播模型来建模,并研究互补情形下的影响力最大化[6]。

影响力最大化的研究依赖于传播模型的建模和模型参数的获取。这需要在实际网络中获取大规模的传播数据并加以分析,得出结点间影响力传播的强弱程度分析,比如说分析出独立级联模型中边上的影响力概率 p(u,v)。这类传播模型的分析也是网络数据挖掘的一个重要方面。对于影响力最大化来说,围绕传播数据的分析也会产生不同的研究课题,比如省略建模过程直接从数据到优化的基于数据的影响力最大化问题[7],容忍数据分析结果不准确的鲁棒影响力最大化问题[8,9]等。另外,我们还可以考虑边学习边优化的迭代过程,即利用从种子选取、到实施传播、观察传播结果、修正传播模型参数、再次种子选取的多步迭代过程以达到最好的影响力最大化效果,这被称为在线影响力最大化(online influence maximization)问题。这属于组合在线学习(combinatorial online learning)的范畴,其研究也推动了组合在线学习研究的深入和拓展[10]。

影响力最大化的研究还有很多其它方面,比如利润最大化、种子集合最小化、自适应影响力最大化、基于影响力的网络中心性、非次模模型的影响力最大化等等,在此不再一一介绍。感兴趣的读者可参考笔者合著的专著[4]及其它综述文章[11,12]等。

另外,笔者详尽总结这一研究领域的专著《大数据网络传播模型和算法》也在近期刚刚出版[13]。

影响力最大化的研究已在多种应用场景中付诸实现。比如 Shakarian 等人将影响力最大化应用于芝加哥警察局挑选暴力团伙成员参加学习劝导班,使其影响其他团伙成员远离暴力犯罪[14],Yadav、Wilder 等人将影响力最大化应用于在无家可归人士中有效传播对艾滋病的认知[15,16]。

但总体来讲,影响力最大化的研究和应用还有不少挑战。比如大规模的影响力传播数据的获取和共享,传播模型和传播分析的准确性,基于因果关系的影响力传播与基于相关性的网络同质性(homophily)的区别和联系,大规模网络传播的实验验证,影响力最大化对隐私和公平性的影响等等。这些方面还需要研究者进行更广泛深入的研究以及和业界实践者进行更密切的交流合作。相信随着大数据技术的发展和影响力传播研究的深入,影响力传播研究会有更广泛的应用前景。


参考文献

[1] Kempe D, Kleinberg J M, and Tardos É. Maximizing thespread of influence through a social network. In Proceedings of the 9thACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD), Washington D C, USA, Aug 2003:137~146. 完整期刊版发表于 Theory of Computing, 2015(11.4): 105~147

[2] Wang C, Chen W, and Wang Y. Scalable influencemaximization for independent cascade model in large-scale social networks. DataMining and Knowledge Discovery, 2012(25.3):545~576

[3] Borgs C, Brautbar M, Chayes J, and Lucier B. Maximizingsocial influence in nearly optimal time. In Proceedings of the 25thACM-SIAMSymposium on Discrete Algorithms (SODA), Portland, USA, Jan 2014:946~957

[4] Chen W, Lakshmanan L V S, and Castillo C. Information andInfluence Propagation in Social Networks, Morgan & Claypool Publishers,2013

[5] He X, Song G, Chen W, and Jiang Q. Influence blockingmaximization in social networks under the competitive linear threshold Model. InProceedings of SIAM International Conference on Data Mining (SDM), Anaheim,USA, Apr 2012:463~474

[6] Lu W, Chen W, and Lakshmanan L V S. From competition tocomplementarity: Comparative influence diffusion and maximization. InProceedings of the 42nd International Conference on Very Large DataBases (VLDB), New Delhi, India, Sep 2016

[7] Goyal A, Bonchi F, and Lakshmanan L V S.A data-based approach to social influence maximization. PVLDB, 2011(5.1):73~84

[8] Chen W, Lin T, Tan Z, Zhao M, and Zhou X. Robustinfluence maximization. In Proceedings of the 22nd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining (KDD), SanFrancisco, USA, Aug 2016

[9] He X and Kempe D. Robust influence maximization. InProceedings of the 22nd ACM SIGKDD International Conference onKnowledge Discovery and Data Mining (KDD), San Francisco, USA, Aug 2016

[10] Chen W, Wang Y, Yuan Y, and Wang Q. Combinatorialmulti-armed bandit and its extension to probabilistically triggered arms.Journal of Machine Learning Research, 2016(17.50):1~33

[11] 陈卫(Chen W). 社交网络影响力传播研究. 大数据 (Big DataResearch) , Oct 2015(1)

[12] Li Y, Fan J, Wang Y, and Tan K-L.Influence maximization on social graphs:A survey. IEEE Transactions on Knowledge and DataEngineering, 2018(30.10):1852~1872

[13] 陈卫(Chen W). 大数据网络传播模型和算法. 中国邮电出版社,2020

[14] Shakarian P, Salmento J, Pulleyblank W and Bertetto J.Reducing gang violence through network influence based targeting of socialprograms. In Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining (KDD), New York City, USA, Aug2014:1829~1836

[15] Yadav A, Wilder B, Rice E, Petering R, Craddock J,Yoshioka-Maxwell A, Hemler M, Onasch-Vera L, Tambe M, and Woo D. Influencemaximization in the field: The arduous journey from emerging to deployedapplication. In Proceedings of the 16th Conference on AutonomousAgents and Multiagent Systems (AAMAS), São Paulo, Brazil, May 2017

[16] Wilder B, Onasch-Vera L, Hudson J, Luna J, Wilson N,Petering R, Woo D, Tambe M, and Rice E. End-to-end influence maximization inthe field. In Proceedings of the 17th International Conference onAutonomous Agents and Multiagent Systems (AAMAS), Stockholm, Sweden, Jul 2018

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论影响力传播社交网络
1
相关数据
随机优化技术

随机优化(SO)方法是生成和使用随机变量的优化方法。 对于随机问题,随机变量出现在优化问题本身的表述中,其涉及随机目标函数或随机约束。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

随机模拟技术

随机模拟也称蒙特卡罗法或统计试验法,这种计算方法以概率与统计理论为基础,由威勒蒙和冯纽曼在20世纪40年代为研制核武器而首先提出,在此之前,作为该方法的基本思想,实际上早就被统计学家发现和利用。随机模拟是指在分析一个系统时,可先构造一个与该系统相似的模型,通过在模型上进行实验来研究原模型,这就是模拟。随机系统可以用概率模型来描述并进行实验,称为随机模拟方法。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

贪心算法技术

贪心法,又称贪心算法、贪婪算法、或称贪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

暂无评论
暂无评论~