Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

SIGIR 2021 | 快手联合清华提出基于图神经网络的序列推荐新方法

来自清华大学未来智能实验室联合快手社科推荐模型组的研究者提出了一种基于图神经网络的序列推荐框架 SURGE,大大降低了建模用户兴趣的难度。

序列推荐旨在利用用户的历史行为序列来预测用户的下一次交互,此类方法已被现代在线信息流系统(例如新闻,视频,广告等)广泛采用。但用户长期历史行为中普遍存在隐式和嘈杂的偏好信号,这无疑会降低用户真实兴趣的建模效果。为解决该挑战,清华大学未来智能实验室联合快手社科推荐模型组提出了一种基于图神经网络的序列推荐框架 SURGE。通过图神经网络技术对行为信号进行传播与池化,动态地融合并提取用户当前激活的核心兴趣。

该模型不仅较现有方法取得了不俗的性能提升,其优势更在于训练时的收敛过程更加稳定快速,并且对超长序列的建模更加鲁棒,而且可以给现有的序列推荐模型(DIN, DIEN)带来增益。这为处理序列推荐问题提供了一种新的视角。该研究的论文已被 SIGIR 2021 接收。

论文地址: https://arxiv.org/abs/2106.14226

研究背景与动机

在现实生活中,用户的行为前后都存在极强的关联性甚至因果性。与传统的推荐任务以静态方式对用户的偏好进行建模不同,序列推荐能够捕获用户在发展过程中的动态偏好。例如,用户可能在一段时间内对各种运动产生兴趣,而在另一时间内需要书籍。用户的当前偏好可以从时间顺序的用户 - 物品隐式反馈中推断出来。序列推荐系统不仅可以更好地捕捉用户的广义兴趣来提高用户体验,还可以准确地预测用户当前的兴趣以增强他们下一时刻的交互意愿。

现有的工作已经意识到建模用户快速变化偏好的重要性。早期的方案采用人为设计的规则(FPMC)或注意力机制(DIN),为历史交互物品分配时间衰减或重要性权重,但这难以学习用户兴趣的演化模式。随后,利用循环神经网络(GRU4REC,DIEN)或卷积神经网络(Caser)来总结行为序列的方法逐渐成为主流。但由于难以对长范围依赖(Long-range Dependency)进行建模,它们在学习用户的动态兴趣方面遇到了短期瓶颈。最近的解决方案(PLASTIC,SLi-Rec)联合建模长短期兴趣(Long and Short-term Interest)以避免长期兴趣的遗忘,但长期和短期兴趣的划分与整合仍然具有挑战性。简而言之,现有方法通常更多地集中于建模用户的近期行为,无法充分挖掘用户较旧的行为序列以准确估计其当前兴趣。

因此,该研究认为序列推荐问题中存在两个尚未得到很好解决的挑战:1)长序列的用户行为反映了隐式和嘈杂的偏好信号:与可以推断用户喜好(例如点赞和收藏)的显式反馈不同,单个隐式(例如点击和观看)反馈无法反映用户的偏好。一些无用记录会作为用户行为历史中的噪声,影响其真实兴趣的建模。2)用户兴趣是多样的,其当前兴趣总是在不断转移:给定一个时间点,某些偏好可能仍被激活,而另一些偏好可能已被停用。用户的不同偏好随时间被动态激活,其模式在隐式和嘈杂的序列中更加难以挖掘。

方法介绍

针对这些挑战,该研究提出了一种基于图神经网络的序列化推荐算法 -- SURGE(SeqUential Recommendation with Graph neural nEtworks),该方法利用图卷积传播以融合隐式偏好信号,然后利用动态图池化来提取偏好的动态模式。通过将冗长的交互序列压缩为较短的兴趣序列,SURGE 模型从一种新的角度处理序列推荐问题。

具体来说,该方法主要分为四个部分:A.兴趣图构造,B. 兴趣融合图卷积层,C. 兴趣提取图池化层,D. 预测层。

图 1:SURGE 模型的结构框图

A.兴趣图构造

研究者首先基于度量学习(Metric Learning)将用户交互序列重构为物品 - 物品兴趣图,从而将长期用户行为中的不同类型的偏好整合到图的不同簇。通过将每个用户的交互历史表示为图,有助于区分用户的核心兴趣和边缘兴趣。核心兴趣节点由于连接更多相似兴趣而具有比边缘兴趣节点更高的度数,并且相似兴趣的频率越高导致子图结构越致密。这样就构建了一个先验框架:即邻居节点相似,致密子图是用户的核心兴趣。

由于模型需要一个邻居节点相似的先验图,因此可以将图学习问题转化为节点相似度度量学习,与下游推荐任务联合训练。为了平衡表达力和复杂度,该研究采用加权余弦相似度作为度量函数。但简单地对节点之间的度量值进行归一化不会对图的稀疏性施加任何约束,完全连接的邻接矩阵在计算上是昂贵的并且可能会引入噪声(即不重要的边)。研究者提出整个图上的相对排序策略(Relative Ranking Strategy of the Entire Graph)能够很好地保留图的致密 - 稀疏分布,以使后续的图卷积专注于图的最相关部分。

B.兴趣融合图卷积层

接着为了区分并编码丰富的历史行为中不同类型的偏好,该研究在能够显式区分用户各类核心兴趣的构造图上,设计了一种带有注意力机制的图卷积传播策略。研究者认为这一特殊的传播策略,通过同时感知簇结构(Cluster)与查询目标(Query),可以很好地将隐式反馈的弱信号聚合为可以反映用户偏好的强信号。

其中,簇感知注意力(Cluster-aware Attention)用于判断目标节点是否为用户的核心兴趣:通过假设目标节点的邻域将形成一个簇,来识别目标节点是否为簇的中心,即用户的核心兴趣。而源节点的查询感知注意力(Query-aware Attention)用于捕获与预测目标的相关程度;为了学习用户兴趣对于不同目标兴趣的独立演化,模型旨在保留与目标兴趣相关的信息,不相关的信息在聚合时便被丢弃。

C.兴趣提取图池化

下一步,考虑到用户在不同时刻的不同偏好,研究者提出了一种动态图池化技术,来自适应地保留激活的偏好以捕获偏好的动态模式。类似于 CNN 中池化(Pooling)是对特征图的下采样,图池化(Graph Pooling)旨在合理地缩小图的大小。研究者认为,通过将松散的大图池化为紧凑的小图,可以提取用户主要的兴趣并保留兴趣分布,从而有效地缩短冗长嵌入序列。

为了获得池化图,一个可学习的簇分配矩阵(Assignment Matrix)是必要的。然而,非凸优化问题使其在早期训练阶段很容易陷入局部最优,并且反映用户兴趣的簇之间的时间顺序很难在分配过程中得到保证。该研究通过相同映射(Same Mapping)、单一从属(Single Affiliation)和相对位置(Relative Position )三种正则化技术对簇分配矩阵进行约束来有效地缓解上述问题。

D.预测层

最后,该研究将池化后的图转化为能够反映用户显式和被激活的兴趣序列,并进一步对增强兴趣信号的演化进行建模以预测用户的下一次交互。具体来说,得益于相对位置正则,池化后的簇嵌入矩阵保持了用户兴趣的时间顺序,这相当于将池化后的图展平为具有增强兴趣信号的缩减序列。

为了给兴趣的最终表征提供更多相对历史信息,需要考虑兴趣之间的时间顺序关系。直观地,这里可以采用任何已知的序列推荐模块来对压缩后的兴趣序列进行建模。该研究采用了带有注意力更新门的 GRU(AUGRU),其中注意力权重为图池化兴趣提取层中获得的各个簇的重要性得分。它可以更有效地避免兴趣漂移带来的干扰,推动相对兴趣平滑演化。

实验结果

为了证明提出的 SURGE 模型的有效性,研究者在最大序列长度分别为 50 和 250 的淘宝电商数据集和快手短视频数据集上进行了实验。采用两个准确性指标 AUC 和 GAUC,以及两个排名指标 MRR 和 NDCG 进行评估。并与若干主流的序列化推荐器和最近兴起的长短期联合建模方法进行了比较,所有模型共享相同的预测和损失函数设计,以排除其他因素的干扰。

表 1. 整体实验结果

从表 1 可以看出,与几种最先进的方法相比,无论是分类指标还是排名指标,该研究提出的 SURGE 模型都具有不俗的性能提升。其中,在具有较长交互历史的快手数据集上,改进更加明显,这说明利用图神经网络总结序列的策略对于处理长序列具有重大意义,显著降低了建模用户兴趣的难度。

此外,主流的序列化推荐算法虽然有效,但在具有更长历史序列的数据集上会因短期记忆瓶颈的存在而遗忘长期兴趣。而最近兴起的长短期兴趣的联合建模并不总能带来更好的性能,尤其是在包含更多噪声的历史序列中,判断用户下一次交互是受长期还是短期兴趣驱使则更加困难。这些现象进一步验证了压缩用户历史兴趣信息的动机是合理的。

图 2:序列长度分组实验结果

为了进一步探究所提出的方法是否在处理长序列方面具备足够的优越性,研究者首先将用户分组,并在不同的序列长度组下测试并对比各个模型的性能,结果如图 2 所示。当序列长度较短时,所有模型由于数据稀疏性难以捕捉用户的真实兴趣。随着序列长度的增加和建模难度的降低,大多数模型的性能都会提高并达到顶峰。但是随着长度继续增加,几乎所有模型的性能会随着大量噪声信号的引入而下降。这一现象表明,尽管较长的历史序列通常具有更多可反映用户兴趣的模式,但伴随增加的噪声信号将误导真实兴趣的建模。而 SURGE 模型和其他方法之间的性能差距会随着序列长度的增加而变大,这证实了 SURGE 模型可以更有效地建模用户的长期历史序列。

图 3:收敛过程可视化

表 3:收敛前的总训练时长(m 表示分钟)

对于序列推荐系统,高效地建模用户行为历史记录是一个很大的挑战。用户历史序列中物品的差异性和多样性导致模型收敛缓慢。此外,长历史序列往往对应着更复杂的计算和更耗时的训练。为了研究 SURGE 是否可以缓解此问题,该研究可视化了不同模型训练时的收敛过程,使用提前停止(Early Stop)来检测训练是否结束,对比了各个模型的收敛速度和训练时间。

图 3 和表 3 分别显示了模型的收敛过程和训练时长。实验发现,与所有基线相比,SURGE 的收敛过程更加稳定快速;除了快手数据集上 DIN 这个非序列模型外,其训练效率相较于其他方法提高了 20%以上。这是由于 SURGE 在将嵌入序列馈入到循环神经网络之前,对序列进行了压缩操作,大大减少了循环神经网络的循环步长。此外,研究者认为由于绝大多数噪声已被滤除,池化的序列只包含最核心的兴趣,这无疑有助于加快模型的收敛速度。

图 4:SURGE 在应用不同兴趣演化层时的性能比较   

最后,由于该框架与在对序列进行池化后的预测层的选择是无关的。该研究比较了在压缩后的序列上使用不同预测层的影响,来验证模型的泛化性。图 4 的结果显示该研究提出的模型可以为所有现有方法带来增益。这表明该框架将大大减少建模用户兴趣的难度并获得更好的性能。

该研究洞察了用户长期历史行为中存在隐式和嘈杂的偏好信号,并采用兴趣融合和提取的建模方式予以解决,这无疑为处理序列化推荐问题提供了一种新的思路。研究者透露,该方案已经在快手推荐的一些主要场景上线,目前能将观看时长提升约 1%。
理论清华快手图神经网络序列推荐
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

提前停止技术

在机器学习中,提前停止是一种正则化形式,用于在用迭代方法(例如梯度下降)训练学习器时避免过度拟合。 这种方法更新了学习器,使其更好地适合每次迭代的训练数据。 这提高了学习器在训练集之外的数据上的表现。 但是,提高学习器对训练数据的适应性是以增加的泛化误差为代价的。 提前停止规则提供了在学习器开始过度训练之前可以运行多少次迭代的指导。提前停止规则已经在许多不同的机器学习方法中使用,理论基础不尽相同。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

推荐文章
暂无评论
暂无评论~