Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型

来自快手和武汉大学的研究者通过结合多兴趣学习和多层级图卷积聚合提出了一种多粒度神经模型,显著增强了精确学习用户复杂行为的能力,对用户不同层级下多种兴趣的细粒度建模为序列推荐领域的前沿研究拓宽了方向。该研究已被今年的 SIGIR 会议录取为长论文。

随着大众获取信息方式的移动化和碎片化,短视频分享平台(如快手、抖音)逐渐成为人们生活中获取信息和休闲娱乐的重要渠道。不断突破记录的 DAU 一方面伴随着巨大的商业价值,另一方面也给千人千面的推荐算法带来巨大的挑战。

在快手单列的流式推荐场景下,用户观看视频的序列化行为对于建模用户动态兴趣有着至关重要的作用。序列推荐旨在根据用户的行为历史来识别用户偏好的下一个商品 / 视频,但是传统序列推荐方法往往使用单个向量表征用户的动态兴趣。由于用户的观看历史中的兴趣是多样的,因此仅建模用户单一的动态兴趣很难达到理想的推荐效果。如何同时准确地捕捉用户动态且多样的兴趣,是当前短视频流式推荐的痛点。

图 1 两个真实用户在电商和短视频场景的部分历史序列

具体来说,现有的序列推荐工作将用户的复杂偏好简单表征成一个单一的载体来集中建模用户偏好的序列模式,但不可避免地导致用户不同兴趣之间的歧义。比如在电商场景下,图 1(a) 这个用户的简短点击历史中有两个主要的兴趣:运动(Sports)和游戏(Games),显然用传统的单一向量同时表征两个兴趣是困难的。而图 1(b) 的短视频交互序列则反映了用户的兴趣是具有不同粒度的,卡通(Cartoon)这一粗粒度兴趣中还包含更细粒度的兴趣点,即如图 2 所示 IP 层面的《猫和老鼠》(Tom & Jerry)、《海绵宝宝》(SpongeBob Squarepants),这同样也是传统方法不容易学习到的。

图 2 用户粗粒度兴趣之间存在的兴趣重叠现象

为了解决上述问题,最近的努力主要遵循两个改进方向:多兴趣学习和图卷积聚合。一方面,像 ComiRec 和 MIMN 这样的多兴趣模型专注于通过执行历史商品聚类来为用户提取不同的兴趣。然而,所有这些多兴趣方法都将商品 / 视频作为最小兴趣建模单元,缺乏对复杂、动态和高阶用户行为进行建模的能力。例如,图 1(a)和图 2(a)中所展示的现实场景下常见的兴趣重叠现象,用户主要关注 Sports 和 Games 两个兴趣,但值得注意的是,第 t 和第 t-2 个时间戳下交互的视频对两个兴趣的建模都有影响,而这种影响在现有方法中则很难被准确分解。


论文地址: https://arxiv.org/abs/2205.01286

另一方面,包括 TGSRec 和 SURGE 在内的图卷积聚合方法则选择将序列建模与图神经网络结合起来。基于历史商品之间的多级相关性来细化用户不同层级的偏好。然而,与多兴趣解决方案相比,这些方法忽略了多兴趣分解的好处。不幸的是,当前工作都没有意识到上述两种解决方案可以相互补充:通过聚合多级用户偏好来实现更精确的多兴趣提取以获得更好的推荐。总而言之,如何以多粒度的方式对多个兴趣进行建模是这篇论文旨在解决的问题。

这项研究提出了一个统一的多粒度神经模型 Multi-Grained Neural Model,简称 MGNM。通过结合多兴趣学习和图卷积聚合,达到对用户多粒度兴趣最佳的建模效果。该方法首先为用户学习历史交互商品的图结构和信息聚合路径;然后执行图形卷积以迭代的方式推导出商品表示,用来捕获用户在不同层级上的复杂偏好;接着通过提出的序列胶囊网络,将序列模式注入到多兴趣提取过程中,从而以多粒度方式实现更精确的兴趣学习。对来自不同场景的三个真实世界数据集的实验证明了 MGNM 相对于最先进基线的优越性。进一步的分析还表明,MGNM 在对多粒度级别的用户偏好理解方面是鲁棒且有效的。

方法

具体来说,所提出的 MGNM 模型由两个主要组件构成:用户感知图卷积和序列胶囊网络。用户感知图卷积组件将原始序列转换为用户感知的自适应图,通过执行图卷积以迭代地方式推导出商品表示,用于捕获用户不同级别偏好。序列胶囊网络组件将时间序列信息引入传统胶囊网络来提取多兴趣的序列化模式。通过多层级和多兴趣的结合,能够更加准确的建模用户的多粒度兴趣。MGNM 网络的架构如图 3 所示。

图 3 MGNM 的网络架构

A. 用户感知图卷积

为了从用户历史序列中提取复杂和高阶的用户兴趣,该研究利用图结构来自适应的建模不同历史商品之间的相关性距离。给定用户的历史行为序列,首先将商品序列转换为一个全连接商品图如图 4(1),而不同商品之间的距离根据用户嵌入以及两个商品的嵌入联合计算得到。用户嵌入被用来实现用户感知的图构建。也就是说,相同的两个商品对对于不同的用户可能具有不同的相关性值。通过这种自适应的图连接方式,在训练过程中梯度通过更新商品和用户的嵌入,进而调整图的连接方式。同时为了使得兴趣图具有足够的辨别力,研究人员在邻接矩阵上添加 L1 正则化来逼近一定的稀疏度。最终利用自适应的用户历史兴趣图,通过用户感知的图卷积得到 L 层的卷积输出见图 4(2)。每一层输出的商品表征代表不同层级的商品信息,对应着后续提取不同层级的用户兴趣,卷积的层数越多表示用户的兴趣越高阶越复杂。


B. 序列胶囊网络

在提取多级商品表征后,模型利用胶囊网络对用户每个层级的历史商品序列分别提取出 K 个兴趣向量。但是标准的动态路由机制缺少时序信息,这样就会导致胶囊网络无法捕捉用户兴趣的变化,而现有研究已经证明时序特征对于序列推荐中的兴趣建模具有非常大的影响。因此,在动态路由的第一次迭代过程中,作者采用 BiLSTM 对序列进行时序编码如图 5 所示。在第一次迭代过程之后,模型利用带有时间特征的输出对动态路由的权重通过残差结构进行更新。其中 BiLSTM 用于向胶囊网络中增加时间建模能力,弥补了标准胶囊网络在序列建模问题下的缺陷。最终,每个层级的序列商品表征都经过序列胶囊网络得到对应用户的 K 个兴趣向量。

图5 时序胶囊网络对行为建模

C. 预测

为了对给定候选商品 / 视频进行概率预测,对于单一层级的 K 个兴趣向量,模型采用基于注意力机制的方式进行聚合,L 个层级的 K 个兴趣向量分别聚合得到 L 个层级兴趣向量。考虑到不同用户的交互习惯不同,即有可能被高阶或者低阶的兴趣影响,模型利用最大池化层(max-pooling)从 L 个层级兴趣向量中选择概率评分最大的层级,其得分作为最终预测概率,如图 3 C 所示。

图6 用 Maxpooling 选择概率最大的层级

实验结果

为了证明提出的 MGNM 模型的有效性,研究者在短视频场景和电商场景的三个数据集上进行了实验,数据集的统计结果如表格 1 所示。与现有最佳的基线模型进行对比,该研究提出的模型在 AUC、NDCG、MRR 和 HIT 等推荐指标上取得了显著提升,实验结果如表格 2 所示。

表 1. 三个数据集的统计结果

从表 2 可以看出,该研究提出的 MGNM 模型在 Micro-video 和 Toys and Games 数据集上所有指标均为最优。而在 Music Instruments 数据集上,GAUC 和 NDCG 的表现分别低于 TGSRec 和 SLi_rec,研究者强调这是由于这两个方法是基于序列时间戳特征的基线,所以和其它方法相比它们多了一维精细化的时间戳编码特征(其它基于序列模型的方法仅利用了时间先后顺序),不过即使如此 MGNM 仍然在 HIT 和 MRR 两个指标上达到最优。

表 2. 在三个数据集上不同方法的性能比较

为了验证模型各模块和研究创新点的有效性,本文做了详细的消融研究。表 3 的实验结果证明了用户感知图卷积 (UGCN)、邻接矩阵 A 上的 L1 正则化 (L1Norm)、顺序编码层的顺序胶囊网络 (BiLSTM) 和基于最大池的预测 (MaxPool)等关键创新模块的重要作用。此外,作者还研究了若干顺序胶囊网络的变体(BiLSTM,SumPool,SelfAtt,Transformer),验证了在胶囊网络中引入序列模式的必要性,以及采用像 BiLSTM 这样的轻量级序列模型足以达到令人满意的效果。

表 3. 在 Toys and Games 数据集上的消融实验。

由于提出模型旨在同时捕捉用户多层级下的多兴趣,研究者对模型中控制兴趣层级的图卷积层数 L 和控制兴趣数量的胶囊网络数 K 进行了超参实验。一方面,较大的 L 值(L ≤ 3)可以聚合更远的高阶邻居来推导出用户的高层级偏好,但是过大的设置 L 值(L > 3)也会带来一些嘈杂的信息并产生不利影响。另一方面,单个兴趣表示(即 K = 1)在四个指标中的表现最差。当 K 在 [3, 5] 范围内时,MGNM 实现了相对更稳定的性能,验证了多兴趣建模的重要性。此外,Toys and Games 和 Micro-video 数据集的最佳 K 值分别为 2 和 4,这与短视频数据集的语义空间比电商数据集要广泛得多的直觉一致。

图 4:不同 L 值在 Toys and Games 和 Micro-video 数据集上的表现。

图 5:不同 K 值在 Toys and Games 和 Micro-video 数据集上的表现。

为了进一步验证多层级兴趣建模的作用,该研究分别在 Micro-video 和 Toys and Games 两个数据集上对不同用户的兴趣粒度分布做了抽样可视化。通过基于最大池化(max-pooling)预测器计算用户对正样本商品 / 视频的偏好级别,图 6 和图 7 分别绘制了两个数据集上每个用户对其交互商品 / 视频下激活级别的分布,颜色越深代表该层级下的预估值越高。

图 6. Micro-video 场景下 multi-level 用户兴趣分布可视化

图 7. Toys and Games 场景下 multi-level 用户兴趣分布可视化

可以观察到,为不同用户推荐不同商品 / 视频时所需的偏好级别是完全不同的。图 7 表明,MGNM 的前两层(即 L < 2)对于 Toys and Games 数据集的大多数用户来说已经足够了,但是对于少数用户则需要推导出的高级偏好(即 L ≥ 2)。图 6 表明,对于语义空间较大的 Micro-video 数据集,高级偏好的作用对所有用户来说变得更加重要。研究者认为,用户对短视频的偏好更高代表了用户对短视频场景的兴趣层级更高、更复杂、变化更快。因此,这一现象很好地证明了多层级机制的有效影响。
此外,在推理阶段,研究者将最大池化(max-pooling)替换为求和池化(sum-pooling)并测试了模型性能,图 8 中的结果进一步量化了模型中多层级兴趣提取结构的影响。

图 8. 推理阶段 MGNM 的最大池化与总和池化

总结

本研究主要利用图模型建模用户多层级(multi-level)历史行为表征、利用时序增强的胶囊网络提取用户多兴趣(multi-interest)兴趣向量。提出的 MGNM 细粒度神经序列推荐模型,在三个真实推荐场景数据集中均有比较突出的表现。同时大量实验和可视化分析证明了 multi-level 和 multi-interest 建模思想对推荐表现提升的重要影响。
理论快手武汉大学SIGIR
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

胶囊网络技术

简而言之,一个胶囊网络是由胶囊而不是由神经元构成。一个胶囊是一小群神经元,它们可以学习在一个图片的一定区域内检查一个特定的对象(比如,一个矩形)。它的输出是一个向量(例如,一个8维的向量)。每个向量的长度代表了物体是否存在的估计概率[1],它的方向(例如在8维空间里)记录了物体的姿态参数(比如,精确的位置、旋转等)。如果物体有稍微的变化(比如,移动、旋转、尺寸变化等),胶囊将也会输出一个长度相同但是方向稍微变化的向量。因此胶囊是等变的。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~