武楚涵作者

EMNLP 2019 | 基于层次化注意力图网络和多视角学习的商品推荐

编者按:一年一度的双十一剁手节又来了,各大平台是不是给你推荐了一大波的好物?在电子商务的发展中,个性化推荐技术对于提升平台运营水平、商户营收以及用户购物体验都发挥着至关重要的作用。精进这一技术的关键在于准确有效的用户和商品表示与交互。微软亚洲研究院在 EMNLP 2019 上提出了一种基于层次化注意力图网络增强用户和商品表示的个性化推荐方法 RMG,可以有效结合商品评论以及用户-商品图信息。

如今,以亚马逊和淘宝等为代表的在线电子商务平台吸引了大量用户,成为了热门购物渠道。但是,平台上海量的商品数据带来了严重的信息过载,用户从中挑选心仪的商品非常困难。因此,个性化的推荐技术对于电子商务平台非常关键,它可以帮助用户快速找到自己感兴趣和满意的商品,提升在线的购物体验,并进一步帮助电商平台提高用户的粘性和平台的销量。

用户与商品的表示与交互

个性化商品推荐中的一个关键问题是如何学习准确有效的用户和商品表示。一方面,我们希望从用户和商品的历史交互信息中对用户进行建模;另一方面,我们希望根据与商品交互的用户对商品进行建模。许多传统的个性化推荐方法基于矩阵分解技术,例如将用户和商品的评分矩阵分解后得到用户和商品的表示。通常来说,虽然在线用户和商品数量非常巨大,但是二者交互的数量往往有限,使得用户和商品的评分矩阵非常稀疏,这也使得基于矩阵分解的方法难以学习准确的用户和商品表示。

除了用户和商品之间的交互数据,电商平台上还存在大量用户对商品的评论数据,这些评论可以反映用户的偏好以及商品的特性。因此,利用商品评论可以帮助增强商品和用户表示的学习。HFT 和 RMR 等个性化推荐方法利用主题模型从商品评论中抽取主题特征,作为评论的表示。但是这些方法仅仅利用了评论的主题信息,而没有有效利用诸多有用的上下文信息。

近年来,随着深度学习的发展,一些推荐方法利用神经网络从原始的评论内容中学习用户和商品表示,例如 DeepCoNN、NARRE 和 HUITA 等。通常这些方法基于用户和商品的一阶交互(例如评分和评论)来学习二者的表示,这就导致了用户和商品的高阶交互信息没有被很好地利用,对于那些只有很少交互的用户和商品难以学习其精确的表示。

用户和商品的交互可以表示为一个二部图,利用图神经网络(GNN)等从图中学习表示的方法可以用来建模用户和商品的高阶信息。因此,也出现了一些基于图神经网络的推荐方法。但是,这些方法通常基于用户和商品的 ID 和特征来作为节点的表示,而忽略了评论的信息。然而,将评论信息与 GNN 结合存在一些挑战:在基于评论的推荐方法中,用户和商品的表示是通过一系列评论学习的,这就导致如果使用 GNN 进行图表示学习的时候会大大超出现有 GPU 的承载能力。因此,本文研究了如何将图网络和评论有机地结合起来

在利用用户和商品高阶交互的时候,我们受到以下观察的启发,如图1所示。首先,在同一个商品领域下,同一用户购买的不同商品会有潜在关联。例如,用户1购买并评论了两个非常相关的商品,即都是关于《星球大战》的书籍。同时,购买同一商品的不同用户也可能有潜在关联。例如,两个用户都购买了商品1,说明了两个用户可能有相关联的兴趣。此外,用户和商品的交互通常有不同的重要性。例如,对于刻画商品1,用户1与商品1的交互比用户2与商品1的交互拥有更大的信息量。
图1:用户和商品的交互图
RMG 方法

为了以协同的方式从评论以及用户-商品图中学习用户和商品表示,我们提出了一种基于层次化注意力图神经网络和多视角学习的推荐方法——Reviews Meet Graphs (RMG),该工作发表在 EMNLP 2019 上。其框架如图2所示。由于难以直接从评论里学习图中用户和商品节点的表示,所以我们将二者适当解耦,通过多视角学习的方式进行统一。该模型包含两个视角:评论内容视角和图视角。在评论内容视角中,我们使用一个层次化的模型,先从单词中学习句子表示,再从句子中学习评论表示,最后从评论中学习用户和商品表示。同时我们利用一个三级注意力网络分别选择重要的单词、句子和评论。在图视角中,我们使用了一个层次化注意力图神经网络,来对用户和商品的零阶、一阶和二阶交互进行建模。用户和商品的节点通过他们的 ID 嵌入向量来表示。

以一个用户为例,首先我们通过购买该用户购买过的商品的用户表示学习二阶的交互表示,接下来我们将商品的表示与之拼接,并学习得到一阶的交互表示,最后我们通过与该用户本身的表示拼接。在这一过程中,我们使用分层的注意力机制,来建模这些交互的重要性。而在最后的评分预测中,我们结合从两种视角中学到的用户和商品表示,最后通过内积计算评分。
图2:RMG 方法框架

实验结果

我们在四个基准商品评论数据集上进行了实验,其中三个数据集收集自 Amazon,另一个来自 Yelp challenge 2017。我们使用80%的用户商品对作为训练,10%作为验证,10%作为测试。详细的统计数据如表1所示。

表1:数据集的统计数据
首先,我们将 RMG 方法与一系列基线方法进行对比,表2中总结了不同方法可以利用的信息。与矩阵分解的方法相比,其他方法可以利用评论信息,而基于深度学习的方法可以利用上下文,Attn+CNN 和 NARRE 可以进一步建模词语和评论的重要性。RMG-review 为只使用评论视角的变体模型,而它可以建模词语、句子和评论的重要性。RMG 可以进一步利用用户-商品图的信息。表3的结果显示,我们的方法可以显著地优于这些对比的基线方法。
表2:不同方法能够利用的信息对比
表3:不同方法的结果(评价指标为 RMSE)
接下来,我们用实验来验证图神经网络的深度(阶数)对推荐结果的影响。图3显示了我们模型及其使用不同深度图信息的变体的性能。实验结果表明,随着图阶数的增加,模型的性能有着持续的提升,这也体现了融入更加高阶的信息有助于进行更准确的推荐。虽然模型的性能可能还会随着阶数的增加有进一步提升,但是阶数的增加同样会带来图视角的计算开销呈指数级增加,因此我们仅使用二阶及以内的图信息。
图3:分层图神经网络深度的影响

进一步,我们利用消融实验探究了模型中注意力机制的影响。图4(a)显示了在评论内容视角中,几种不同注意力机制的作用。我们发现词语级别的注意力机制最为重要,这说明选择重要词语对于学习精确评论表示非常重要。同时,句子和评论级别的注意力机制对于模型性能同样有用,并且将三者结合可以进一步提升模型性能。这些结果验证了评论内容视角的有效性。图4(b)显示了一阶交互和二阶交互注意力机制的有效性。实验结果表明,作用于一阶交互的注意力机制更为重要,但作用于二阶交互的注意力机制也同样有效,并且将两者同时使用可以获得更好的性能,这也验证了在图视角中不同层级注意力机制的有效性。
(a)    评论内容视角中的注意力网络影响;(b) 图视角中的注意力网络影响
图4:注意力网络的有效性
为了探究高阶交互对于建模交互较少的商品的有效性,我们选取了两个在训练集中出现次数很少的商品,并通过 t-SNE 可视化后对比了由仅使用评论的 RMG-review(图5(a)) 以及 RMG 方法(图5(b))学习得到的两个商品表示的距离。这两个商品均是星球大战的玩具飞机,具有很高的相似性。图5(a)的结果显示,由于与两种玩具交互的用户过少,RMG-review 模型并没有很好地刻画二者的相似性。但从图5(b)中可以发现,二者的表示距离十分接近,说明了融入高阶交互信息可以帮助学习更为准确的表示。
图5:通过 RMG-review 和 RMG 学习的商品表示的可视化
结语

综上,我们提出了一种可以有效结合商品评论以及用户-商品图信息的个性化推荐方法,通过多视角学习来分别利用评论信息和用户-商品图的信息。在评论内容视角中,我们采用了具有三级注意力网络的层次化模型,用于选择重要的单词、句子和评论;而在图视角中我们使用一个基于分层注意的图神经网络,来对用户和商品之间的高阶交互进行建模。在未来的工作中,我们希望进一步探索图网络在新闻推荐以及点击率预估等场景的应用。

论文链接:https://www.aclweb.org/anthology/D19-1494.pdf
微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论多视角学习注意力图网络EMNLP 2019
1
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

推荐文章
暂无评论
暂无评论~