为什么刷小视频停不下来?爱奇艺用这篇论文告诉你答案

爱奇艺作为中国的主要视频网站之一,其视频推荐系统的规模和复杂度也在中国名列前茅。近日发布了一篇研究论文,介绍了该公司为小视频推荐系统设计的模型架构并提出了一种新的特征解释和重要度评估方法 RSLIME。他们也对该方法进行了实验评估,并表明了该方法的有效性。

论文公布地址:https://www.ijcnn.org/assets/ijcnn2019-program-Jun07-largefont.pdf

作为中国最大的网络视频发布平台之一,爱奇艺推荐系统每月要帮助数百万活跃用户从其大规模的且仍在不断增长的视频语料库中发现高度个性化的内容。根据爱奇艺的统计报告,在各种不同的终端设备和应用界面,推荐系统已将其日播放量(VV)提升了近一倍。这篇论文介绍了爱奇艺的小视频推荐系统,如图 1 所示。

图 1:爱奇艺移动应用的小视频频道页面和播放页面

在中国,小视频的生产和发行已经在多个平台上成长为新兴的业务重心,加速了用户生产内容(UGC)的爆发。

相比于传统的视频推荐系统爱奇艺的 UGC 推荐和小视频分发有四个极其困难的方面:

  • 新鲜度:爱奇艺的小视频应用的语料库非常动态,用户每天都会上传数十万条新视频。推荐系统应具有足够的响应能力,以便建模新上传的视频和最新的用户行为。

  • 冷启动:鉴于小视频有更高的及时性要求和更低的用户黏性,推荐系统面临着严重的用户和项目冷启动问题,这会有损基于协同过滤(CF)的方法的性能。

  • 多样性:由于视频类型和用户人口统计分布的多样性,爱奇艺的视频标签系统以及用户兴趣画像都比传统的视频推荐复杂得多,这也使得相关特征极其分散。内容和用户的多样性也会使得小视频推荐系统的结果不能稳健地应对输入中的错误。

  • 兴趣转移:历史用户行为并不总是可靠的。每位用户在一个小时内就可能浏览数十个小视频,他们感兴趣的内容也会发生巨大的变化。一旦用户对之前的视频感到厌烦,他们就会渴望探索新的类别。因此,把握短期和长期用户偏好之间的平衡是至关重要的。

针对这些难题,爱奇艺的研究者提出了一种遵循多阶段流程的模型,其由三个模块构成,即用户画像(User Profile)、召回(Recall)和排序 Ranking)。为了提升小视频推荐系统的表现,每个模块中都使用了广泛的模型集成方法。下面简要介绍了其系统结构:

  • 用户画像:对用户的人口统计属性、历史行为、兴趣和偏好的多维度分析。用户画像可用作实现个性化推荐的基石。

  • 召回:多种协同过滤(CF)算法(基于物品的 CF、基于用户的 CF、矩阵分解、Item2Vec 等)和多种基于内容的过滤(CBF)方法的组合。这些模型的结果会被聚合起来,为每个请求构建一个视频候选项语料库,其中通常包含数百条视频。

  • 排序:一个用于评估视频候选项的分数的点击率预估模型,然后将少量最佳推荐的视频推送到用户界面。

在任何推荐系统中,排序都被认为是最重要的模块,因为其直接决定了推荐的质量。目前大多数工业界推荐系统的排序模块都基于深度学习(DL)、梯度提升决策树(GBDT)+分解机(FM)、或混合方法。

为了确保准确性和泛化能力,爱奇艺的排序模块集成了多个模型。尽管上面提到的排序模型在行业和学术领域大都有效,但通常都非常复杂且难以解读。换句话说,它们无法说明推荐特定视频的原因或分析不同特征对推荐结果的贡献。

近期在推荐系统解读方面也有一些进展,它们主要集中于设计可解释模型、修改神经网络中的隐藏层以及将知识图谱和注意机制与深度学习组合起来。但是,这些方法往往有损推荐系统的准确度并会限制模型的结构,也由此无法应用于大多数工业界的推荐系统

为了监控排序模型的工作方式是否有如预期以及是否能加速模型的迭代过程,爱奇艺提出了一种与模型无关的推荐系统局部可解释方法 Recommendation System Boosted Local Interpretable Model-Agnostic Explanations Method(RSLIME,),可为其排序模型提供特征重要度分析。RSLIME 有望为推荐系统中的特征选取过程提供参照,并帮助推荐系统开发者不必太过麻烦就能调整他们的排序模型。RSLIME 具有以下特点:

  • 对于单个输入样本,RSLIME 可以生成特征重要度的估计,而不管排序模块中所用的架构为何。然后可以基于这些特征重要度解释推荐结果。

  • 对于多个输入样本,RSLIME 可以结合多个样本的预测结果进行整体分析,并给出准确的特征重要度估计。

  • RSLIME 可对稀疏特征的影响进行高效的分析,从而指导模型的优化和特征的选择

爱奇艺的这篇论文的主要贡献为:

  1. 详细阐述了爱奇艺的小视频排序模块的架构;

  2. 提出了一种可扩展的推荐系统解释方法(RSLIME),能根据排序结果提供特征重要度;

  3. 爱奇艺的排序模块上执行了全面的实验,验证了 RSLIME 方法的有效性。

为什么需要为推荐系统设计新的解释方法?

爱奇艺的小视频推荐系统的推理过程如图 2 所示,其结果主要由召回模块和排序模块决定。其中召回模块的结果通常是可解释的,因为我们可以检查视频标签和用户兴趣以确定糟糕结果出现的原因。而排序模块却比召回模块复杂得多,其集成了多种模型与多种类型的输入特征。

图 2:小视频推荐系统

总的来说,爱奇艺的排序模块有这些特点:

(1)模型结构复杂;
(2)输入特征的维度很高;
(3)迭代速度快;
(4)具有大规模视频语料库
(5)分布式的文件存储和计算系统。

这些特点使得目前大多数特征重要度分析方法都不适用。

图 3:排序模块的流程。

目前在推荐系统中最常用的特征选取和特征重要度分析方法是信息增益(Information Gain)、主成分分析(PCA)和 AUC Check。尽管它们可有效地用于特定的任务,但在用于推荐排序模型时都存在固有的局限性。有关这些局限性的详细说明请参阅原论文。

不同于以上方法,RSLIME 有望在任意的推荐排序模型中执行有效的特征选取和特征重要度分析。与《"Why Should I Trust You?": Explaining the Predictions of Any Classifier(arXiv: 1602.04938)》中提出的 LIME 思想类似,RSLIME 使用了一个线性函数来局部地近似排序结果。

通过验证 RSLIME 所获得的特征重要度的可靠性和稳定性以及进一步了解其与 AUC Check 的相关性,爱奇艺的这些研究者证明 RSLIME 确实可用于分析特征重要度和解释排序模型。

技术详解

架构

这里将介绍爱奇艺小视频推荐系统的排序模块。如图 4 所示,其中使用了一种经过扩展的「Deep&Wide」结构,集成了 GBDT、FM 和 DNN。

图 4:排序模块的架构。

借助「Deep&Wide」结构的思想,Sigmoid 层可用作连接层,其输入由两个部分构成:DNN 最后的隐藏层、FM 的输出。下面将介绍每个模块的详情:

  • DNN:DNN 使用的是一个带有三个隐藏层的全连接网络,其维度分别为 1024、512 和 256。DNN 的输入是用户和视频的预训练的特征嵌入,这基于用户行为和视频语义内容。爱奇艺的模型使用了 DNN 来提升排序模块的准确度以及在线 A/B 测试中的泛化能力。

  • GBDT:GBDT 是指多个决策树的基于提升(boosting)的集成。GBDT 的叶节点自动表示所选择的重要特征,其可被用于提升 FM 的性能。GBDT 先要单独进行预训练,之后才会与 FM 和 DNN 进行联合训练。由于 GBDT 对非归一化的特征的存在而言是稳健的,所以其输入中归一化和非归一化的稠密特征都可以有。

  • FM:FM 可自动执行特征组合和二阶交叉特征计算。因此,FM 可以执行特征融合和在 GBDT 输出和稀疏特征上执行交叉,由此能在推荐点击率(CTR)预估方面取得当前最佳的结果。

  • Sigmoid:Sigmoid 能为 DNN 和 FM 的输出加权并在其结果上执行 sigmoid 变换。

RSLIME

这里使用 X 表示输入数据,x 表示单个输入样本。样本 x 的 n 维输入特征表示为 Zn 或 (z1…zn)。z 表示单个特征组合,推理模型表示为 f。线性回归模型 g ∈ G 等可解释的模型经过训练后用于执行单个案例的特征重要度分析。

RSLIME 是局部可解释的与模型无关的解释(LIME)方法的一种扩展。LIME 使用了一种可解释的模型来评估推理模型 f 在单个输入样本 x 上的特征重要度。设有 100 个特征 (z1…z100) 的一个输入样本 x,f(x) 是 x 的推理结果。

LIME 首先会自动生成数千个不同的特征组合(比如 z1…z99、z2…z100)。然后对于每个特征组合,LIME 根据这个组合内部的特征(同时掩盖其它所有特征)计算该推理模型 f 的预测结果。为了说明清楚,使用特征组合 z1…z99 时,表示 z100 被 0 掩码掩盖。

给定每个特征组合 z 和对应的预测结果 f(z),LIME 会计算 z 和 x 的距离并将其作为 z 的权重,然后会训练一个可解释的模型(以线性回归模型为例)g 将 z 映射到 f(z) 和 f(x) 之间的绝对差值,然后用作单个案例特征重要度的直接指示。这个可解释模型中每个特征的最终权重都会被用作特征重要度。因此,LIME 的局部特征诊断算法可以表示为:

其中 Ω(g) 表示模型复杂度,π_x(z) 表示样本 x 的特征组合。

爱奇艺是如何将 LIME 扩展为 RSLIME 以将其用于推荐系统的排序模块的呢?

在他们的单案例分析流程中,RSLIME 遵循 LIME 的近似方法,其中将排序模块用作推理模型。此外,他们还基于 MapReduce 思想提出了一种多案例累积特征重要度分析方法。下面会介绍单案例和多案例 RSLIME 的实现细节。

实现细节

图 5 展示了使用 RSLIME 进行单案例特征重要度分析的完整过程。

图 5:用于单案例分析的 RSLIME 的实现。

首先,将推荐排序过程所需的特征和分数通过在线模型调试接口,得到在线模型在同一时间的预估点击率(PCTR)。然后将这些特征和分数输入与在线模型同步更新的离线模型,计算得到 PCTR;再通过检查这两个 PCTR 是否一样来验证在线模型和离线模型的一致性。

检查过一致性之后,再将该离线模型与同样的特征和分数输入 RSLIME 得到排在前面的特征和它们的重要度。最后可将特征索引转译为特征名,以便分析特征重要度。

为了将 RSLIME 用于多案例累积特征重要度分析,爱奇艺的研究者以一种分布式的方式重新实现了这个技术流程。如图 6 所示,RSLIME 和输入数据被包装和分发到了 HDFS 上的不同数据节点,然后使用 MapReduce 单独分析每个节点上的样本。最后,通过聚合所有被使用的样本的特征重要度分数,可得到累积的特征重要度。

图 6:用于多样本分析的 RSLIME 的实现。

实验

爱奇艺的研究者执行了一系列实验来验证他们提出的方法,其中包括单案例分析、与 GBDT 的对比试验、与 AUC Check 的对比实验。结果表明了 RSLIME 的有效性,下面列出了部分实验结果,具体详情请参阅原论文。

图 7:单案例分析的结果。

图 8:RSLIME 与 GBDT 对齐的不同特征类型的比例。

理论论文应用推荐系统视频爱奇艺
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

梯度提升技术

梯度提升是用于回归和分类问题的机器学习技术,其以弱预测模型(通常为决策树)的集合的形式产生预测模型。 它像其他增强方法一样以阶段式方式构建模型,并且通过允许优化任意可微损失函数来推广它们。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

MapReduce技术

MapReduce,一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是其主要思想,皆从函数式编程语言借用。它还借用了矢量编程语言的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

集成方法技术

在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

A/B 测试技术

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。

信息增益技术

在决策树学习中,信息增益比是信息增益与固有信息的比率。 它被用来通过在选择属性时考虑分支的数量和大小来减少对多值属性的偏见.

爱奇艺机构

2010年4月22 日正式上线,爱奇艺推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。 爱奇艺已成功构建了包含电商、游戏、移动直播、漫画、阅读、电影票、短视频等业务在内、连接人与服务的娱乐内容生态,引领视频网站商业模式的多元化发展。

http://www.iqiyi.com/
矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

推荐文章
暂无评论
暂无评论~