马泽锋、邢日良、彭卫华作者

短视频如何做到千人千面?FM+GBM排序模型深度解析

阿里妹导读:信息流短视频能够满足用户的碎片化阅读需求,目前已是移动互联网流量风暴的中心。各互联网大厂纷纷涉足此领域,推出自己的短视频产品,群雄争霸,逐鹿短视频市场。今天,UC事业部国际研发团队,将为大家介绍排序层的模型演进过程,带你深入了解模型创新部分。

背景

信息流短视频以算法分发为主,人工分发为辅,依赖算法实现视频的智能分发,达到千人千面的效果。整个分发流程分为:触发召回、排序与重排三个阶段。排序层在其中起着承上启下的作用,是非常重要的一个环节。在排序层优化的过程中,除了借鉴业界前沿的经验和做法,我们也做了模型上的一些创新。

信息流短视频排序目前使用是以CTR预估为目标的Wide&Deep模型。通过引入时长特征、点击+时长多目标优化等工作,我们取得了不错的收益:

  • 增加视频平均播放时长特征,作为用户真实体感信号,带来用户消费时长提升;

  • 通过消费时长样本加权,实现点击+时长多目标优化,实现点击率与消费时长的提升;

  • 引入多个视频下发场景的样本数据,实现多场景样本融合;

在优化排序模型的过程中,我们也调研了DeepFM/DeepCN等深度模型,这些模型无论从离线还是线上指标上,都没有明显优势。在优化Wide&Deep模型的同时,更迫切的需求,是跳出原有的框架,寻找新的收益点。

引入GBM对submodel和高级特征等信号做集成学习,效果要优于单模型。从计算学习理论上看,Wide&Deep是high-variance模型,容易过拟合(wd模型的训练比评估指标高7%)。GBM通过boosting的方式组合集成多个submodel和高级特征,更好地发挥各自不同的作用和优势互补,同时从整体上有更好的可解释性。

上面是对信息流短视频排序模型演进的简要介绍;而其中的FM+GBM模型是我们团队比较有开创性的一项工作,下面稍微展开介绍。

模型

向量分解机(Factorization Machines, FM)是一种应用较为广泛的推荐模型,其发明者Steffen Rendle目前供职于Google。FM是对传统LR模型在处理高阶交互特征问题上的优化和改进:LR通过特征交叉的方式,将组合后的特征作为新特征加入到模型中,模型复杂度为O(N^2)(N为交互特征的数量,下同),记忆性较强而泛化性偏弱;FM通过将特征表征为隐向量,通过隐向量的相似度(內积)来表示特征关联这种方式来巧妙地提升模型的泛化能力;FM模型的复杂度为O(N*k)(k为隐向量维度超参)。

以二阶交互的FM模型为例,其模型定义如下:

其中:

为方便讨论,我们进一步将模型表达简化如下:

其中:

FM本质上是一个线性模型,不同项之间以线性组合的方式影响模型的输出。如果要考虑更加复杂的模型组合,计算复杂度将会非常高。尽管学术界也有像张量分解(Tensor Decomposition)这类处理高阶交互特征的模型;但在工业级,考虑到效果与性能的折衷,往往只考虑二阶的交互。但在此基础上,我们可以考虑引入非线性的模型来优化FM模型。

在非线性模型中,树模型(CART/GBM/Random Forest)的应用非常广泛。我们引入GBM作为组合FM的非线性模型:

其中:

F是整个CART的假设空间,q是某个特定的将输入空间映射到叶子节点的树结构。其损失函数定义如下:

其中:

FM+GBM一期(纯GBM)

一期主要打通整个实验框架和数据流,并没有引入额外的信号。GBM使用的信号包括:wd/lr模型等sub-model打分、点击率/时长和体感特征,以及一些简单的匹配度特征。整个实验框架比较简单:精排流程新增GBMScorer,实现以下2个功能:

  • 分发服务器通过流量分桶决定精排是否使用GBM打分,由GBMScorer具体执行;

  • 特征归一化和回流。提取的特征经归一化后返回给分发服务器,由分发服务器回流至日志服务器落盘。点击日志也同时经由日志服务器落盘。点击-展现日志通过reco_id+iid对齐,经清洗、过滤和反作弊处理后,提取回流特征用于模型训练;

在调研和实验的过程中,以下是一些经验和教训:

  • 样本与超参的选择:为了让模型尽可能地平滑,我们从7天滑动窗口的数据中随机抽取样本,并按比例分割训练/验证/测试集。通过交叉验证的方式选择超参;在所有的超参中,树深度对结果的影响比较大,深度为6时效果明显优于其他选择。在调参过程中,auc和loss这两项评估指标在训练/评估/测试数据集上并没有明显的差异,由此可见GBM模型的泛化性。

  • 离线评估指标:auc是排序模型常用的离线评估指标之一,但全局auc粒度太粗,可以结合业务计算一些细粒度的auc。行业有采用以Query为粒度,计算QAUC,即单个Query的auc,再按均值或者加权的方式融合得到的auc,比起全局auc指标更加合理。我们采用类似做法,以单次下发为粒度计算auc,再计算均值或者按点击加权。需要注意的是,auc计算的粒度决定了划分数据集的粒度。如果按照单次下发为粒度计算,那么一次下发的所有样本都必须同时落在训练/评估/测试数据集上。除此之外,单次下发中如果零点击或者全点击,这部分数据也是需要废弃的。

  • 特征的归一化:尤其是对与用户相关的特征进行归一化尤为重要。通过分析精排打分(wd),我们发现不同用户间的精排打分分布的差异较为显著:同一用户的打分方差小,分布比较集中;不同用户用户打分均值的方差比较大。如果不对精排打分做归一化处理,GBM训练过程很难收敛

GBM和精排打分也会随特征回流。日志对齐后,可以对这两个模型在离线评估指标上做比较fair的对比。从全局auc/单次下发粒度auc与小流量实验的结果来看,细粒度auc与在线实验的效果更加趋于一致。

FM+GBM二期

一期搭建了实验框架和数据流,二期开始考虑引入新的信号。

纵观眼下GBM用到的信号,主要分为两类:一是item侧信号,这类特征从各个维度刻画了item的特性:热度、时长、质量等。这类特征有助于我们筛选精品内容,提升推荐质量baseline。二是相关性特征,用于刻画用户和视频的关联度(关联度可以通过点击刻画,也可以通过时长刻画;目前主要通过点击),提升推荐的个性化,做到千人千面。个性化水平才是信息流的核心竞争力。

目前相关性特征通过长短期用户画像计算和视频在一级/二级类目和TAG上的匹配程度,至少存在2个问题:

  • BoW稀疏的特征表达无法计算语义层面的匹配度;例如,带足球标签的用户和梅西的视频通过这种方式计算得到的匹配度为0。

  • 目前视频结构化信息的准确率/覆盖率较低,会直接影响这类特征的效果。

wd/lr模型能够一定程度解决上述问题。尤其wd模型,通过embedding技术,将用户和视频本身及各个维度的结构化信息嵌入到一个低维隐向量,能够一定程度缓解这个问题。但是这类隐向量缺乏灵活性,无法脱离wd模型单独使用:计算用户和视频的匹配度,除了需要用户和视频的隐向量,还要结合其他特征,并经过一系列隐层的计算才能得到。

业界主流公司的做法,是通过FM模型,将所有id特征都分成在同一个空间内的隐向量,因而所有的向量都是可比的:不仅用户与视频本身和各个维度的匹配度,甚至用户之间、视频之间,都可以通过简单的向量运算得到匹配度。从模型结构看,FM模型可以认为是能够更加紧密刻画这种匹配度的神经网络结构。为此,我们引入FM模型分解点击-展现数据,得到用户和视频本身及各个维度的隐向量。通过这些隐向量计算用户和视频的匹配度。这些信号和与其它sub-model和高级特征一起,通过GBM进行点击率预估。

这种做法与Facebook在KDD'14发表的LR+GBDT模型有相似之处,差异在于: LR+GBDT本质上是线性模型,而FM+GBM是树模型,能够处理信号与目标间高度非线性的复杂关系,也具备更好的可解释性。整个算法框架如图所示:

由于FM需要例行训练,用户隐向量灌库和视频隐向量加载之间存在时间差,而不同版本模型的隐向量之间是不可比的。为此我们设计了简单的版本对齐机制:所有隐向量都会保留最近2个版本的数据;在FM在线计算模块中,实现版本对齐的逻辑,用对齐后最新版本的隐向量计算匹配度。由于例行训练的时间窗口为4~6个小时,保留2个版本的数据是足以保证绝大部分隐向量能够对齐。在更加高频的模型训练中,可以增加版本的数量来确保模型对齐。

效果上:一期+二期离线AUC提升10%,在线CTR和人均点击提升6%。

结语

信息流短视频排序层经过一段时间的迭代优化,目前已经形成 LR->WD->FM+GBM这套相对比较完备体系。这种漏斗体系有助于排序层在性能和效果之间trade-off:越往后,模型越复杂/特征越高级/计算量越大,而参与计算的视频数据量更少。

后续我们的优化目标将从点击率预估转向时长预估,由感知相关性转向真实相关性。这种转换是合理且必要的:用户点击容易受到标题和封面等因素的干扰,而真正体现用户兴趣的是消费时长。时长模型以及点击率预估模型与时长模型的融合实现收益的最大化,将是下一个要重点攻克的问题。

阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
理论GBM神经网络向量分解机排序算法集成学习
2
相关数据
张量分解技术

张量(tensor)是一个多维的数据存储形式,数据的的维度被称为张量的阶。传统的方法(例如ICA,PCA、SVD和NMF)对于维数比较高的数据,一般将数据展成二维的数据形式(矩阵)进行处理,这种处理方式使得数据的结构信息丢失(比如说图像的邻域信息丢失),使得求解往往病态。而采用张量对数据进行存储,能够保留数据的结构信 息,因此近些年在图像处理以及计算机视觉等领域得到了一些广泛的应用。张量分解(Tensor decomposition)中常见的两种分解是CP分解(Canonical Polyadic Decomposition (CPD)和Tucker分解(Tucker Decomposition)。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算学习理论技术

在计算机科学中,计算学习理论(或仅仅是学习理论)是人工智能的一个子领域,致力于研究机器学习算法的设计和分析。

分桶技术

将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常是根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

推荐文章
暂无评论
暂无评论~