陈文强作者

多任务学习在美图推荐排序的近期实践

一、前言

距笔者上次提出NFwFM点击率预估模型,并覆盖美图秀秀、美拍等推荐场景已经过去半年。算法钻研如逆水行舟,不进则退。用户和公司越来越高的期望也要求我们不断进步。

与此同时,美图社区内容推荐业务发展迅猛,有目共睹。社区内容推荐一方面是千人千面,精准连接用户与内容,另一方面是连接用户与用户。因此近半年来,我们的业务目标自然的从点击率预估发展到点击率和关注转化率的多目标预估模型。 

本文介绍将多任务学习应用于点击率和关注转化率预估的一些思考和实践经验。这些实践已全量覆盖美图秀秀社区以及美拍热门等推荐场景。

二、算法选型

笔者管中窥豹, 将多目标预估分为两大类, 一类是多模型,一类是多任务学习

多模型为每一个目标单独构造训练样本和特征,并采用合适的模型各自训练。其优点是可以为每个目标进行深度优化,且预估值融合阶段能够根据业务目标灵活控制各个目标的权重。缺点是需要配备多套人力和机器来存储和优化样本、特征以及调整融合公式。

学术界和业界近年来在多任务学习(Multi-task Learning, MTL)方面的研究和实践进展颇多。MTL是机器学习的一种范式,属于迁移学习的范畴,但与大家通常理解的迁移学习的区别在于多任务学习是要借助其它的任务来帮助提升所有任务而非某一个任务的学习效果。

当多个任务相关性强时,譬如点击率和关注转化率,多任务学习迁移学习的本质区别便成为多任务的最大优点。此外,依笔者浅见,DNN灵活的网络结构,其在一个模型中能够包容多种不同分布的样本并各自优化其目标,更是释放了MTL的最大价值。其缺点是参数共享,当存在不那么相关的任务时,任务之间会相互扰乱,影响效果。

多任务学习本身一个很古老的概念[5]。对多任务学习做详细的介绍超出了本文的范围,感兴趣的同学可以参考文末的参考文献。

思虑至此,结合实际预估目标,我们很自然的选择多任务学习作为点击率预估和关注转化率预估的多目标预估模型。

三、Multi-task NFwFM

正如前面所说,多任务学习只是机器学习的一种范式,并不局限于特定的问题或者模型。因为有非常实际的工业需求,所以工业界和学术界的研究和实践成果还在不断增加。

比如2016年横空出世的YouTubeNet[1], KDD'18的MMoE[2]等学术研究;工业界如美团"猜你喜欢"引入Multi-task DNN后CTR提升1.23%[3]知乎引入MMoE后互动率提升100%[4]

在实践过程中为了追求训练效率高,模型可拓展性以及最重要的效果要好,工业界通常选择Shared-Bottom multi-task DNN[5]的网络结构。

如上图,Multi-task NFwFM的前4个隐含层是共享的,点击率预估任务和关注转化率预估任务共享特征表示。在最后即将预估多个目标时通过全连接层进行拆分,各自学习对应任务的参数,从而专注地拟合各自任务。

多任务学习的不同任务在共享层里的局部极小值位置是不同的,通过多任务之间不相关的部分的相互作用,有助于逃离局部极小值点;而多任务之前相关的部分则有利于底部共享层对通用特征表示的学习,因此通常多任务能够取得比单任务模型更好的效果。

在线上预估时,因为模型尺寸没有变化,推理效率和线上的点击率预估模型一致。考虑到我们是在点击率任务的基础上同时优化关注转化率,融合公式上体现为优先按照点击率排序再按照曝光→关注的转化率排序。

Multi-task NFwFM已在美图秀秀社区首页Feeds推荐、相关推荐下滑流全量上线。首页Feeds 点击率 +1.93%,关注转化率 +2.90%, 相关推荐下滑流人均浏览时长+10.33%, 关注转化率+9.30%。

四、样本reweight

上述普适版的Multi-task NFwFM带来了点击率和关注率转化率的稳定提升,这驱使我们进一步根据业务数据的特点压榨模型价值。

点击和关注转化样本生而不平等。在秀秀首页Feeds推荐场景下,点击样本数:关注样本数≈100:1。虽然Multi-task NFwFM包容了点击和关注转化这两种不同分布的样本,并支持各自优化其目标,然而点击样本和关注样本严重不平衡,这无疑会影响关注转化率预估目标的学习。

为了最大化模型的价值,reweight自然成为我们的选择。样本的研究和模型应用是同等重要的问题,相关研究仍然很活跃,不断有新算法被提出。代表性的工作有近期Kaiming He等人提出的Focus Loss[6], 其通过减少易学习样本的权重,使得模型在训练时更专注于难学习的样本。

Focus Loss的优点是可以通过超参数来控制两种样本的分布,缺点是在梯度下降类的优化算法中,样本无法随机shuffle,而这对梯度下降类算法的收敛速度至关重要。

回到实践本身,我们采用样本reweight的土办法,一方面,样本reweight天然的支持随机shuffle, 另一方面,从以往实践的经验来看,用更多、更高质量的数据进行训练几乎是总能带来提升的。

以下图为例,假设有4类feeds, A、B、C、D, 关注转化率的大小关系是A > C > B > D=0。实线部分表示4类feed的真实CTR,则虚线表示各类feed被关注样本reweight之后的虚拟CTR。

通过关注转化率reweight点击正样本,改变了CTR分布之后,模型的pCTR将倾向于C>D>A>B,保证在原始CTR接近的情况下,关注转化率较高的feed更容易被模型推荐出来,提升整体的关注转化率,并且因为C、D等点击率较高的feed不受分布改变后影响,因此整体CTR应不受太大影响。

基于上述关注样本reweight点击正样本的策略,美图秀秀社区首页Feeds推荐CTR -1.09%, 关注转化率 +12.03%。

五、Task-specific weighted Loss

样本reweight让我们在关注转化率目标上取得了显著的提升,但是CTR下降明显。笔者调整并灰度实验多个reweight候选值,尝试降低关注转化率对点击正样本的分布的影响,结果让人失望,CTR均低于线上。

很大可能的原因是上述图示对我们场景数据的假设太简单理想了。正如前文所述,多任务学习的缺点是参数是共享的,当多个任务存在不相关部分时,任务之间会相互扰乱,影响效果。

学术界将这个现象称为"share conflict",分析并解决这个问题的挑战较大,且业界和学术界可供参考的经验少。

另一种减小share conflict的曲线方式是gradient balancing method,在我们场景下对应的是加大multi-task NFwFM中点击率预估任务的重要性,让点击率预估任务来主导底部共享层的参数学习,进而影响整体模型的预估性能。

Yarin Gal在CVPR'18提出一种基于不确定估计的方法, Homoscedastic Uncertainty[7], 来设定多个任务的学习率学习率越大对整体模型的学习主导性越强。

如下图,在秀秀社区首页Feed推荐场景中, Homoscedastic Uncertainty估计方法表明关注转化率的不确定性确实比点击率预估任务高,因此我们应该让点击率预估任务来主导整体模型的学习。

然而灰度实验期间,发现该方法估计出来的不确定性本身不稳定,参数容易学飘,甚至出现相反的结论,导致实验效果波动较大。在实践中,笔者采用效果正向提升的几天的不确定性值作为最终的参数

上述改进的Multi-task NFwFM, 在美图秀秀社区首页Feeds推荐场景全量上线,点击率 -0.36%, 关注转化率+12.75%。

六、未来展望

对于多目标预估问题,我们已经实现了一套具有良好拓展性的系统,并在生产实践中取得了成功应用。纵观业界,不少公司也在生产中使用了各种多任务模型和算法。

多任务学习的广阔空间相比,目前我们的实践还很初级,未来我们一方面会继续发挥多任务学习的优势,根据业务形态设计多任务学习目标,另一方面还会尝试更为复杂的模型和算法。

END

参考文献

  1. Covington P, Adams J, Sargin E. Deep neural networks for youtube recommendations

  2. Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts

  3. 美团"猜你喜欢"深度学习排序模型实践

  4. 进击的下一代推荐系统:多目标学习如何让知乎用户互动率提升100%?

  5. Rich Caruana. 1998. Multitask learning. In Learning to learn

  6. Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection

  7. Kendall A, Gal Y, Cipolla R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics

-------------

陈文强,美图高级算法技术专家曾就职阿里巴巴腾讯有多年推荐法的,长期深耕于最优化算法、推荐算法领域的研究。NFwFM提出者,在Neural Computing等期刊发表数篇论文。

美图数据技术团队
美图数据技术团队

美图拥有海量的用户数据,如何将美图的数据最大化的利用在各个场景,更大范围的发挥美图在数据上的优势,并挖掘数据无限的价值是我们的使命。

工程元学习智能营销多任务学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

多任务学习技术

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
知乎机构

知乎作为中文互联网知名知识内容平台,致力于构建一个人人都可接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,高效获得可信赖的解答。 目前,知乎已经覆盖「问答」社区、一站式知识服务平台「知乎大学」、短内容分享功能「想法」等一系列产品和服务,并建立了包括音频、视频在内的多元媒介形式。截止 2018 年 8 月底,知乎用户数已突破 2 亿,回答数超过 1.2 亿。未来,知乎进一步加大对 AI 技术和应用的投入,构建一个由 AI 驱动的智能社区,让知识普惠每一个人。

https://www.zhihu.com
推荐文章
暂无评论
暂无评论~