FrankLearningMachine作者

顶会中深度学习用于CTR预估的论文及代码集锦 (1)

[1] Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction

ECIR 2016

Weinan Zhang, Tianming Du, Jun Wang

University College London, RayCloud Inc.

https://arxiv.org/pdf/1601.02376.pdf

预测用户响应,比如点击率和转化率,在很多 Web 应用程序中非常重要,这些的web应用程序包括 Web 搜索、个性化推荐和在线广告等。跟图像和音频域中的连续特征不同,Web 空间中的输入特征通常包含多个域,并且大多是离散和类别型特征,而这些特征之间的依赖性并不显而易见。

大部分用户响应预测模型通常是线性模型,或者需要手动构建高阶组合特征。线性模型无法探索特征之间的交互,如果构建高阶组合特征则会导致计算量非常大。

为解决这个问题,作者提出两种使用深度神经网络(DNN)的新模型,进而可以从类别型特征的交互中自动学习有效的模式,进而预测用户的广告点击量。

为使本文所提出的DNN比较高效,作者们利用三种特征转换方法,即分解机 (FM)、受限玻尔兹曼机器(RBM) 和去噪自编码 (DAE)。本文不仅介绍了所提模型的结构及其有效的训练算法。

在真实数据上的大量实验表明,本文所提方法比主要的先进模型效果更好。

本文提出的FNN结构示例如下,其中FNN为Factorisation Machine supported Neural Network

本文提出的SNN结构及预训练方法示例如下,其中SNN为Sampling-based Neural Network

几种方法的AUC对比如下

不同网络结构的AUC对比如下

不同的正则方法AUC对比如下

代码地址

https://github.com/wnzhang/deep-ctr

[2] Product-based Neural Networks for User Response Prediction

ICDM 2016

Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying Wen, Jun Wang

Shanghai Jiao Tong University, University College London

https://arxiv.org/pdf/1611.00144.pdf

预测用户响应,比如点击和转化等,非常重要。在许多 Web 应用程序中,包括推荐系统、Web 搜索和在线广告等领域中都需要预测用户响应。这些应用中的数据大部分是类别型数据,并且包含多个域,针对类别型数据,通常的做法是通过one-hot编码将其转换为高维表示,该表示是稀疏的,而且是二进制的。

针对极端的稀疏性,传统模型从数据中挖掘浅层模式的能力比较有限,这里的浅层模式即为低阶特征组合;深层神经网络等深度模型由于特征空间较大,不能直接应用于高维输入。

本文提出内积神经网络(PNN),该网络带有一个嵌入层,用于学习类别型数据的分布式表示,一个用于提取各个域之间类别型特征交互模式的内积层,还有多个完全连接层用于探索高阶特征交互。

在两个大型真实广告点击数据集上的实验结果表明,PNN 在各种指标上都优于最先进的模型。

基于内积的神经网络结构图示如下

在两个数据集(Criteo 和 iPinYou)上多种方法的效果比较如下

FNN对应的论文为

Deep learning over multi-field categorical data: A case study on user response prediction, ecir 2016

代码地址

https://github.com/wnzhang/deep-ctr

CCPM对应的论文为

A convolutional click prediction model, cikm 2015

不同的dropout影响如下

几种方法在数据集iPinYou上的学习曲线对比如下

网络深度对模型的效果影响图示如下

不同的激活函数类型(sigmoid,tanh以及relu)对模型的影响如下

代码地址

https://github.com/Atomu2014/product-nets

[3] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

IJCAI 2017

Jun Xiao, Hao Ye, Xiangnan He, Hanwang Zhang, Fei Wu, Tat-Seng Chua

Zhejiang University, National University of Singapore

https://arxiv.org/pdf/1708.04617.pdf

分解机 (FM) 是一种有监督的学习方法,该方法能够通过加入二阶特征交互来增强线性回归模型。虽然FM的效果显著,但它会因为对具有相同权重的所有特征交互进行建模而有所限制,因为并非所有特征交互都同样有用,而且并非所有特征交互都具有预测性。例如,无用特征的交互可能会引入噪声并降低模型的性能。

本论文通过区分不同特征交互的重要性来改进 FM。作者们提出了注意力分解机(AFM),这种模型通过神经注意力网络从数据中学习每个特征交互的重要性。

在两个真实数据集上的广泛实验表明了 AFM 的有效性。在回归问题中, AFM相对FM有8.6%的提升,并优于最先进的深度学习方法 Wide & Deep和 DeepCross,另外,AFM的结构和模型参数更少。

AFM的结构图示如下

不同的dropout对模型的效果影响如下

不同程度的正则对模型的效果影响如下

不同程度的注意力因子对应的效果对比如下

训练和测试误差随迭代次数的变化趋势对比如下

不同方法的参数和测试误差对比如下

HOFM对应的论文为

Higher-order factorization machines, nips 2016

代码地址

https://github.com/geffy/tffm

代码地址

https://github.com/hexiangnan/attentional_factorization_machine

机器学习blog
机器学习blog

本专栏专注于机器学习(主要包含但不限于深度学习)相关知识分享,其中涉及自然语言处理以及图像处理前沿论文等,欢迎大家关注交流

理论智能科研深度学习
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

受限玻尔兹曼机技术

受限玻尔兹曼机(英语:restricted Boltzmann machine, RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。RBM最初由发明者保罗·斯模棱斯基于1986年命名为簧风琴(Harmonium),但直到杰弗里·辛顿及其合作者在2000年代中叶发明快速学习算法后,受限玻兹曼机才变得知名。受限玻兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同,受限玻兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻兹曼机也可被用于深度学习网络。具体地,深度信念网络可使用多个RBM堆叠而成,并可使用梯度下降法和反向传播算法进行调优。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~