如今,在金融、零售、电商、互联网等领域的AI应用中,表数据都是最为常见且应用广泛的数据格式。将表数据进行准确的分类预测,对业务的提升起着至关重要的作用。
日前,第四范式提出了全新的深度神经网络表数据分类模型——深度稀疏网络(Deep Sparse Network,又名NON),通过充分捕捉特征域内信息、刻画特征域间潜在相互作用、深度融合特征域交互操作的输出,获得超过LR、GBDT等常用算法以及FFM、Wide&Deep、xDeepFM、AutoInt等基于深度学习算法的分类效果,提升了表数据的预测准确度。
论文地址:https://arxiv.org/abs/2005.10114
表数据分类模型的现状
在表格数据中,每行对应一个实例(样本),每列对应一个特征域。表数据分类是根据实例的特征域,将其分到对应的类别中。表数据通常同时具有连续特征域和类别特征域,而类别特征域通常是高维稀疏的。例如在在线广告中,类别特征域“advertiser_id”可能包含数百万个不同的广告主id。
过往,包括随机森林、GBDT在内的树模型常用于表数据分类,它们对连续数值表数据有很好的效果,但对包含高维离散特征域的表数据不友好。一方面,树模型需要枚举所有特征域的所有特征,这对于高维的类别特征域来说效率很低。另一方面,由于类别特征域的稀缺性,对其进行分割所获得的收益较小。
因此,在实际应用场景中,对数几率回归(Logistic Regression,LR)成为了大规模稀疏表数据分类的常用方法之一,但由于其线性特性,它缺乏对特征域间非线性交互的学习能力。因此LR通常需要进行大量的特征工程,来刻画目标与特征域之间的非线性。
此外,FM与FFM将稀疏输入特征嵌入到低维稠密向量中,并利用向量的内积显式学习特征间二阶交互。FM和FFM取得了较好的效果,但由于它们的结构较浅,其表达能力也受到了限制。
近年来,基于深度学习的表格数据分类方法以其强大的表示能力和泛化能力得到了广泛的研究,并取得了一定的成功。包括Wide&Deep、DeepFM(Deep Factorization Machine)、xDeepFM、AutoInt在内的深度学习模型大多采用如下设计范式:
1)将每个特征域的输入映射为低维稠密向量;
2)使用DNN或FM等多种操作直接融合不同特征域对应的向量;
3)将各操作的输出进行线性加权,得到最终的预测结果。
然而此类方法有以下三个问题:
首先,现有方法直接融合不同特征域的向量表示,而未显式地考虑域内信息。我们将“每个特征域内的不同特征值,均属于同一个特征域”记为域内信息。对于每个特征域中的特征,它们的内在属性是都属于同一个特征域。以在线广告场景为例,假设特征域' advertiser_id '和' user_id '分别表示广告商和用户的ID,则特征域' advertiser_id '(' user_id ')中的不同的广告商ID(用户ID)都属于广告商(用户)这个特征域。此外,特征域有自己的含义,如“advertiser_id”和“user_id”分别代表广告主和用户,而不管域内特征的具体取值。
其次,大多数现有方法使用预定义的特征域交互操作组合(如DNN、FM),而未考虑输入数据。事实上,预定义的操作组合并不适用于所有的数据,而是应该根据数据选择不同的操作,以获得更好的分类效果。
最后,现有方法忽略了特征域交互操作(如DNN和FM)的输出之间的非线性。
全新模型结构带来出色的效果
为了解决上述问题,第四范式提出了深度稀疏网络,它由三部分组成:底层为域内网络(Field-wise Network),中层为域间网络(Across Field Network),顶层为融合网络(Operation Fusion Network)。
域内网络为每个特征域使用一个DNN来捕获域内信息,域间网络采用多种域间交互操作来刻画特征域间潜在的相互作用,最后,融合网络利用DNN对所选特征域交互操作的输出进行深度融合,得到最终的预测结果。
域内网络
现有的主流深度表数据分类方法中,特征域内信息没有被显示地考虑并加以利用。深度稀疏网络利用域内网络来显示地学习特征域内信息。在域内网络中,每个特征域都与一个DNN相连,并且每个特征域的embedding首先输入到该DNN中。鉴于DNN的强大的表达能力,特征域内信息可以被充分地学习。
在实际应用中,不同特征域对应的域内网络可以堆叠(stacking)起来,使用并行计算进行加速。另外,域内网络输出的embedding可以直接输入到域间网络,也可以通过和原始的embedding相互作用,来修正得到的embedding,常见的修正方法有拼接、按位相乘、门操作等。
域间网络
域间网络采用多种交互操作来刻画特征域间的潜在相互作用,常见的特征域交互操作包括LR、DNN、FM、Bi-Interaction和多头自注意网络等。现有方法中,域间交互操作的方式是用户事先制定的。而在深度稀疏网络中,可以通过数据,自适应地选择最合适的操作组合,即在深度稀疏网络中,操作组合的选择是数据驱动的。
融合网络
现有的方法对不同操作的输出线性地加权求和,然后通过sigmoid函数得到最终的预测结果,而忽略了不同操作输出之间的非线性关系。在深度稀疏网络中,融合网络通过DNN对域间网络所选操作的输出进行深度融合,并得到最终的预测结果。
虽然NON模型结构增强了模型的表现力,但其模型复杂度也随之升高,训练更加困难。对此,第四范式引入逐层监督训练技术,即在神经网络的中间层引入额外的损失函数,使得中间层的表达更具判别性。经测试,该方案不仅能够增加模型最终预测效果,也使得模型能在更短的时间内,取得更好的效果。
全新的结构设计提升泛化性能
经多个公开数据集验证,域内网络捕获的域内信息有助于提高模型的泛化性能;且随着NON不同的组件堆叠,模型的预测效果持续增长。
效果全面领先主流深度模型
与FFM、DNN、Wide&Deep、NFM、xDeepFM、AutoInt等模型相比,深度稀疏网络在实验数据集上均能获得最好的结果,AUC可提高0.64%∼0.99%。
根据数据选定合适的特征域间交互操作
在域间网络中,深度稀疏网络将不同的交互操作视为超参数,并根据在具体数据上的预测效果,选择最适合的交互操作。其中,DNN被视为必选,而其他操作(LR、 Bi-Interaction和multi-head self-attention)被视为可选。同时,我们通过固定深度稀疏网络的其他层,只变换域间网络中不同的操作组合来进行更多验证。
可以看出没有一个操作组合能够在所有数据集上都取得最优效果,这表明了根据数据选择操作组合的必要性。而大数据集倾向于选择容量大、复杂的操作组合,小数据集倾向于轻量、简单的操作组合。
深度稀疏网络能够有效捕获域内信息
通过对域内网络处理前后特征值对应的向量进行可视化和比较,可以看出经过域内网络后,每个域内的特征在向量空间中更加接近,不同域间的特征也更容易区分。
通过进一步计算数据中特征的平均余弦距离(数值越大,相似度越高),域内网络可以使余弦距离提高一到两个量级,即能有效地捕获每个域内特征的相似性。
未来,第四范式还将基于软硬一体化技术持续优化深度稀疏网络,在保证模型效果、计算效率提升的同时,进一步降低算力成本,以推动新技术应用落地。