Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大幅提升用户行为表征通用性,蚂蚁新模型获CIKM 2023最佳应用论文奖

由美国计算机学会 ACM 主办的 CIKM 2023 学术会议在英国伯明翰举行,大会吸引了 8000+ 学术从业者参加,并从 235 篇应用研究方向(applied research track)的投稿论文中,评选出了本届最佳应用论文奖,来自蚂蚁集团的用户行为表征模型研究论文获得了该奖项。

图片

用户行为表征建模和现在大家熟知的语言模型有很多相似之处,都是从海量的数据中,通过神经网络模型对序列数据进行表征,不同之处在于前者是对用户行为序列进行学习,后者是对语言序列进行学习。那该论文中的用户行为表征模型有什么独特之处呢?

目前用户行为表征预训练的工作主要借鉴自然语言处理,构建 Masked Behavior Prediction (MBP) 或 Next Behavior Prediction (NBP) 任务来进行模型训练,这些方法在 LLM 的训练中显示出强大的威力。然而与人类语言遵循相对规范的语法结构 / 标准不同,用户的行为序列存在很大的随机性。例如,当小朋友新开学需要购买一批文具产品时,对于单个文具的购买顺序是相对随机的,可能先买书包,再买练习本,笔等,也可能随心排列组合出现任意顺序。过去的研究工作也表明,仅用 mask 部分行为或下一个行为的方法来构建预训练任务,难以学到鲁棒的用户行为表征。

图片

图片

在无数种行为的可能性中,虽然用户的下一个具体行为难以琢磨,但若我们预测用户在一段时间内是否会发生某一个 (种) 行为往往具备更大的可能性。即虽然单个行为无法预测,但用户的行为分布在一段时间内相对稳定,这也符合人类行为具备一致性这一朴素常识。

基于该发现,我们提出了多时间尺度分布预测的用户表征学习方法 (Multi-scale Stochastic Distribution Prediction,MSDP),通过从全域用户行为中挖掘出更本质的信息,提升用户行为表征的通用性。在这些工作的基础上,团队构建了 Unibehavior - 用户统一行为表征框架,帮助金融风控,保险等业务极大的提升用户的风险区分度,高效支持多样化下游场景建模。研究论文获得CIKM 2023最佳应用论文奖。

图片

图片

论文地址:https://dl.acm.org/doi/10.1145/3583780.3614714

论文所阐述的用户行为表征建模成果主要由蚂蚁集团基础智能部(NextEnv)- 机器智能团队和蚂蚁集团信贷事业群风险管理部 - 信贷风险团队共同完成,并在蚂蚁金融风控的多个业务场景得到了实践检验,研究代码计划将开源。

1. 背景

在过去几年的工作中,我们通过层次化的序列建模等技术挖掘用户行为序列中的风险信息,帮助金融风控、保险等业务的众多场景提升了风险识别能力。在支持业务的过程中,我们也逐步认识到金融风控场景中不同业务场景的差异较大,针对各场景单独建立的模型仅关注场景相关的用户特性(例如还款概率预测关注用户行为中好的方面,而反欺诈模型更偏重挖掘用户行为坏的方面),难以学到跨场景通用、泛化性好的行为表征。针对该问题,我们尝试打造通用的用户表征模型,提升所学到的行为表征在多个业务场景与任务下的通用性,同时提高支持不同业务场景的效率。

在当前工作中,我们基于人类行为在一定的时间范围内具备一致性这一朴素常识,提出了多时间尺度分布预测的用户表征学习方法 (MSDP),通过预测用户在未来一段时间内的行为分布代替原有的 Next Item (Behavior) Prediction 任务,并基于人的行为包含不同的周期性的特点,设计了不同尺度的时间窗口随机采样。和原有方法相比,学习用户不同时间段的行为分布这一任务设计,极大的提升了习得表征的鲁棒性,对下游不同任务具备更好的泛化能力。具体方案与模型效果详见下文。

2. 方法介绍

图片

                                    图 1:多尺度随机分布预测框架图

2.1. 问题定义

将用户 u 发生在时间 (0, T] 内长度为 t 的行为序列 s 定义为如下形式:

图片

图片表示行为序列中的第 i 个行为,用户的行为有 K 种离散值构成。我们的目标为设计自监督的任务构造预训练模型,从序列图片中抽取行为序列表征向量图片。如图 1 所示,预训练任务主要通过多尺度随机分布预测(Multi-scale Stochastic Distribution Prediction) 用于学习鲁棒的序列表征,并设计对比学习任务作为模型正则化的方法。下文将对方法进行详细介绍。

2.2. 多尺度分布预测

用户行为的多尺度分布预测包含 3 个部分:

  • 预训练任务:预测用户未来一段时间内的行为分布。

  • 训练方法:多尺度随机训练,以不同 size 的时间窗口作为 prompts 学习用户行为中的不同周期信息。

  • 对比学习正则化项:避免模型过拟合到预测未来行为分布上。

2.2.1. 分布预测

给定发生在时间 (0, T] 内的行为序列图片,我们通过用户发生在时间窗口 (T, T+W] 内的行为作为自监督信号。如前文所述,用户的行为由于随机性与噪声的原因,准确预测未来 (T, T+W] 的特定行为是比较困难的,但由于用户行为在时间上具有一致性,整体的行为分布是可预测的。

具体的,以用户的 K 种行为在未来的时间窗口期 (T, T+W] 内发生的概率分布作为预测目标,ground-truth 标签可以表示为,W 表示观测的时间窗口,作为 prompt 输入给模型。整体预测行为分布的损失函数可以表示为:

图片

其中图片图片分别表示针对第 k 种行为的 ground-truth 标签与预测概率,图片是行为分布预测模型图片的输出结果,图片则是行为序列表征的中间层 embedding,直接作为下游任务的输入使用。

2.2.2. 多尺度提示训练

时间窗口 W 的设定对用户行为表征图片在下游任务中的效果有很大的影响。如果使用固定的时间窗口,当下游任务需求与预测的时间窗口接近的情况下,所学习的用户行为表征能有较好的效果,但若下游任务与预测的时间窗口差异较大时,用户行为表征的应用效果可能大打折扣。例如,设定 W 为 30 天时,所学得的用户行为表征,应用在 “预测用户未来 30 天是否还款” 这一任务上,要好于在 “预测用户未来 60 天是否还款” 这一任务上的表现。

为了支持业务上的灵活使用和高效扩展,我们需要用户行为表征具备更强的通用性 (对于不同的下游任务都能有较好的效果)。常规方法使用多任务训练的形式,即同时针对多个时间窗口的行为分布进行预测,但如果要穷举完所有可能的时间窗口,又会引起任务数的急剧膨胀,为模型学习带来困难。

为了解决该问题,我们对每个样本都随机生成 N 个不同的时间窗口 W,将 W 作为 prompt 结合用户的行为序列图片,以及 W 下的 ground-truth 标签图片构造新的增广样本图片。其中每个 W 都从一个均匀分布中随机采样:

图片

其中图片图片为设定的最小、最大窗口尺寸参数

2.2.3. 对比正则化

除了行为分布预测的自监督任务之外,我们还设置了一个对比学习的任务作为正则化项,避免模型只是过拟合到预测未来的行为上,而忽略了用户行为序列中的隐层信息。具体的,我们随机 mask 掉行为序列中的若干个行为表征 e,令经过序列模型编码后的序列表征图片要与原始未做 mask 的序列表征图片尽量相似,目的是令模型更能从用户的行为序列中挖掘出整体的表征信息来表示该用户的风险或兴趣偏好。具体的目标函数设定与 SimSiam 中的类似,最大化图片图片的余弦相似度,即:

图片

其中图片表示经过 mask 部分行为后的序列表征。

2.2.4. 目标函数

当我们从均匀分布中随机采样 N 个不同的时间窗口时,总体的目标函数由多尺度随机分布预测项与对比正则化项构成,如下所示:图片

其中 λ 为非负的系数,用于控制对比正则项的强度。

2.3. 下游应用

图片

                                         图 2:用户行为表征训练以及下游应用方式

如图 2 所示,使用用户在 (0, T+W] 时间内的行为用作用户行为表征的训练数据,其中 (T, T+W] 的行为分布作为自监督信号,并将 (0,T] 的行为序列图片编码为序列表征向量图片。在下游业务实际应用时,则可以使用最新的行为(W 到 T+W) 产出表征向量图片,并将图片用作不同下游任务图片的输入特征。

3. 实验

为了验证方法的有效性,我们使用了 1 个业务数据集以及 1 个公开数据集来构造下游任务,并与 NBP 与 MBP 的预训练方法产出的表征做了对比。

3.1. 实验设定

为公平比较,模型训练中统一使用参数相同的 transformer 的 encoder 作为序列编码器,下游任务统一使用 1 个包含两层全两阶层 (维度为 512, 256)的 DNN。

3.1.1. 数据集

1)业务数据集:用户行为序列数据为其在蚂蚁域内的资金行为,例如线下支付、淘系支付、借呗还款、支用等。我们选取了 top200 高频的作为预测目标。使用用户的还款概率预测作为下游任务,针对逾期用户在未来的若干天内是否还款,具体设置了 5 种下游任务,预测用户在未来 5 天,15 天,30 天,60 天,90 天的是否会有还款行为。

2)天猫数据集:用户行为序列数据包含用户在天猫的点击、收藏、购买的商品,下游任务设定为预测用户未来若干天内最感兴趣的商品类别(使用点击次数最多的商品作为最感兴趣的),具体来说,分别预测用户在未来 5 天,15 天,30 天,60 天,90 天最感兴趣的商品类别。

3.1.2. Baselines

3.1.2.1. 单任务

对比的 baseline 方法分为两种:一种是经典的 MBP 与 NBP,例如 BERT4Rec 为预测用户被 mask 的行为,PTUM 在 MBP 的基础上还包含了预测用户 next k 个行为的 NBP 任务。其他的方法除了 MBP 与 NBP 预训练任务外,还包含对比学习的任务,例如 UserBERT,以及与行为分布预测类似,但是为预测一个固定时间段行为分布的方法 SUMN。

此外,我们还对比了固定一个时间窗口的分布预测方法 static-DP,与 SUMN 的区别在于 DP 的预测目标为行为是否发生,而 SUMN 的需要预测行为的发生频次。

3.1.2.2. 多任务

为了对比多尺度提示训练方法的效果,我们也设计了两种多任务的方式作为 baseline。即 Multi-task SUMN 与 Multi-task DP (MTDP,将 static-DP 改为多任务的形式)。多任务的模型结构都采用 shared bottom 的形式,即在序列 encoder 输出表征图片之后为每一个任务设定一个分支,每个分支的结构与单任务的 MLP 参数一致。下游应用的表征仍然为图片

3.2. 实验结果

图片

图片

从表 1 与表 2 的实验结果看,MSDP 在两个数据集上都要优于其他方案。实验结果分析如下:

1)DP vs. MBP 与 NBP:DP 类的预训练方法(包括 static-DP,MTDP,MSDP)都显著优于 MBP 类方法(如 BERT4Rec)或 MBP 与 NBP 结合的方法(如 PTUM),以及当前 SOTA 的用户行为预训练方案(如 UserBERT)。从结果表明 MBP 与 NBP 类的方法由于用户行为中的随机性等问题,不太适合用于构建稳定的用户行为表征,而 DP 类的方法对学习鲁棒稳定的用户行为表征更有帮助的。

2)多尺度提示训练:对比 static-DP 与 MSDP 的结果,使用多尺度提示训练的效果优于固定窗口训练的用户行为表征。对比 MTDP 与 MSDP,MTDP 效果不如 MSDP,分析可能的原因在多任务之间的差异影响了 shared 部分的表征学习,而 MSDP 由于有为窗口参数 W 设置独立的 embedding,可以通过 W 的 embedding 区分不同时间窗口行为分布的差异,因此学习中受任务之间差异的影响更小,同时也能够学到不同任务之间的共性信息。

4. 总结与未来展望

本文主要研究用户行为序列表征预训练这一课题。传统的方法遵循 NLP 中的预训练方式,通过预测特定的 mask 行为(MBP)或未来 k 个行为 (NBP)来设定预测任务。但这两种预训练方法不适用于噪声和随机性较大的用户行为序列建模。基于用户行为具备一致性的假设,我们提出多尺度随机分布预测(MSDP)算法,用于学习更加鲁棒的用户行为序列表征。MSDP 算法的主要贡献如下:i)提出预测用户在一段时间内的行为分布,代替预测特定的行为;ii)提出了一种多尺度提示训练方法来对不同时间尺度的时间窗口进行采样,用于模型训练。在实际工业场景与业界公开的数据集上,MSDP 都取得了显著的效果。

近期以 ChatGPT 为代表的大模型兴起,让我们更加相信通用人工智能之路的可能。也让我们坚定了,在蚂蚁之内,使用一套通用的建模思路来提升多数据多场景信息融合的信心。未来我们希望在预训练的基础上,借助 LLM 的能力引入语言模型中丰富的外部知识,利用语义明确的文本构建跨域信息桥梁,持续探索全域建模解决之路。在当下已有工作基础上,以 prompt learning 方法兼顾多场景多任务持续建设用户行为序列统一表征框架 UNIBehavior,实现跨场景中下游业务的快速支持。

工程用户行为表征模型蚂蚁集团CIKM 2023
1
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

推荐文章
暂无评论
暂无评论~