徐竑 平安科技安全产品专家嘉宾极验侠客行来源

图分析方法在业务风控中的应用

黑产,大家并不陌生了。目前有超过1000万+的身份信息被滥用,超过200万+的黑产从业者,超千亿的市场规模。今天就跟着我们的嘉宾一起来看一看图分析在风控业务中的应用。

现状

首先来看一个业务场景,比如互联网上的营销活动。很多互联网平台为了拉新留存,提高用户活跃度,都会采取一些营销活动或者策略,包括注册送红包、送优惠券等。这些活动会吸引来大量的薅羊毛用户,也就是羊毛党。他们通过批量操作或者平台的漏洞来大量领取企业或者平台提供的福利。而其最大的危害在于:
  • 与企业做活动的目的背道而驰
  • 企业因为羊毛党的介入而产生大量的损失
所以我们开始关注这块业务风控的问题。

黑产批量操作的一些手段包括:
  • 猫池养卡
猫池实际上就是养卡设备。即一个号码卡插槽,可以在不插卡的情况下将整张卡插到猫池里,连接电脑后使用,还可以接收短信验证码。
  • 设备农场
群控软件可以帮助黑产同时操作多台手机,目前的农场可以直接十万级甚至百万的手机同时操作,伪装成互联网用户进行各种欺诈。
  • 身份冒用
欺诈者通过黑产网络购买用户身份证、银行卡资料、冒用他人身份,盗用他人账户进行欺诈。

方案

面对有规模的黑色产业链,我们要采取怎样的风控方案呢?

我们的整个业务防控流程是一个漏斗状的模式。由上至下包括:

  • 设备识别层
在设备端完成计算,直接识别一些黑产设备和环境。比如是不是模拟器,设备是不是装了黑产需要的插件(修改GPS等)。
  • 快速识别层
黑白名单或者标签,快速放过或者拒绝,减轻后续压力。
  • 深度识别层
专家规则,做一些地域分析,简单的同IP分析,手机号分析等。根据专家分析经验配置各种风险识别策略。
  • 模型层
会做一些模型部署在风控的整个链路上面,异步构造多种请求数据的特征,利用更复杂的模型进行风险识别。
  • 决策层
最后就是利用上面层层分析的结果,可以进行决策。比如风险最高为输出或者进行一些权重计算,最终得到一个风险决策。

图分析在我们这里,主要是放在模型层。

模型层方案

模型层的方案主要分为两大类可解释模型和深度学习模型。

可解释模型

以决策树和逻辑回归等为方案的类规则引擎的传统机器学习模型。

优缺点主要表现在:

  • 产生的规则可控可解释
  • 可加入专家知识进行补充
  • 简单易操作
  • 对新类型欺诈缺乏检测能力,规则需要定期维护

深度学习模型

神经网络等为方案的深度学习模型。

优缺点主要表现在:

  • 基于历史数据可动态调整规则
  • 在很多领域被实践证明有效,且效果好于规则引擎
  • 大部分方法的过程不具解释性
  • 需要大量历史数据和标签数据

关联分析

不管哪种机器学习方案,其针对的都是单条的数据(在不考虑图嵌入的情况下),但当前的欺诈行为大多数都是团伙作案,所以通过图分析方法可以来识别这些欺诈团伙。

团伙识别的分析对象为复杂网络,指由数量巨大的节点和节点之间错综复杂的关系共同构成的网络结构。复杂网络的研究是现今科学研究中的一个热点,与现实中各类高复杂性系统,如的互联网、神经网、社会网络、蛋白质网、航班网的研究有密切关系。主要是区别于简单网络,如晶格网络,随机图等结构所不具备的特性。


图简介

一个图 G =(V, E) 由一些点及点之间的连线(称为边)构成,VE分别为 G 的点集合和边集合。在图的概念中,点的空间位置,边的区直长短都无关紧要,重要的是其中有几个点以及那些点之间有边相连。

图的性质和概念有很多,我们在识别羊毛党这个场景里主要关注三个概念。一是无向网络,无向网络主要关注两个节点之间有无连通关系。

二是异构网络,如上图所示,不同节点有不同的属性。比如用户的一次行为可以包含很多属性,比如手机号、IP地址、设备信息等。我们会将一次用户请求放入图中,通过属性信息关联起来。

第三个概念是二度关联。图中如果两个节点连通,要通过多少中间节点才能到达。通过的中间节点越少,两个节点的关系越紧密,反之则关系越松散。一般来说,用传统流量的方法来进行统计都是一度的统计。比如同手机号多账号的情况。而图不同,可以做无限递归,比如同手机号关联多个账号,可以再往外扩节点,比如这些账号还有没有关联其他手机号,可以层层往外关联。

图分析

社区发现是一种常常被用于客户精准营销的无监督聚类算法,根据客户各个维度的信息,将其归并于某一特定群组,并对不同群组的客户采取差异化的营销策略。除了用于精准营销,分群算法还可以用于离群行为的检测,即,检测哪些客户的行为与同一群体的其他客户不同。这些离群行为或是预示着这些客户处于某些特殊事件情境中,或是预示着欺诈行为。

基于标号传播

形成图的关联关系之后,会有一些好的标签和不好的标签(白和黑)。然后让节点自然的往外拓展,拓展的方法是“近朱者赤,近墨者黑”。我们可以简单的认为,跟白的关联的则是好的,跟黑关联的是坏的,既关联白又关联黑的则根据权重计算。

  • 实现简单,运行速度快,可应用在大型网络中
  • 本质上也是优化模块度的方法
  • 缺点是稳定性不高,且收敛上也有问题

基于模块度

该方法的特点是将点和点之间的边做一个权重的设定。比如手机号和IP,IP的权重会低一些,手机号等同于一个账号,权重会高一些。以优化模块度作为目标,只是有很多种迭代的方式,包括聚合、分裂和直接寻优。聚合的代表算法是FN、CNM等、分裂的是GN算法、直接寻优的都是用群体智能的那一堆算法,包括GA、PSO等。

  • 实现效果很快速
  • 形成的社区相对比较稳定
  • 设定权重会加入一些专家经验,具有一定的可解释性

基于信息论

先形成一个大的子图,再随机生成一些小的社区,然后在整个图中做随机游走和遍历。比较经典的是DeepWalk 的随机游走算法,借鉴的是语义分析中词向量的表达。本质上也是图嵌入的一种,有论文表明该方法是目前非重叠社团发现中准确度最高的。

无论是哪种方法,本质上还是希望将社区内信息更加紧密,社区与社区之间做到足够松散。

图分析方案

针对业务风控团伙识别方案,主要分为3个大的步骤,分别是:

  • 构建置信网络
  • 切分连通子图并计算社区团伙
  • 计算节点属性并落地


置信网络

置信网络是指点之间的边都是“强”连接的边,理论上一次请求最多只有节点类型个节点个数,所以从单子图来看,超过该节点个数为可疑节点,且超过指定阈值的可直接判断为异常。

如图所示,红色的节点是手机号,周边的节点有 GPS、imei、ip 地址等。下图是分析的理论结果。

我们可以看到会有一些节点周围聚集了很多的节点,一般情况下正常的用户是不太可能形成这种模式的。很大程度上这样的模式是黑灰产团伙的行为。

切分连通子图

对置信网络的子图切分可以初步区分正常节点(子图节点大小小于等于节点类型大小)和可疑节点(子图节点大小超过一定阈值)。对于单个子图内部,度大的节点可以视为该子图的“中心”节点,可重点关注。

社区发现

对单个子图进行社区发现,可以对较大的子图进行进一步的切割,发现其中的社区聚合规律。本方案是用的 Louvain 社区发现方法,该方法在运行时长和效果上均优于其它方法(对比结果见附页)。Louvain 方法本质上是串行的迭代方法,并行化改造会降低其聚合效果,本方案采用的是单节点单子图的串行计算方式。


价值

我们看一个常规的案例,1 天内同终端多手机号规则阈值是10,第 11 个账户开始被拒绝,本例同终端共登录 33 个手机号,规则拦截 23 个,准确率 100%。通过图关联7天的数据发现这个集合共 46 个手机号,规则覆盖率 50%,关联补充的 13 个手机号中有 3 个命中其他的拒绝规则,另外 10 个手机号没有触发规则,图关联方式识别欺诈,可以补充手机号 43.47%。

另一个案例,根据置信构建中的要素构建的图关联,在人工分析后发现新的衍生特征:同GPS(.563582,.001250 )多账户,识别出一个新的模拟器。

还可以进行设备伪造识别,IOS 系统设置的节点包括 did、idfv、idfa,安卓是did、UUID、imei。理论上说,一个用户设备的这三个值应该是比较稳定的,不会有其他的节点与之相关联。所以一个用户请求会产生两到三个这样的设备节点,并且不太会有集群的情况。

那么像上图中存在关联的情况,关联的节点越多,存在的设备风险就越高。比如:

  • Ios:1个IDFA+appname关联多个did(故意篡改did)

  • Android:1个uuid关联大于2个imei(故意篡改imei)

左上角的图中一些带颜色的圈,里面的设备信息非常的多,形成了非常明显的集合,这很大可能都是风险用户了。而右下角的图中黄色圈内的一些节点,相对来说没有那么高的风险。

我们再看一个拉新的业务场景。通过微信转发拉新用户,邀请 3 个新用户关注并注册,奖励 1 元红包;邀请 10 个用户关注并注册,奖励 5 元红包。黑产为了使得收益最大化,它的拉新关系偏向于下图中图例2的模式,而正常用户更偏向于图例1的情况。

因为像黑产为了最大化利益会拉满 10 个人得五块钱是最划算的。重复使用手机号的个数不能太多,多了容易被发现。而正常用户则是,有的会愿意完成任务,有的不愿意,有的完成的少。

所以我们可以结合用户的行为、设备的一些信息以及我们对业务的观察和了解来进行图分析,对于业务风控的价值还是很值得挖掘的。

活动回放链接:http://mudu.tv/watch/5232060

极验
极验

极验是全球顶尖的交互安全技术服务商,于2012年在武汉成立。全球首创 “行为式验证技术” ,利用生物特征与人工智能技术解决交互安全问题,为企业抵御恶意攻击防止资产损失提供一站式解决方案。

产业业务风控图分析
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

规则引擎技术

与基于规则的专家系统(rule-based expert system)涵义类似,通常是依据设定好的规则作出决策的引擎。在计算机科学中,基于规则的系统被用作存储和操纵知识的一种方式,以有用的方式解释信息, 它们经常用于人工智能应用和研究。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

群体智能技术

集群智能(Swarm Intelligence),是指在某群体中,若存在众多无智能的个体,它们通过相互之间的简单合作所表现出来的智能行为,集群机器人便是集群智能一类。它由Gerardo Beni和Jing Wang于1989年在细胞机器人系统的背景下引入。

暂无评论
暂无评论~