应对金融大数据挑战 从个体到群体风险预测:氪信技术干货全析

近日,上海交通大学上海高级金融学院联合世界知名高校及科研院所举办2019国际金融科技会议,氪信科技创始人兼CEO朱明杰博士代表年轻的AI创业公司,向与会者阐述了氪信深耕金融领域头部机构的“秘密武器”,这不仅是氪信首度公开的一份较全面的技术干货总结,也是通过一系列实践经验对AI金融痛点和难点的系统性梳理,因此对于AI时代如何抢占金融科技制高点,具有前瞻性意义。

谢谢李教授,谢谢各位,很高兴又来到高金。我们公司成立第一年就在这附近的番禺路上,技术合伙人全是交大的,所以我们经常过来吃午饭,吃了饭以后溜弯转转。

今天讲这个题目非常得理直气壮。两方面的底气,首先我做了十几年的AI,以前在互联网行业里用算法和AI解决问题,觉得理所当然。当时金融界的朋友讲了大数据给他们带来的挑战,我觉得算法或许可以用得上,于是开始进到金融行业实践,从15年底做这件事,一不小心做了差不多4年;另一个底气,是氪信刚成立就和民生银行合作,解决小微企业信贷难的问题。在座的应该比较清楚,给小微企业放贷的风险压力很大,我们当时和民生银行启动了以大数据为特色的小微3.0项目,尝试用大数据解决风险攀升的问题,效果很好,去年6月末,民生银行的小微企业贷款余额已经达到了6500余亿元。16年开始,我们和招商银行合作,那时候招商银行希望通过智能方式拓展线上零售业务,我们开始陪伴招商银行智能升级,从风控、反欺诈延伸到营销、催收等,合作主体也从信用卡中心扩展到了零售信贷;去年开始,我们又和四大行合作,解决数亿账户体量带来的智能金融业务挑战以及对公业务等,所以我们从一开始成立走到现在,其实是经过了发展理念最先进、要求也最高的银行考验的一家AI公司。

同时我们在国际的顶级学术会议上也发表了一些论文。一个创业公司还有空发论文,感觉有点不务正业,其实是因为我们有挺多的实践和数据处理经验,就顺便发了一些论文。昨天跟几位教授和同行吃饭,有人说我们公司的论文已经成为一些公司的面试题,这让我压力很大。

AI应对另类大数据业务挑战

今天大家讲金融大数据,主要都在说强金融数据之外的“另类数据”。我们这些做计算机工作的,能感受到风控专家最痛苦的地方,是他们希望按照以前定规则的方式,把这些数据编码到以往的评分体系里。比如以前你可以根据工资多少、纳税多少做评分卡,所以对那些金融概念之外的数据,比如一个人一天和多少人打电话,他的互联网行为、社交状况等,风控专家一开始也想根据传统经验把这些数据变成特征变量,结果发现它们远远超出了评分卡可处理的范围。

我们刚好很擅长做这件事情,因为以前我们在互联网里面处理的就是这些数据,我们训练机器在一堆照片里识别谁是章子怡,不是告诉它谁长得美长得白就是章子怡,不是这样的。但是我们依然能做出识别率非常高的模型,这里面没有什么神奇的单项技术,它是一系列技术。同理,我们今天用AI技术去处理金融领域的另类数据,也不是围绕一个非常fancy的技术,不是首先要迁就人的理解范畴,我们是为了达到实际效果才出发的。所以,我们发表的学术论文也有非常好的实践效果来支持,我今天有底气来讲一讲氪信在学术上的成果。

三种“另类数据”的处理方式

首先给大家展现的是一篇综述性质的文章,里面总结了一系列氪信用另类数据构建强风控体系的工作。

一般来说,难以做成评分卡的另类数据主要包括动态时序类、文本类、网络类三种,这些让风控专家束手无策的数据问题,机器都能解决。总的思路是在金融场景下,将专家的经验变成机器能够理解的数据,不断训练机器,提高机器的学习能力,最后让机器处理人力无法解决的问题。

时序数据是基于时间的一系列数据,如果风控人员要用评分卡把这类数据归类成一个一个特征变量会极其痛苦,但是机器不同,它可以存储和处理大量的时序数据,是一种关注总体而非个别节点的方式。这是我们跟京东金融的一个合作成果,相关论文发表在2018年的KDD上,主要是处理发生在APP上面的序列化行为,比如个人注册了一个页面,输入了一些信息,点击的速度,从左边滑还是右边滑……这样一些数据,然后从中找出有欺诈嫌疑的一些人的特征,并提出了一套行为事件流时序模型框架。这套框架的提出基于一个很自然的想法:这些年大家多用深度学习,尤其是LSTM(基于深度循环网络的特征提取框架),它特别适合处理时序型数据。所以我们就把这类序列行为编码到我们的LSTM模型里去。

同时我们是一个非常看重实际使用效果的公司,所以做到这一步还不够,我们还有一套框架是用CNN的模型对序列行为衍生特征。这个过程中我们会得到额外的信息量,今天我也很难解释这两者结合起来为什么效果会更好,对具体结果感兴趣的,可以看我们在KDD 2018上面的paper。

这是文本类数据的处理方式。在金融行业,以前大家可能对文本数据束手无策,因为你很难将一系列的对话文本转变成数字化变量,解释给计算机听,最后还能输出结果。对于文本信息的处理,当今全世界资源最多、最先进的AI公司,比如说谷歌和微软,也没有能完全解决人的自然对话难题。但是我们能做到什么呢?我们能做到在一个限定的场景里面,给出一个很好的结果。因为你每对它多做一个限制,你的计算复杂度就会降低很多,在有限的计算资源和技术条件下,就能得到一个足够好的效果。举个最极端的例子,如果能简化到一个问题,其实应用规则就可以解决了。这个领域的学术成果,我们也有几篇论文。

第一篇论文主要讲我们建了一套QA问答体系的特征,从一段文本最后变成数值化的向量,其实是有标准做法的。但是我们发现,在一个限定的场景里,比如说客服场景是一问一答的方式,单单用X-Encoder(基于无监督深度学习的特征提取框架)是不够高效的,于是我们做了一套针对QA的基于X-Encoder的催收风险模型交互式特征提取框架,专门适合金融领域的一问一答。

第二篇论文是关于提取客户标签的,通过对话把你的context提取成标准事件。这件事的关键点在于,今天金融机构的客服人员,都是被训练成机器一样在工作,一个新人招进来以后,就用标准化的培训模板去教导他,告诉他比如客户讲了这句话以后,你要讲哪些话,怎么给客户打标签等等。所以我们的工作是构建一个知识库,建立标准对话流程预测体系,让这个新人可以更快地上手。我们更长远的打算,是希望机器训练机器,而不是机器训练人。今天我们和一些合作伙伴一起,已经在做这方面的探索,后续应该有更多有趣的工作出来。

第三类网络数据,因为个人数据非常有限,尤其在金融领域,我们大家都在讲大数据风控,其实需要大量的训练样本,但金融场景里面的训练样本是非常宝贵的,比如你想获得一个人是坏人的样本数据,那么至少得有一笔几万块的坏账,这个成本非常高。这跟我们以前做互联网预测分析不一样,用户喜不喜欢一部电影,一个广告,或者一个手机壳,这件事情的成本没那么高。我们的做法是找到类似的人,从他的申请资料和社交关系上面去抽取知识,做聚类。当你发现了一个坏人,那么跟他类似的那群人是坏人的概率就非常高。也就是说,当你找到有效的群体之间相似这种关系以后,是有助于对个体风险做识别的。当然仅仅个人的大数据还不够,我们还需要借助更多的大数据,最后用集成模型把个人的风险特征和局部网络、全局网络上建立的风险特征结合在一起,提升风险预测效果。

模型的可解释性:AI下一个突破点

刚才讲的是几类不同类型的另类数据处理办法,这个过程中我们始终有个挑战,那就是你做的模型是一个黑盒,没有办法解释。我不能告诉金融机构,谁用了这种方法,效果很好,这对金融机构来讲是不能接受的,你一定要告诉他为什么。这其实也是整个AI领域最头痛的事情,在业务场景特别明显的地方,比如医疗领域,困难更加明显,比如AI诊断说要切掉一条腿,为什么?你不能说是model预测的,或者最后说model出错了,那这个医院肯定是会关门的。

所以模型的可解释性是深度学习突破之后AI面临的新挑战,在通用模型上目前我还没有看到特别好的解决办法。但是在具体的金融场景里,我们可以在某种程度上给出解释。有两个办法:一个是局部的近似,用低维模型拟合高维模型,它参考了博弈论里面的东西,最后得到最优的决策,是倒推博弈论的过程,这个我们有成型的产品,用在了我们的风险解决方案里面;第二个是把AI模型里最重要的几个特征变量找出来,解释给业务专家听。

效果第一

刚才讲的是技术,现在可以看看实践的结果,左边第一个是带有时间先后序列特征的结果。指标得话主要就是模型区分度,KS值和AUC。按照KNN的通常做法KS值是0.142,再用一个神经网络去做MLP,KS值达到0,167。加上这些特征以后,进一步提升到0.203,在一个典型的场景上,加上行为数据,KS值可以做到0.216,差不多提升了50%以上。

第二个是短文本信息提取模型效果,传统做法和利用AI模型的做法在数值表现上效果差不多,但是后者的扩展性更强,因为原来要求人非常有经验,时时想着应对策略,有了这个框架以后就不用人费力去调参了,机器会替代部分人力工作。

第三个是对社交网络数据的使用效果,如果只是单纯用个人的风险数据,KS值是0.3,加上我们基于图的特征以后,有类似于人群的特征,很明显提升到0.38,这是非常了不起的结果。

右边是加入上述三种类型数据以后的综合表现,我们也可以看到KS值是不断增长的。 

从个体数据处理经验迁移到群体

刚才讲了个体风险的一些数据处理经验,现在讲讲群体的风险及解决方案。这两年监管对反洗钱和可疑交易监测要求很严格,以前国内监测个人的欺诈风险,主要是基于规则和个人上报,风险运营部门会用很多人工去找,效率很低,现在欺诈的手段层出不穷,就需要用人的规则和以前发生过的欺诈事件训练机器去抓。原来为了抓可疑交易,假设要雇一百个人人工去看,现在是一百个风险运营的人等着看机器提供的样本是不是对的,再反馈给机器,让机器训练得更加准确。

这里的关键是使用图算法。在互联网行业专门有做图算法、图解决方案的公司,提出解决方案来,发现一直没有成功的。总结起来是两个点,一定要根据行业知识来做降维;还需要一套有效的计算体系。我们的列式计算引擎能够在15分钟内处理百亿级别数据,这在以前是很难想象的。

还有五分钟,我大概讲一下处理的方法。最下面是原始资金的交易流水。我们知道银行的交易流水量非常大,不大得话,人工就可以解决了。交易流水形成两个东西:

首先互相帐户往来会建立起一个大的Graph,我们会给定以前的可疑种子结点,经过局部社区算法找到跟它关联的可疑子社区,比如说放进去10万个可疑种子,找到10万个跟它相关的社区。这10万个社区里一共是上亿的帐户。其中90%以上的都是好人,我们就对其余10%的人群进行重点布控。

另外,我们基于风险专家的经验形成风险知识图谱,这是一般风险专家会去考虑一个交易往来的特征,从金额、模式、速度、场景方面考虑。

结合这两个东西来做图的深度学习预测模型。有了这个模型指导以后,由单个种子去触发。使用ACL优化的PPR算法,加上Sweep-cut算法,实现大规模的挖掘。最后做到一件事情:通过种子的节点去找密切的社区,学到图的结构,找到更可疑的人。

讲完原理,我再举个例子。比如一个大银行的房贷系统,发现几十个帐户,都和叫“X琴”的人有关系,和她的资金往来非常多, X琴可能是中介,或者专门职业给人提供首付、中间过桥的,这里面肯定不正常。如果纯靠人工去找的话,很难从几十亿交易流水数据中找到这样的东西,但是通过图挖掘可以一目了然看到X琴的帐户有问题。

这是我们今天的分享,最后想说“AI+金融”的实践,我们作为外行,有幸和金融专家合作,得到还可以的结果。希望更多同学与我们有更多合作。

谢谢大家。

产业神经网络氪信知识图谱
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
京东金融机构

京东金融集团于2013年10月开始独立运营,至今已建立起十大业务板块——企业金融、消费金融、财富管理、支付、众筹众创、保险、证券、农村金融、金融科技、海外事业,实现了公司金融和消费者金融的双重布局,并实现了国际化。截至目前,京东金融累计为800万线上线下商户,3.6亿个人用户提供支付和金融服务。京东金融目前是在全球范围内为白领、中产阶级提供金融服务最多的科技公司,也是覆盖中国农村范围最广,服务农民数量最多的金融科技公司,是全球金融科技领域增速最快的公司之一。京东金融集团依托京东体系内数亿用户以及数十万合作伙伴所积累的电商数据、金融数据以及各类第三方数据,利用人工智能、生物识别、云计算、区块链等新兴科技,开发出风险量化模型体系、精准营销模型体系、智能投顾模型体系以及用户洞察模型体系等诸多前沿应用模型体系,并应用于金融场景之中。其中,京东金融风控体系利用深度学习、图计算、生物探针等人工智能技术,已实现无人工审核授信和放款,逾期率和资损水平低于行业平均值50%以上。此外,京东金融还实现了智能风控能力的输出,帮助银行在信贷审核上效率提高10倍以上,客单成本降低70%以上。京东金融频频获得国际学术界的肯定。包括,企业金融服务能力享誉全球,是目前唯一荣获《经济学人》旗下欧洲金融颁发的“全球卓越司库奖”的中资企业。信贷风控荣获《亚洲银行家》信贷风控技术实施奖,是中国区唯一获得此奖项的科技公司。智能风控实验室利用RNN循环神经网络算法进行用户行为路径学习,反欺诈准确率超过目前市场平均水平3倍以上,该算法发表在世界顶级机器学习学术会议之一PKDD2017上,成为世界级的科研成果。

氪信科技机构

氪信成立于2015年,是中国最先进的人工智能金融风控服务商,为金融机构和企业提供人工智能的风险预测和判断能力。 作为第一家深入全国大型股份制银行核心风险控制系统的初创科技公司,氪信利用经互联网超大规模流量检验的高维数据处理和机器学习技术,融合大型金融场景打磨形成的强大知识系统和经验,以超越人工定义的深度及广度对数据进行价值挖掘,帮助金融客户实现数据驱动的效率最大化,取得持续的业绩增长。 氪信 致力于利用机器学习领域的深厚知识和经验积累,在各类金融场景中不断验证、应用、优化、抽象出完整的场景化风控解决方案和产品体系,真正地协助金融客户实现新业务的快速成型,形成数据到金融业务持续优化的闭环系统。

http://www.creditx.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~